Gemini AI di Google rivoluziona la robotica: ecco come

Gemini 1.5 Pro permette ai robot di eseguire comandi complessi basati su input vocali o immagini.
I robot alimentati da Gemini hanno ottenuto un tasso di successo del 90% su oltre 50 istruzioni in un'area di 800 metri quadrati.
Le dimostrazioni video mostrano che i robot impiegano tra 10 e 30 secondi per elaborare le istruzioni.

L’azienda ha recentemente rivelato che Gemini AI sta contribuendo a rendere i suoi robot più autonomi ed efficienti nell’interagire con il mondo circostante in modo intelligente. L’integrazione di Gemini nei sistemi robotici potrebbe portare a progressi significativi, con applicazioni in diversi settori, dall’assistenza domestica alla logistica.

Il team di robotica di DeepMind ha spiegato in un nuovo documento di ricerca l’utilizzo del modello linguistico Gemini 1.5 Pro, che ha la capacità di elaborare grandi quantità di informazioni, permettendo agli utenti di interagire facilmente con i robot RT-2 attraverso istruzioni in linguaggio naturale. Il processo prevede la realizzazione di video tour di una determinata area, come una casa o un ufficio, “osservato” dal robot grazie a Gemini 1.5 Pro. In questo modo, il robot impara a conoscere l’ambiente circostante e può eseguire comandi basati su ciò che ha visto, utilizzando input vocali o immagini.

Ricevi gratuitamente le news che più interessano. Nessuno spam, puoi disiscriverti in ogni momento.

Nome

Cognome

Acconsento alla comunicazione dei miei dati a terzi affinché li trattino per proprie finalità di marketing tramite modalità automatizzate e tradizionali di contatto.

Ad esempio, se viene mostrato un telefono e chiesto “dove caricarlo?”, il robot può guidare l’utente verso una presa elettrica. DeepMind afferma che il robot alimentato da Gemini ha ottenuto un tasso di successo del 90% su oltre 50 istruzioni utente in un’area operativa di oltre 800 metri quadrati. Un clip condiviso dall’azienda su Instagram mostra queste capacità in azione.

I ricercatori hanno riscontrato “prove preliminari” che Gemini 1.5 Pro consente ai robot di pianificare ed eseguire istruzioni oltre la semplice navigazione. Ad esempio, se un utente con molte lattine di Coca-Cola sulla scrivania chiede al robot se la bevanda preferita è disponibile, Gemini “sa” che il robot dovrebbe andare al frigorifero, controllare se ci sono altre lattine e tornare per comunicare il risultato. Le dimostrazioni video fornite da Google sono impressionanti, con il robot che impiega tra 10 e 30 secondi per elaborare le istruzioni.

Potrebbero passare alcuni anni prima di condividere le nostre case con robot di mappatura ambientale avanzati, ma almeno questi potrebbero trovare le nostre chiavi o il portafoglio smarriti. Google non ha fornito dettagli specifici sulle modalità di utilizzo di Gemini nei suoi robot, ma è probabile che l’intelligenza artificiale venga impiegata per migliorare la percezione sensoriale, la pianificazione del movimento, la presa di decisioni e l’interazione con l’ambiente.

Non è la prima volta che un approccio simile viene preso in considerazione. Recenti ricerche del MIT hanno ideato un metodo di navigazione che converte le rappresentazioni visive in linguaggio. Anche Microsoft sta lavorando a una nuova API per utilizzare ChatGPT per il controllo di robot, droni e tecnologie simili, mostrando che i limiti delle tecnologie di intelligenza artificiale sono ancora lontani dall’essere raggiunti.

Indice dei contenuti

Come usare Gemini 1.5 per svolgere queste 5 attività

Con Gemini 1.5 Pro, i robot di Google possono muoversi e completare attività con sorprendente efficienza. I risultati dei primi test sono stati sorprendenti. Il modello Gemini AI è destinato a cambiare il modo in cui utilizziamo smartphone e tablet per la produttività e lo svago. Questo è testimoniato dall’ultimo video su Instagram da Google DeepMind.

Il colosso di Mountain View sta utilizzando Gemini per addestrare i robot e renderli più efficienti nel completamento delle attività. Oltre al clip, il team di robotica di Google ha condiviso un documento di ricerca che spiega l’utilizzo di una lunga finestra di contesto di Gemini 1.5 Pro per una migliore interazione con i robot R2-T utilizzando istruzioni in linguaggio naturale. Il processo inizia con un tour visivo di un’area designata, come un appartamento o un ufficio, che il robot deve imparare a conoscere. Dopo aver studiato l’ambiente, il robot può eseguire comandi basati su ciò che ha osservato, utilizzando output verbali o visivi, come indicare all’utente una presa di corrente per ricaricare lo smartphone.

DeepMind ha dichiarato che il robot alimentato da Gemini 1.5 Pro ha avuto un tasso di successo del 90% in oltre 50 istruzioni in un’area ampia (oltre 800 metri quadrati). I robot potranno svolgere anche altre attività, non limitandosi alla semplice navigazione. Nell’esempio del documento di ricerca, un utente con molte lattine di Coca-Cola sulla scrivania chiede al droide se la bevanda preferita è disponibile. Il team ha scoperto che Gemini sa, dopo la richiesta, che il droide dovrebbe dirigersi verso il frigorifero, controllare se ci sono altre lattine di Coca-Cola e tornare dall’utente per riferire il risultato. Il droide richiede dai 10 ai 30 secondi per elaborare l’istruzione, nulla di sorprendente nelle dimostrazioni di Google.

Non vi piace Google Gemini? Come tornare a Google Assistant

Google ha ideato Gemini e lo ha introdotto sugli smartphone Android, sostituendosi allo storico Google Assistant. Gemini è una sua diretta evoluzione, basandosi sull’omonimo modello linguistico di grandi dimensioni (LLM) e beneficiando di capacità superiori al vecchio assistente vocale. Tuttavia, non tutti trovano bene nell’utilizzarlo al suo posto. Ecco come disattivare Gemini e tornare ad Assistant.

Google sta spingendo per Gemini, ma è ancora possibile continuare a usare Google Assistant. Google sta sostituendo Assistant con Gemini per un motivo: ChatGPT. OpenAI l’ha reso disponibile su smartphone, e sempre più persone lo utilizzano per rispondere a domande ed eseguire operazioni complesse che l’assistente Google non riusciva a gestire. Gemini ha le stesse capacità d’intelligenza artificiale di ChatGPT, e si trattava solo di una questione di tempo prima che Google lo integrasse nel suo assistente.

Usare modelli LLM e AI generativa significa che l’assistente capisce meglio, può avere conversazioni più vicine a quelle umane, eseguire operazioni più complesse e concatenate, creare testi, riassunti e immagini. Se avete usato ChatGPT, sapete che apre a una moltitudine di scenari impensabili con Google Assistant, che ha una carriera quasi decennale ed è stato più volte rifinito per funzionare al meglio.

Nonostante le potenzialità, usando Gemini Assistant si può constatare una maggiore lentezza, a volte eccessiva, nell’attivarlo, nel recepire i comandi e nell’eseguirli. A volte i comandi non vengono recepiti e bisogna insistere per farli andare a buon fine. Alcune feature presenti su Assistant sono assenti su Gemini, ma è solo questione di tempo prima che vengano aggiunte. Queste cose non mi sono mai accadute con Google Assistant, per cui ho deciso di accantonare Gemini.

Fortunatamente, farlo è semplice:
1. Clicca in alto a destra sull’immagine del profilo.
2. Clicca su Assistenti digitali di Google.

Se cambiate idea, basta riaprire l’app Gemini e dare conferma per ripristinarlo.

Bullet Executive Summary

L’integrazione di Gemini AI nei robot di Google rappresenta un significativo passo avanti nel campo dell’intelligenza artificiale applicata alla robotica. Con la capacità di elaborare istruzioni complesse e interagire con l’ambiente circostante, questi robot potrebbero rivoluzionare settori come l’assistenza domestica e la logistica. Tuttavia, come ogni nuova tecnologia, ci sono sfide da superare, come la lentezza nell’esecuzione dei comandi e la necessità di migliorare ulteriormente le funzionalità.

Nozione base di intelligenza artificiale correlata: L’intelligenza artificiale generativa, come quella utilizzata in Gemini, si basa su modelli linguistici di grandi dimensioni (LLM) che permettono di comprendere e generare testo in modo simile a come farebbe un essere umano. Questo tipo di AI è particolarmente utile per applicazioni che richiedono interazioni naturali e complesse.

Nozione avanzata di intelligenza artificiale correlata: Un aspetto avanzato dell’intelligenza artificiale utilizzata in Gemini è la capacità di “apprendimento per rinforzo”, dove il robot può migliorare le sue prestazioni attraverso l’esperienza e il feedback ricevuto. Questo tipo di apprendimento è cruciale per sviluppare robot che possano adattarsi dinamicamente a nuovi ambienti e situazioni.

In conclusione, l’evoluzione di Gemini AI e la sua applicazione nei robot rappresentano un entusiasmante sviluppo nel campo dell’intelligenza artificiale. Mentre continuiamo a esplorare le potenzialità di queste tecnologie, è importante riflettere su come possono migliorare la nostra vita quotidiana e quali sfide dobbiamo ancora affrontare per realizzare appieno il loro potenziale.

Per approfondire:

Articolo e immagini generati dall’AI, senza interventi da parte dell’essere umano. Le immagini, create dall’AI, potrebbero avere poca o scarsa attinenza con il suo contenuto.(scopri di più)