Come la nuova versione di GPT-4o cambierà il nostro modo di conversare con le macchine?

GPT-4o è un modello multimodale che può comprendere testo, immagini e video, migliorando la fluidità della conversazione con tempi di reazione ridotti a 200-500 millisecondi.
Presenta nuove funzionalità come la capacità di percepire le emozioni del parlante, adattando il tono della voce e le risposte in modo più umano.
GPT-4o offre traduzioni in tempo reale di conversazioni in oltre 50 lingue, coprendo il 97% della popolazione mondiale.

Il sogno di ogni grande scrittore di fantascienza è diventato realtà: un’intelligenza artificiale capace di conversare e sviluppare legami emotivi con l’essere umano. La rappresentazione più recente di questa idea si trova nel film “Her” del 2013, diretto da Spike Jonze, in cui il protagonista, interpretato da Joaquin Phoenix, si innamora di un sistema operativo. Altri esempi includono Jarvis, il maggiordomo digitale di Tony Stark/Ironman, e il robot Ava di “Ex Machina”. Con l’introduzione di GPT-4o, l’ultimissima versione dell’IA generativa di OpenAI, la possibilità di realizzare sistemi con questo livello di interazione simil-umana sembra più tangibile, una realtà.

Presentato lunedì 13 maggio, GPT-4o – dove “o” sta per Omni – è un modello multimodale capace di comprendere testo, immagini e video. Le abilità di GPT-4o sono impressionanti: nei video dimostrativi pubblicati online dall’azienda di Sam Altman, l’IA mostra capacità di conversazione audio in tempo reale superiori alla versione precedente, il GPT-4 Turbo. Il caratteristico lag (ritardo) nella risposta, che durava 2 o 3 secondi, è sparito. GPT-4o è in grado di percepire le emozioni del parlante, adattando il tono della voce e includendo suoni, risate e canti nelle risposte. Queste ultime sono fluide, ragionate e punteggiate da pause e piccole incertezze che rendono la voce più umana.

Ricevi gratuitamente le news che più interessano. Nessuno spam, puoi disiscriverti in ogni momento.

Nome

Cognome

Acconsento alla comunicazione dei miei dati a terzi affinché li trattino per proprie finalità di marketing tramite modalità automatizzate e tradizionali di contatto.

Durante la presentazione, due ricercatori di OpenAI hanno interagito dal vivo con l’assistente vocale. Su richiesta, l’IA ha creato una storia della buonanotte sull’amore e i robot, variando le inflessioni emotive e vocali. Un’altra innovazione significativa riguarda la computer vision e la capacità di comprendere le immagini: gli utenti possono caricare screenshot, documenti con testo, immagini e grafici, e GPT-4o è in grado di analizzare questi contenuti visivi. In una demo, il nuovo modello ha mostrato la capacità di interpretare selfie, rilevare emozioni e scherzare sulle immagini. In un’altra demo, la fotocamera di un telefono è stata utilizzata per mostrare al modello di IA un’equazione matematica, e GPT-4o ha guidato gli spettatori nella risoluzione del problema.

Indice dei contenuti

Una questione di millisecondi

Quando Google arrivò alla fine degli anni ’90, la cosa strabiliante per noi utenti del primo Web erano i tempi di risposta: su una schermata bianca e pulita c’era una stringa dove scrivere una richiesta, e la risposta arrivava in un certo numero di millisecondi. Il fatto che la nostra domanda potesse arrivare nei server di Google in California e tornare indietro con una risposta sensata e utile in un lasso di tempo pari a un battito di ciglia era magia. All’epoca, la regola sul Web era l’attesa: per andare online serviva un minuto buono, e per caricare un intero sito serviva pazienza.

Ora le cose sono cambiate, grazie alla banda ultralarga e ai processori dei PC, tutto è diventato più veloce e fluido. Tuttavia, mancava ancora la possibilità di conversare con un’intelligenza artificiale con tempi di reazione umani. Se un chatbot o un robot impiegano troppo a rispondere, rivelano la loro natura di essere fatti di silicio, non di essere umani. La nuova versione di ChatGPT, presentata ieri, interagisce con suoni, foto, video e testo, facendo sparire le rotelline e accorciando i tempi di reazione. Adesso vanno da 200 a 500 millisecondi per analizzare una richiesta, capire il contesto, generare una risposta appropriata e trasmetterla dal server al nostro computer. Mezzo secondo al massimo, nei casi semplici, metà di mezzo secondo. Più veloce della reazione umana.

Creando strumenti artificiali capaci di capire il nostro linguaggio e avere un’idea precisa di come funziona il mondo, possiamo dialogare con una prontezza simile a quella delle persone. Se questa innovazione avrà l’impatto di Google nelle nostre vite, questi agenti saranno presto i nostri assistenti personali con cui dialogheremo tutto il giorno. È importante ricordarsi che non sono umani, ma soltanto modelli matematici che danno ottime risposte.

OpenAI vuole che parliamo a ChatGPT come nel film “Her”

OpenAI, la società statunitense specializzata nello sviluppo di sistemi di intelligenza artificiale, ha presentato un nuovo aggiornamento di ChatGPT, il prodotto più famoso e discusso degli ultimi anni. Le novità sono state annunciate durante un evento online organizzato lunedì 13 maggio, preceduto da numerose anticipazioni e ipotesi, compresa la possibilità che OpenAI volesse presentare un proprio motore di ricerca per fare concorrenza a Google.

Durante l’evento sono state presentate nuove funzionalità per dialogare facilmente con ChatGPT a voce e analizzare l’ambiente circostante tramite la fotocamera dello smartphone. La nuova versione di ChatGPT è basata su GPT-4o, la recente evoluzione del modello GPT-4 di OpenAI. Sam Altman, CEO della società, ha spiegato che la nuova versione è stata sviluppata per essere «multimodale», cioè capace di generare contenuti sulla base di indicazioni e comandi da testi, immagini e audio. L’idea è di rendere ChatGPT simile a un assistente virtuale che possa conversare naturalmente con interlocutori umani, fornendo indicazioni, informazioni e contenuti di fantasia.

Le funzionalità rese possibili da GPT-4o saranno a disposizione di tutti, mentre per la versione a pagamento di ChatGPT saranno disponibili opzioni in più e maggiori capacità di elaborazione delle informazioni, per ottenere risposte più velocemente. La diffusione del modello aggiornato è in corso, ma saranno necessari alcuni giorni prima che sia disponibile per tutti. In alcune aree geografiche potrebbero esserci limitazioni, legate alle regole dei singoli paesi sulla privacy. Oltre a essere disponibile su computer tramite browser e su app per smartphone, ChatGPT potrà anche essere utilizzata tramite un’app da installare sul computer.

In precedenza, OpenAI aveva fatto un esperimento con i comandi vocali, mettendo a disposizione un’app per smartphone con una funzione per parlare direttamente con ChatGPT, che rispondeva a voce fornendo le informazioni richieste. Tuttavia, il sistema non era naturale e non permetteva l’interazione quando il sistema non aveva terminato la risposta. La nuova versione di ChatGPT offrirà un’esperienza più intuitiva e diretta, secondo i responsabili di OpenAI. Durante la presentazione è stata mostrata la capacità dell’applicazione di interagire e di farsi interrompere da ulteriori richieste vocali, a differenza degli assistenti vocali che continuano a parlare fino a terminare la risposta.

L’app può essere utilizzata per chiedere a ChatGPT di “vedere” cosa c’è intorno tramite la fotocamera dello smartphone, fornendo informazioni in base al riconoscimento degli oggetti e dei contesti. L’esperienza è stata paragonata a quella di Samantha, l’assistente virtuale di cui si innamora Theodore Twombly (Joaquin Phoenix) nel film “Her”, per la capacità di riconoscere i contesti, interpretarli e dare risposte interagendo naturalmente con l’interlocutore. Altman ha pubblicato su X un post scrivendo laconicamente «Her».

La nuova versione di ChatGPT è ancora lontana dall’offrire un’esperienza paragonabile a quella del film o di altri libri e film di fantascienza, soprattutto a causa degli errori (“allucinazioni”) che i sistemi di intelligenza artificiale producono quando rispondono. Il livello di affidabilità nel dare informazioni fattuali verificate è ancora basso, il che solleva interrogativi sulle implicazioni e sugli effetti delle allucinazioni in particolari ambiti, come quello dell’informazione.

OpenAI sta ottenendo progressi importanti con ChatGPT e altri sistemi di intelligenza artificiale su cui lavora, come DALL•E per la produzione di immagini e Sora per la produzione di brevi video. La società ha grandi risorse finanziarie, soprattutto grazie agli investimenti di Microsoft e di alcuni grandi clienti, e ha scelto di sperimentare i suoi sistemi nei flussi di lavoro. Secondo Bloomberg, OpenAI sta trattando con Apple per potenziare Siri, l’assistente vocale degli iPhone, con GPT-4o e altri sistemi per estendere le sue funzionalità, attualmente limitate. Le grandi aziende tecnologiche statunitensi, con Apple più indietro rispetto alla concorrenza nello sviluppo e nella diffusione di sistemi di intelligenza artificiale, prevedono di fare un annuncio importante entro la fine dell’anno, forse a giugno durante la tradizionale presentazione degli aggiornamenti dei propri sistemi operativi.

ChatGPT-4o traduce in tempo reale una conversazione

Una delle applicazioni più innovative e promettenti di GPT-4o è la capacità di tradurre conversazioni in tempo reale. Questa funzione rappresenta un passo avanti significativo nel campo dell’intelligenza artificiale e della comunicazione globale. La possibilità di comunicare fluidamente tra persone che parlano lingue diverse è resa possibile dalla velocità e dalla precisione di GPT-4o. Il nuovo modello è capace di tradurre conversazioni in oltre 50 lingue, coprendo il 97% della popolazione mondiale.

La velocità è un dono della multimodalità: mentre i sistemi precedenti lavoravano in sequenza, processando trascrizione e conversione da testo a voce separatamente, GPT-4o esegue tutto simultaneamente. Questo permette all’IA di “ragionare” attraverso voce, testo e visione, in una modalità che OpenAI chiama “omnimodel”. Questo approccio ricorda Gemini, l’IA generativa di Google.

La modalità di fruizione della tecnologia è stata resa più accessibile: GPT-4o è disponibile gratuitamente per tutti gli utenti di ChatGPT, mentre gli abbonati possono godere di una velocità d’esecuzione cinque volte superiore rispetto agli utenti gratuiti. Mira Murati, CTO di OpenAI, ha affermato: “GPT-4o ragiona attraverso voce, testo e visione, rendendo l’interazione con l’IA più fluida e naturale”. Tuttavia, le sfide di sicurezza legate alle nuove capacità del modello rimangono. Murati ha aggiunto: “Continueremo a implementare il modello in modo iterativo nelle prossime settimane, prestando particolare attenzione alla sicurezza”.

Le intenzioni di OpenAI sono condivisibili e encomiabili, ma resta il dubbio se sia opportuno rendere subito disponibili al pubblico strumenti così potenti, capaci di un’interazione simil-umana, senza sistemi di sicurezza strutturati e senza il tempo necessario per elaborare e diffondere una cultura della consapevolezza necessaria per utilizzare consapevolmente un’IA che sembra avere un’anima, ma non ce l’ha.

Bullet Executive Summary

In conclusione, l’introduzione di GPT-4o rappresenta un passo avanti significativo nel campo dell’intelligenza artificiale, avvicinandoci sempre più a un’interazione naturale e fluida con le macchine. Questo modello multimodale, capace di comprendere testo, immagini e video, offre una velocità di risposta impressionante e una capacità di traduzione in tempo reale che copre il 97% della popolazione mondiale. Tuttavia, è fondamentale ricordare che, nonostante le apparenze, queste IA non sono umane, ma modelli matematici avanzati.

Una nozione base di intelligenza artificiale correlata al tema principale dell’articolo è il concetto di modello multimodale, che permette all’IA di processare e comprendere informazioni provenienti da diverse modalità (testo, immagini, audio) simultaneamente, migliorando l’efficacia e la naturalezza delle risposte.

Una nozione di intelligenza artificiale avanzata applicabile al tema dell’articolo è il ragionamento attraverso reti neurali profonde. Questo approccio permette all’IA di analizzare contesti complessi e generare risposte appropriate in tempi estremamente ridotti, avvicinandosi sempre più alla prontezza di reazione umana.

L’invito ai lettori è di riflettere su come queste innovazioni influenzeranno le nostre interazioni quotidiane e di considerare le implicazioni etiche e di sicurezza legate all’uso di IA sempre più avanzate. La tecnologia avanza rapidamente, e con essa la necessità di una maggiore consapevolezza e responsabilità nell’utilizzo di strumenti così potenti.

Per approfondire:

Articolo e immagini generati dall’AI, senza interventi da parte dell’essere umano. Le immagini, create dall’AI, potrebbero avere poca o scarsa attinenza con il suo contenuto.(scopri di più)