E-Mail: [email protected]
- ChatGPT 4 ha superato il 90% dei test logici, mentre GPT-3.5 e Bard hanno ottenuto risultati del 0% nel test di Wason.
- Solo il 10% degli esseri umani risolve correttamente il test di selezione di Wason al primo tentativo, ma le AI spesso commettono errori semplici come scambiare consonanti con vocali.
- Le AI mostrano preferenze numeriche simili agli esseri umani: GPT-3.5 Turbo ha scelto il numero 47 come preferito.
Le intelligenze artificiali generative, come ChatGPT e Bard, hanno dimostrato notevoli capacità linguistiche, ma quando sottoposte a test di ragionamento logico, rivelano una sorprendente mancanza di razionalità. Questo fenomeno è stato analizzato in uno studio pubblicato sulla rivista Royal Society Open Science, condotto dai ricercatori dell’University College di Londra, Olivia Macmillan-Scott e l’italiano Mirco Musolesi, dell’Università di Bologna. Lo studio ha cercato di capire se i modelli linguistici avanzati potessero dimostrare capacità di ragionamento logico e ha sviluppato un metodo per misurarla.
I Test Cognitivi e i Risultati dei Chatbot
I ricercatori hanno sottoposto diversi chatbot, tra cui ChatGPT 4, ChatGPT 3.5, Bard e Llama, a classici test logici di psicologia cognitiva, come il test di selezione di Wason. Questo test prevede la presentazione di quattro carte, due con numeri (3 e 8) e due con lettere (una vocale e una consonante). La domanda posta è: “Quale carta devi girare per verificare la verità della proposizione ‘se una carta mostra un numero pari su una faccia, sull’altra faccia c’è una vocale’?” Solo il 10% degli esseri umani riesce a rispondere correttamente al primo tentativo.
I chatbot hanno spesso fornito risposte diverse alla stessa domanda e commesso errori semplici, come sbagliare addizioni o scambiare vocali con consonanti. Uno dei modelli ha raggiunto una percentuale di risposte esatte simile a quella umana, il 10%, ma ha commesso errori frequenti come scambiare la consonante K per una vocale. ChatGPT 4 ha mostrato risultati eccellenti, superando il 90% dei test, presumibilmente perché il modello era già pre-addestrato su questi test durante la fase di sviluppo.
La Razionalità delle Intelligenze Artificiali
Lo studio ha anche esaminato se sette modelli linguistici di grandi dimensioni (Large Language Models, LLMs) avanzati fossero capaci di ragionamento razionale. I test includevano il problema di Linda e il problema di Monty Hall. La capacità degli esseri umani di risolvere questi compiti è generalmente bassa; solo il 14% dei partecipanti ha risolto correttamente il problema di Linda e il 16% il compito di Wason.
I modelli hanno mostrato irrazionalità nelle risposte, fornendo risposte variabili quando sottoposti alla stessa domanda dieci volte. Erano inclini a fare errori di addizione, confondere consonanti con vocali e fornire risposte errate. Le risposte corrette al compito di Wason variavano dal 90% per GPT-4 allo 0% per GPT-3.5 e Google Bard. Llama 2 70b ha risposto correttamente il 10% delle volte, ma ha scambiato la lettera K per una vocale.
La Preferenza Numerica delle Intelligenze Artificiali
Un altro studio ha rivelato che le intelligenze artificiali hanno numeri preferiti, proprio come gli esseri umani. Quando viene chiesto di scegliere un numero tra 1 e 100, le AI tendono a scegliere numeri come 47, 57 e 42, che sono a metà del range di opzioni. Questo comportamento ricorda quello umano, dove si tende a evitare numeri estremi e a scegliere numeri che sembrano avere più chance di uscire.
GPT-3.5 Turbo di OpenAI ha scelto il numero 47 come preferito, seguito dal 57 e dal 42. Il modello Claude 3 Haiku di Anthropic ha preferito il 42, mentre Gemini 1.0 Pro di Google ha optato per il 72. Questo dimostra che le AI seguono gli stessi ragionamenti irrazionali degli umani, un dato non positivo che dimostra come l’addestramento dei modelli abbia antropomorfizzato le AI, insegnando loro a dare peso a scelte che dovrebbero essere casuali.
Bullet Executive Summary
In conclusione, gli studi dimostrano che le intelligenze artificiali, nonostante le loro avanzate capacità linguistiche, non sono ancora in grado di ragionare in modo completamente razionale. Questo solleva importanti questioni etiche e metodologiche su come addestriamo e utilizziamo questi modelli. È fondamentale comprendere che le AI non “pensano” come gli esseri umani e che i loro errori possono derivare da schemi di probabilità piuttosto che da una comprensione del contesto.
Nozione base di intelligenza artificiale: Gli algoritmi di apprendimento automatico si basano su grandi quantità di dati per fare previsioni o prendere decisioni, ma non comprendono il contesto come farebbe un essere umano.
Nozione avanzata di intelligenza artificiale: I modelli di linguaggio di grandi dimensioni (LLMs) utilizzano reti neurali profonde per analizzare e generare testo, ma la loro capacità di ragionamento è limitata dalla mancanza di comprensione semantica e contestuale, portando a risposte che possono sembrare razionali solo in superficie.
Questi studi ci invitano a riflettere su come vogliamo che le macchine interagiscano con noi: vogliamo che commettano errori come noi, o che siano perfette? La risposta a questa domanda potrebbe influenzare il futuro dello sviluppo dell’intelligenza artificiale.
- Profilo di Olivia Macmillan-Scott dell'University College London, con pubblicazioni relative allo studio sulle intelligenze artificiali
- Studio sulla razionalità delle intelligenze artificiali pubblicato sulla rivista Royal Society Open Science
- Sito ufficiale del professor Mirco Musolesi sull'università di Londra, per approfondire la sua ricerca sull'intelligenza artificiale