Allarme: errori nelle risposte di ChatGPT mettono a rischio la programmazione

Il 52% delle risposte di ChatGPT a domande di programmazione conteneva errori, secondo lo studio della Purdue University.
Il 77% delle risposte di ChatGPT erano più prolisse rispetto a quelle umane, rendendo difficile identificare gli errori.
Il 35% dei programmatori intervistati preferiva ChatGPT nonostante gli errori, per il suo linguaggio formale e analitico.

L’adozione massiccia di strumenti di intelligenza artificiale (IA) per la programmazione ha portato a una rivoluzione nel modo in cui gli sviluppatori scrivono e ottimizzano il codice. Tuttavia, un recente studio condotto dalla Purdue University ha sollevato dubbi significativi sull’affidabilità di ChatGPT, uno dei modelli di IA più popolari sviluppati da OpenAI, nel rispondere a domande di programmazione.

Secondo lo studio, presentato alla conferenza Computer-Human Interaction, il 52% delle risposte fornite da ChatGPT a domande di programmazione conteneva errori. I ricercatori hanno esaminato 517 domande tratte da Stack Overflow e analizzato le risposte generate da ChatGPT, scoprendo che il 77% delle risposte era più prolisso rispetto a quelle umane e il 78% soffriva di vari gradi di incoerenza. Nonostante questi errori, molti programmatori umani preferiscono le risposte di ChatGPT per il suo linguaggio formale e analitico, che trasmette un “sentimento meno negativo”.

Indice dei contenuti

La Preferenza per ChatGPT: Un’Analisi Linguistica

Ricevi gratuitamente le news che più interessano. Nessuno spam, puoi disiscriverti in ogni momento.

Nome

Cognome

Acconsento alla comunicazione dei miei dati a terzi affinché li trattino per proprie finalità di marketing tramite modalità automatizzate e tradizionali di contatto.

L’analisi linguistica di 2.000 risposte selezionate casualmente ha evidenziato che le risposte di ChatGPT sono percepite come più convincenti grazie alla loro articolazione e completezza. Questo ha indotto i partecipanti a trascurare le imprecisioni e gli errori nelle risposte. I ricercatori della Purdue University hanno intervistato 12 programmatori, scoprendo che il 35% preferiva ChatGPT e il 39% non rilevava gli errori generati, attribuendo ciò al modo in cui ChatGPT formula le risposte.

Un documento redatto dai ricercatori Samia Kabir, David Udo-Imeh, Bonan Kou e dal professore assistente Tianyi Zhang ha sottolineato che gli utenti riescono a identificare gli errori solo quando sono evidenti. Quando l’errore non è facilmente verificabile o richiede una particolare conoscenza, gli utenti spesso non riescono a identificarlo, sottovalutando il grado di errore nella risposta.

Le Limitazioni di ChatGPT nella Programmazione

Nonostante ChatGPT sia un potente strumento di intelligenza artificiale utilizzato per scrivere codice in linguaggi come C++, Java e Python, presenta diverse limitazioni. Lo studio ha rivelato che ChatGPT commette errori in oltre il 50% delle domande relative alla programmazione. Il modello ha difficoltà a comprendere domande complesse e a fornire risposte precise. Inoltre, non riesce a distinguere tra diverse lingue di programmazione o a comprendere concetti chiave della programmazione.

Gli esperti hanno evidenziato che ChatGPT sembra avere difficoltà a comprendere il contesto delle domande poste, indicando che una domanda diretta e chiara, priva di sottotesto, riceverà una risposta corretta nella quasi totalità dei casi. Tuttavia, quando la risposta di ChatGPT era chiaramente errata, due dei 12 partecipanti l’hanno preferita grazie al tono piacevole, sicuro e positivo proposto dall’IA.

Implicazioni e Riflessioni Future

L’industria della tecnologia ha iniziato a includere avvertimenti riguardo alla possibilità che le risposte generate dalle IA possano essere potenzialmente errate. Google ha avvertito i propri dipendenti dei rischi dei chatbot, incluso Bard, esortandoli a evitare l’uso diretto del codice generato da questi servizi. Aziende come Apple, Amazon e Samsung hanno vietato l’uso di ChatGPT ai propri dipendenti.

OpenAI, consapevole dei problemi, ha dichiarato di lavorare costantemente per migliorare le capacità di ChatGPT. Nonostante i limiti attuali, il modello è in fase di sviluppo e sono previsti aggiornamenti futuri per affrontare le lacune attuali e potenziarlo nella scansione biometrica.

Bullet Executive Summary

In conclusione, lo studio della Purdue University ha sollevato importanti questioni sull’affidabilità di ChatGPT nel rispondere a domande di programmazione. Sebbene il modello di IA di OpenAI sia percepito come convincente grazie al suo linguaggio formale e analitico, presenta significative limitazioni nella comprensione e nella precisione delle risposte. Questo sottolinea la necessità di una supervisione umana e di ulteriori ricerche per migliorare la trasparenza e la comunicazione degli errori nelle risposte generate dalla macchina.

Nozione base di intelligenza artificiale: ChatGPT utilizza algoritmi di Natural Language Processing (NLP) per comprendere il significato del testo e generare risposte coerenti e pertinenti. Tuttavia, la sua capacità di comprendere il contesto e fornire risposte precise è limitata.

Nozione avanzata di intelligenza artificiale: L’Adaptive AI consente alle macchine di adeguare le proprie pratiche alle nuove circostanze del mondo reale, rimuovendo conoscenze precedenti obsolete. Questa capacità di adattamento rappresenta una delle principali sfide dell’intelligenza artificiale e un potenziale spartiacque per rendere ChatGPT uno strumento efficiente nel mondo del lavoro.

Questa analisi ci invita a riflettere sull’importanza di un uso consapevole e critico delle tecnologie di intelligenza artificiale, riconoscendo i loro limiti e potenzialità. La supervisione umana rimane essenziale per garantire l’affidabilità e l’efficacia delle soluzioni generate dall’IA.

Per approfondire:

Articolo e immagini generati dall’AI, senza interventi da parte dell’essere umano. Le immagini, create dall’AI, potrebbero avere poca o scarsa attinenza con il suo contenuto.(scopri di più)