E-Mail: [email protected]
- Il 5% di tutti i dati disponibili è ora sottoposto a restrizioni.
- Il 25% dei dati dalle fonti di qualità più elevata è bloccato tramite il protocollo di esclusione dei robot.
- Grandi aziende tecnologiche come OpenAI e Google sono colpite da queste restrizioni, influenzando anche ricercatori e accademici.
La recente ricerca condotta dal Data Provenance Initiative, un gruppo guidato dal MIT, ha rivelato un drastico calo dei contenuti disponibili per l’addestramento dell’intelligenza artificiale (IA). Questo studio ha preso in esame 14.000 domini web e ha notato che molti editori e piattaforme online hanno adottato misure per impedire la raccolta dei dati, attivando paywall o bloccando aziende come OpenAI, Anthropic e Google. Questo fenomeno ha risvolti negativi non solo per le aziende di intelligenza artificiale, ma anche per ricercatori, accademici ed entità non commerciali.
Secondo Shayne Longpre, autore principale dello studio, “stiamo assistendo a un rapido declino del consenso all’uso dei dati sul web, con ramificazioni non solo per le aziende di intelligenza artificiale, ma anche per ricercatori, accademici ed entità non commerciali”. Lo studio ha rilevato che il 5% di tutti i dati – e il 25% dei dati dalle fonti di qualità più elevata – è ora sottoposto a restrizioni attraverso il protocollo di esclusione dei robot.
Per anni, i sviluppatori hanno raccolto dati in modo relativamente semplice, ma l’accelerazione negli ultimi due anni ha provocato reazioni diverse tra i proprietari dei dati. Alcuni editori e piattaforme online hanno accettato compromessi con le software house come OpenAI, fornendo materiale a pagamento, mentre altri hanno creato paywall o modificato i termini di servizio. Tra chi ha stretto accordi economici per fornire dati utili all’addestramento dell’IA ci sono Associated Press, News Corp, The Atlantic e il New York Times, che è in battaglia legale contro Microsoft per violazione del copyright.
Yacine Jernite, ricercatore di machine learning presso Hugging Face, ha osservato che “se tutti i dati relativi all’addestramento dell’IA fossero ottenuti attraverso accordi di licenza, escluderebbe i ricercatori della società civile dalla partecipazione alla governance della tecnologia”. Stella Biderman, direttrice esecutiva di EleutherAI, ha aggiunto che “le grandi aziende tecnologiche possiedono tutti i dati. La modifica della licenza non revoca l’autorizzazione, ma l’impatto principale è sui soggetti che arrivano più tardi, come le piccole start-up o i ricercatori”.
La Sfida della Protezione dei Dati Personali
L’uso dei sistemi di intelligenza artificiale fa emergere nuove sfide e maggiori rischi in termini di protezione dei dati personali. Le recenti raccomandazioni dell’Information Commissioner’s Office (ICO) mostrano che l’adozione di una corretta data strategy non è sufficiente. L’Artificial Intelligence (AI) sta assumendo un ruolo centrale nella trasformazione digitale della società e dell’economia, garantendo la possibilità di effettuare previsioni basate su dati del passato e del presente.
Tuttavia, le sfide collegate sono significative e i possibili rischi, attuali e futuri, sono alti. La rilevanza dei temi della sicurezza dei sistemi e dell’affidabilità dei dati e degli algoritmi che li alimentano è cruciale. È possibile che la totale automatizzazione delle decisioni aventi impatti giuridici sulle persone possa portare a pregiudizi (bias) che possono viziare l’output dell’AI, incorporando schemi umani non immuni da condizionamenti sociali, con possibili effetti discriminatori.
L’Unione Europea sta giocando un ruolo chiave nella disciplina del fenomeno. La Commissione ha proposto un regolamento, noto come AI Act, che è attualmente in discussione al Parlamento Europeo. Questo intervento legislativo segue ulteriori iniziative intraprese in Europa in materia di AI, tra cui consultazioni pubbliche, linee guida e dichiarazioni. La proposta di AI Act poggia su un approccio basato sul rischio, suddividendo le tecnologie di intelligenza artificiale in tre categorie: quelle vietate, quelle ad alto rischio e quelle a rischio basso o minimo.
- 🔍 Questo studio rivela un problema interessante......
- ❗ La diminuzione dei dati per le IA è allarmante......
- 🤔 Un nuovo punto di vista sulla governance dell'IA emerge......
Etica e Intelligenza Artificiale
La questione dell’etica nell’intelligenza artificiale è di fondamentale importanza. Come affermato da Reggie Townsend, vicepresidente della Data Ethics Practice di SAS, “quando inventi la nave, inventi anche il naufragio”. Questo concetto si applica anche alla tecnologia, che può portare con sé insidie. La soluzione risiede nel concepirla e usarla in modo etico, attraverso pratiche precise.
La storia del progresso umano è anche la storia dell’innovazione, ma le novità perpetuano vecchie disparità. Per mitigare i danni o evitare di reiterare errori, è necessario gestire l’IA con attenzione. La corsa all’intelligenza artificiale deve riflettersi nel campo dei valori, integrati alla base. Con la crescente diffusione dell’IA, è fondamentale avere fiducia nel fatto che questa tecnologia non arrecherà danni.
Un’innovazione responsabile dell’IA implica accuratezza, imparzialità, trasparenza e centralità del benessere e dell’equità degli esseri umani. È necessario seguire precise pratiche di etica dei dati, evitando il tecnocentrismo e promuovendo il pensiero critico. Abolire il tecnocentrismo è fondamentale per il successo delle aziende tecnologiche. Se non controllato, il tecnocentrismo lascia posto al bias dell’automazione, l’ipotesi che la tecnologia sia altrettanto valida o migliore dell’essere umano.
Il Vuoto Normativo e il Consenso Informato
Il “consenso informato” è un elemento cruciale per l’etica dei sistemi di AI. L’assenza di specifiche disposizioni rischia di creare un terreno fertile per la potenziale lesione dei diritti fondamentali. Il panorama attuale, delineato dal GDPR e dalle nuove linee guida europee sulla Trustworthy AI, evidenzia il rischio che i titolari dei trattamenti dei dati personali si adagino su forme di consenso standardizzate.
Le potenzialità dell’intelligenza artificiale sono immense, ma comportano anche rischi significativi. La capacità straordinaria di raccolta e analisi di elevate quantità di informazioni da diverse fonti permette la realizzazione di prodotti e servizi personalizzati e processi lavorativi efficienti. Tuttavia, l’implementazione dell’IA nei processi decisionali automatizzati rischia di limitare l’esercizio di diritti essenziali, come la libertà di espressione e il pluralismo dell’informazione.
Le “Ethics Guidelines for Trustworthy AI” della Commissione Europea mirano a promuovere la diffusione di un’intelligenza artificiale affidabile, basata su sette elementi chiave: azione e sorveglianza umana, robustezza e sicurezza, riservatezza e governance dei dati, trasparenza, diversità, non discriminazione ed equità, benessere sociale e ambientale, e responsabilità come accountability.
Bullet Executive Summary
In conclusione, la crisi dei dati per l’addestramento dell’intelligenza artificiale, la protezione dei dati personali e l’importanza dell’etica nell’IA sono temi di grande rilevanza nel panorama moderno. La necessità di una supervisione umana costante e attenta, insieme all’adozione di pratiche etiche e alla conformità normativa, è fondamentale per garantire che l’IA possa essere utilizzata in modo responsabile e sostenibile.
Una nozione base di intelligenza artificiale correlata al tema principale dell’articolo è il concetto di machine learning, che permette ai sistemi di IA di imparare dai dati e migliorare le proprie performance nel tempo. Una nozione avanzata è il deep learning, una sottocategoria del machine learning che utilizza reti neurali artificiali per analizzare grandi quantità di dati e riconoscere pattern complessi.
L’intelligenza artificiale è uno strumento potente che può portare grandi benefici alla società, ma è essenziale gestirla con attenzione e responsabilità. Riflettiamo su come possiamo contribuire a un uso etico e sostenibile di questa tecnologia, garantendo che i suoi vantaggi siano accessibili a tutti e che i suoi rischi siano mitigati.
- Approfondisci la ricerca del MIT sulla provenienza dei dati per l'addestramento delle IA e le sue implicazioni
- Informativa sui termini di utilizzo e politiche di OpenAI, importante per capire come vengono gestiti i dati per l'addestramento dell'intelligenza artificiale
- Informazioni su come Anthropic utilizza i dati personali nell'addestramento dei modelli di intelligenza artificiale
- Fonte ufficiale dei principi di intelligenza artificiale responsabile di Google