E-Mail: redazione@bullet-network.com
- Voice Engine, annunciato da OpenAI più di un anno fa, promette la clonazione vocale con soli 15 secondi di registrazione audio.
- Inizialmente previsto per il 7 marzo 2024, il rilascio di Voice Engine è stato rinviato a causa di preoccupazioni legate alla sicurezza e all'uso improprio.
- OpenAI prevedeva inizialmente un costo di 15 dollari per milione di caratteri per le voci "standard" e 30 dollari per le voci di "qualità HD".
- Nel 2024, la clonazione vocale AI è stata identificata come la terza truffa in più rapida crescita, evidenziando l'urgenza di implementare misure di sicurezza efficaci.
- OpenAI prevedeva di concedere l'accesso a un gruppo di massimo 100 sviluppatori fidati.
L’attesa per il rilascio di Voice Engine, lo strumento di clonazione vocale di OpenAI, si protrae da oltre un anno, sollevando interrogativi sulle motivazioni di tale ritardo e sulle implicazioni per il futuro della sintesi vocale. Annunciato in pompa magna alla fine di marzo dell’anno scorso, Voice Engine prometteva di replicare la voce di una persona con soli 15 secondi di registrazione audio. Tuttavia, a distanza di dodici mesi, lo strumento rimane in una fase di “anteprima su piccola scala”, senza che OpenAI abbia fornito indicazioni precise su una possibile data di lancio o sulla sua effettiva disponibilità al pubblico.
Le ragioni del ritardo: sicurezza, regolamentazione e perfezionamento
La prudenza di OpenAI nel rilasciare Voice Engine potrebbe derivare da una serie di fattori interconnessi. In primo luogo, la società potrebbe temere un uso improprio della tecnologia, che potrebbe essere sfruttata per creare deepfake vocali, impersonare individui o diffondere disinformazione. In secondo luogo, OpenAI potrebbe voler evitare un controllo normativo più stringente, considerando l’attenzione crescente che le autorità di tutto il mondo stanno rivolgendo all’intelligenza artificiale. Infine, è possibile che OpenAI stia utilizzando questo periodo di anteprima per raccogliere feedback da partner fidati e perfezionare ulteriormente lo strumento, migliorandone sia l’utilità che la sicurezza.

Un portavoce di OpenAI ha dichiarato che l’azienda sta continuando a testare Voice Engine con un gruppo ristretto di partner, al fine di apprendere come viene utilizzata la tecnologia e migliorare di conseguenza il modello. Tra le applicazioni esplorate figurano la logopedia, l’apprendimento delle lingue, il supporto clienti, i personaggi dei videogiochi e gli avatar AI.
Come funziona Voice Engine: un’analisi tecnica
Voice Engine è il motore che alimenta le voci disponibili nell’API text-to-speech di OpenAI e nella modalità vocale di ChatGPT. La sua peculiarità risiede nella capacità di generare un parlato dal suono naturale, che riproduce fedelmente la voce dell’oratore originale. Il modello di Voice Engine apprende a prevedere i suoni più probabili che un oratore emetterà per un determinato testo, tenendo conto di diverse voci, accenti e stili di pronuncia. In questo modo, lo strumento è in grado di generare non solo versioni parlate del testo, ma anche “espressioni vocali” che riflettono il modo in cui diversi tipi di oratori leggerebbero il testo ad alta voce.
Inizialmente, OpenAI aveva previsto di integrare Voice Engine, originariamente denominato Custom Voices, nella sua API il 7 marzo 2024. Il piano prevedeva di concedere l’accesso a un gruppo di massimo 100 sviluppatori fidati, dando la priorità a coloro che sviluppavano applicazioni con un “beneficio sociale” o che mostravano usi “innovativi e responsabili” della tecnologia. OpenAI aveva persino registrato il marchio e stabilito i prezzi: 15 dollari per milione di caratteri per le voci “standard” e 30 dollari per milione di caratteri per le voci di “qualità HD”. Tuttavia, all’ultimo momento, l’azienda ha rinviato l’annuncio.
Misure di sicurezza e mitigazione dei rischi
La decisione di OpenAI di posticipare il rilascio su vasta scala della sua tecnologia di voci sintetiche sembra fortemente influenzata da preoccupazioni per la sicurezza. In un post sul blog, OpenAI ha sottolineato la necessità di un dialogo sull’implementazione responsabile delle voci sintetiche e su come la società può adattarsi a queste nuove capacità.
Per mitigare i potenziali rischi, OpenAI sta esplorando diverse misure di sicurezza, tra cui:
Watermarking: per tracciare l’origine dell’audio generato e identificare l’uso di Voice Engine. Consenso esplicito: richiedere agli sviluppatori di ottenere il consenso esplicito degli oratori prima di utilizzare Voice Engine per clonare le loro voci.
Divulgazioni chiare: imporre agli sviluppatori di informare il pubblico quando le voci sono generate dall’AI.
Autenticazione vocale: esplorare metodi per verificare gli oratori e prevenire la clonazione vocale non autorizzata.
* Lista “No-Go”: sviluppare filtri per impedire la creazione di voci che assomiglino troppo a personaggi pubblici, riducendo il rischio di deepfake di celebrità o politici.
Tuttavia, l’applicazione di queste politiche su vasta scala rappresenta una sfida monumentale. E la posta in gioco è alta. La clonazione vocale AI è stata segnalata come la terza truffa in più rapida crescita nel 2024. La tecnologia è già stata sfruttata per aggirare i controlli di sicurezza e creare deepfake convincenti, dimostrando l’urgenza di solide misure di sicurezza.
Il futuro incerto di Voice Engine
Il futuro di Voice Engine rimane incerto. OpenAI potrebbe lanciarlo la prossima settimana, oppure potrebbe rimanere indefinitamente un’anteprima limitata. L’azienda ha ripetutamente indicato la volontà di mantenerne la portata limitata, privilegiando un’implementazione responsabile rispetto alla disponibilità diffusa. Che si tratti di questioni di immagine, di genuine preoccupazioni per la sicurezza o di un mix di entrambi, l’anteprima prolungata di Voice Engine è diventata un capitolo notevole nella storia di OpenAI, una testimonianza della complessità del rilascio di potenti tecnologie AI in un mondo alle prese con le loro implicazioni.
Intelligenza Artificiale e la Voce del Futuro: Riflessioni Conclusive
La vicenda di Voice Engine ci pone di fronte a un bivio cruciale. Da un lato, intravediamo le potenzialità straordinarie dell’intelligenza artificiale nel campo della sintesi vocale, con applicazioni che spaziano dalla comunicazione assistita all’intrattenimento. Dall’altro, siamo chiamati a confrontarci con i rischi insiti in una tecnologia capace di replicare la voce umana in modo così realistico, aprendo scenari inquietanti di manipolazione e inganno.
In questo contesto, è fondamentale comprendere alcuni concetti chiave dell’intelligenza artificiale. Ad esempio, il transfer learning, una tecnica che consente a un modello addestrato su un determinato compito di essere adattato a un compito diverso, è alla base della capacità di Voice Engine di clonare voci con soli 15 secondi di audio. Il modello, infatti, è stato precedentemente addestrato su un vasto dataset di voci umane, e può quindi trasferire le conoscenze acquisite per replicare una nuova voce con un minimo di dati.
Un concetto più avanzato è quello delle reti generative avversarie (GAN), un tipo di architettura di rete neurale che potrebbe essere utilizzata per migliorare ulteriormente la qualità e il realismo delle voci sintetizzate da Voice Engine. Le GAN sono composte da due reti neurali, un generatore e un discriminatore, che competono tra loro per creare immagini o suoni sempre più realistici.
La storia di Voice Engine ci invita a una riflessione più ampia sul ruolo dell’intelligenza artificiale nella nostra società. Dobbiamo essere consapevoli delle sue potenzialità e dei suoi rischi, e impegnarci a sviluppare e utilizzare queste tecnologie in modo responsabile, nel rispetto dei valori etici e dei diritti fondamentali. Solo così potremo garantire che l’intelligenza artificiale sia al servizio dell’umanità, e non il contrario.