Cercetătorii de la Microsoft au anunțat o nouă aplicație care folosește inteligența artificială pentru a imita vocea unei persoane cu doar câteva secunde de antrenament. Modelul vocii poate fi apoi utilizat pentru aplicații text-to-speech.
Aplicația numită VALL-E poate fi utilizată pentru a sintetiza o vorbire personalizată de înaltă calitate cu doar o înregistrare de înregistrare de trei secunde a unui vorbitor ca îndemn acustic, au scris cercetătorii într-un articol publicat online pe arXiv, un serviciu de distribuție gratuită și o arhivă cu acces liber pentru articole științifice.
În prezent, există programe care pot tăia și lipi discursul într-un flux audio, iar acest discurs este convertit în vocea unui vorbitor din textul tastat. Cu toate acestea, programul trebuie să fie antrenat pentru a emula vocea unei persoane, ceea ce poate dura o oră sau mai mult.
"Super impresionant"
VALL-E este o îmbunătățire notabilă față de sistemele anterioare de ultimă generație, cum ar fi YourTTS, lansat la începutul anului 2022, a declarat Giacomo Miceli, un informatician și creatorul unui site web cu o discuție nesfârșită generată de inteligența artificială, care prezintă discursul sintetic
"Ceea ce este interesant la VALL-E nu este doar faptul că are nevoie de doar trei secunde de audio pentru a clona o voce, ci și cât de aproape poate potrivi acea voce, timbrul emoțional și orice zgomot de fond", a declarat Miceli pentru TechNewsWorld. Ritu Jyoti, vicepreședinte de grup pentru AI și automatizare la IDC, o companie globală de cercetare a pieței, a numit VALL-E "semnificativ și super impresionant".
Emularea emoțiilor, pusă sub semnul întrebării
Spre deosebire de OpenAI, producătorul ChatGPT, Microsoft nu a deschis VALL-E publicului, astfel încât rămân întrebări cu privire la performanța sa. De exemplu, există factori care ar putea cauza degradarea vorbirii produse de aplicație?
"Cu cât este mai lung fragmentul audio generat, cu atât sunt mai mari șansele ca un om să audă lucruri care sună puțin ciudat", a observat Miceli.
"De asemenea, este posibil ca trecerea de la un registru emoțional la altul să sune nefiresc", a adăugat el.
Capacitatea aplicației de a emula emoțiile unui vorbitor are, de asemenea, sceptici. "Va fi interesant de văzut cât de robustă este această capacitate", a declarat Mark N. Vena, președinte și analist principal la SmartTech Research din San Jose, California.
"Faptul că ei susțin că poate face acest lucru cu doar câteva secunde de audio este greu de crezut", a continuat el, "având în vedere limitările actuale ale algoritmilor de inteligență artificială, care necesită mostre de voce mult mai lungi".
Citește și: Hemoglobina: Ce este si ce se ascunde o valoare scazuta a acesteia?
Preocupări de ordin etic
Experții văd aplicații benefice pentru VALL-E, dar și unele mai puțin benefice. Jyoti a citat editarea discursului și înlocuirea actorilor vocali. Miceli a remarcat că tehnologia ar putea fi folosită pentru a crea instrumente de editare pentru podcasteri, pentru a personaliza vocea difuzoarelor inteligente, precum și pentru a fi încorporată în sistemele de mesagerie și în camerele de chat, în jocurile video și chiar în sistemele de navigație.
"Cealaltă față a monedei este că un utilizator rău intenționat ar putea clona vocea, de exemplu, a unui politician și i-ar putea face să spună lucruri care sună absurd sau incendiar sau, în general, să răspândească informații false sau propagandă", a adăugat Miceli. Vena vede un potențial enorm de abuz în această tehnologie, dacă aceasta este atât de bună pe cât susține Microsoft. "La nivelul serviciilor financiare și al securității, nu este greu de imaginat cazuri de utilizare de către actori neaveniți care ar putea face lucruri cu adevărat dăunătoare", a spus el.
Jyoti, de asemenea, vede preocupări etice în jurul VALL-E. "Pe măsură ce tehnologia avansează, vocile generate de VALL-E și de tehnologii similare vor deveni mai convingătoare", a explicat ea. "Acest lucru ar deschide ușa către apeluri spam realiste care să reproducă vocile unor persoane reale pe care o potențială victimă le cunoaște."
Realizarea unor investiții inteligente
În ultimele săptămâni, Microsoft a fost pe prima pagină a ziarelor despre IA. Este de așteptat ca anul acesta să încorporeze tehnologia ChatGPT în motorul său de căutare Bing și, posibil, în aplicațiile sale Office. De asemenea, se pare că plănuiește să investească 10 milioane de dolari în OpenAI- și acum, VALL-E.
"Cred că fac o mulțime de investiții inteligente", a declarat Bob O'Donnell, fondator și analist șef al Technalysis Research, o firmă de consultanță și cercetare a pieței de tehnologie din Foster City, California.
"S-au urcat în vagonul OpenAI cu mai mulți ani în urmă, așa că se află în spatele scenei în acest sens de ceva vreme. Acum iese la iveală în mare", a declarat O'Donnell.
Citește și: Smartphone, TV, PC, Inteligenta artificiala- cum vor arata in 2023?
Citește și: Cercetătorii armează modelele de învățare automată cu Ransomware
Citește și: Industria 4.0: Un institut caută riscuri de criminalitate cibernetică!