Subscription modal logo Premium

Abonează-te pentru experiența stiripesurse.ro Premium!

  • cea mai rapidă sursă de informații și știri
  • experiența premium fără reclame sau întreruperi
  • în fiecare zi,cele mai noi știri, exclusivități și breaking news
DESCARCĂ APLICAȚIA: iTunes app Android app on Google Play
NOU! Citește stiripesurse.ro
 

Inteligența artificială de la Microsoft a creat o aplicație ce devine extrem de periculoasă dacă este utilizată în scopuri rău intenționate

readspeaker.ai
voce inteligenta artificiala

Cercetătorii Microsoft au anunțat zilele trecute un nou model de inteligență artificială text-to-speech, denumit VALL-E, care poate simula îndeaproape vocea unei persoane atunci când i se oferă un eșantion audio de trei secunde. Odată ce învață o voce specifică, VALL-E poate sintetiza audio cu acea persoană spunând orice - și o face într-un mod care încearcă să păstreze tonul emoțional al vorbitorului, anunță arstechnica.com.

Creatorii săi speculează că VALL-E ar putea fi folosit pentru aplicații text-to-speech de înaltă calitate, editare de vorbire în care o înregistrare a unei persoane ar putea fi editată și modificată din transcrierea unui text (făcându-i să spună ceva ce nu a spus inițial) și crearea de conținut audio atunci când este combinat cu alte modele generative AI, cum ar fi GPT-3.

VALL-E  este un "model de limbaj cu codec neural" și se bazează pe o tehnologie numită EnCodec, pe care Meta a anunțat-o în octombrie 2022. Spre deosebire de alte metode text-to-speech, care sintetizează de obicei vorbirea prin manipularea formelor de undă, VALL-E generează coduri de codec audio discrete din text și indicații acustice. Practic, analizează modul în care o persoană vorbește, descompune aceste informații în componente discrete datorită EnCodec și folosește date de antrenament pentru a se potrivi cu ceea ce "știe" despre cum ar suna acea voce dacă ar rosti alte fraze în afara eșantionului de trei secunde.

Microsoft a antrenat capacitățile de sinteză vocală ale VALL-E pe o bibliotecă audio, asamblată de Meta, numită LibriLight. Aceasta conține 60.000 de ore de vorbire în limba engleză de la peste 7.000 de vorbitori, în mare parte extrase din cărțile audio de domeniu public LibriVox. Pentru ca VALL-E să genereze un rezultat bun, vocea din eșantionul de trei secunde trebuie să corespundă îndeaproape unei voci din datele de instruire.

Pe lângă păstrarea timbrului vocal și a tonusului emoțional al unui vorbitor, VALL-E poate, de asemenea, să imite "mediul acustic" al eșantionului audio. De exemplu, dacă eșantionul provine de la un apel telefonic, ieșirea audio va simula proprietățile acustice și de frecvență ale unui apel telefonic în ieșirea sintetizată. Iar mostrele Microsoft (în secțiunea "Sinteza diversității") demonstrează că VALL-E poate genera variații ale tonului vocii prin schimbarea semințelor aleatoare utilizate în procesul de generare.

Din cauza capacității lui VALL-E de a alimenta potențial răutăți și înșelăciuni, Microsoft nu a furnizat codul VALL-E pentru ca alții să poată experimenta capacitățile acestuia. Cercetătorii par să fie conștienți de potențialul rău social pe care această tehnologie l-ar putea aduce.

În concluzia lucrării, ei scriu: "Deoarece VALL-E ar putea sintetiza vorbirea care păstrează identitatea vorbitorului, ar putea implica riscuri potențiale în utilizarea abuzivă a modelului, cum ar fi falsificarea identificării vocii sau imitarea unui anumit vorbitor. Pentru a atenua astfel de riscuri, este posibil să se construiască un model de detectare pentru a discrimina dacă un clip audio a fost sintetizat de VALL-E. De asemenea, vom pune în practică principiile Microsoft AI atunci când vom continua să dezvoltăm modelele."

ACTIVEAZĂ NOTIFICĂRILE

Fii la curent cu cele mai noi stiri.

Urmărește stiripesurse.ro pe Facebook

×
NEWSLETTER

Nu uitaţi să daţi "Like". În felul acesta nu veţi rata cele mai importante ştiri.