Vocile realizate cu ajutorul Inteligenței Artificiale sună mai bine ca niciodată
#Postat de Antoniu Lovin on iulie 13, 2021
Un nou val de startup-uri utilizează învățarea profundă pentru a construi actori de voce sintetici pentru asistenți digitali, personaje de jocuri video și videoclipuri corporative. Nu cu mult timp în urmă, astfel de voci profunde aveau o reputație slabă pentru utilizarea lor în apeluri înșelătoare și înșelăciuni pe internet. Dar calitatea lor îmbunătățită a stârnit interesul unui număr tot mai mare de companii. Descoperirile recente în învățarea profundă au făcut posibilă reproducerea multor subtilități ale vorbirii umane. Aceste voci se opresc și respiră în toate locurile potrivite. Ele își pot schimba stilul sau emoția. Puteți observa ”trucul” dacă vorbesc prea mult timp, dar în clipurile audio scurte, unele au devenit foarte asemănătoare cu vocile umane. Vocile AI sunt, de asemenea, ieftine, scalabile și ușor de lucrat. Spre deosebire de înregistrarea unui actor, vocile sintetice își pot actualiza scenariul în timp real, deschizând noi oportunități de personalizare a publicității.Video AICI.
Dar creșterea vocilor false hiperrealiste nu este lipsită de consecințe. Actorii de voce umană, în special, au fost lăsați să se întrebe ce înseamnă acest lucru pentru mijloacele lor de trai. Vocile sintetice există de ceva vreme. Dar cele vechi, inclusiv vocile lui Siri și Alexa originale, pur și simplu au lipit cuvinte și sunete pentru a obține un efect robot, ciudat. A-i face să pară mai naturali a fost o sarcină manuală laborioasă. Învățarea profundă a schimbat asta. Dezvoltatorii de voce nu mai au nevoie să dicteze ritmul exact, pronunția sau intonația vorbirii generate. În schimb, ar putea alimenta câteva ore de sunet într-un algoritm și ar trebui ca algoritmul să învețe acele tipare de unul singur. De-a lungul anilor, cercetătorii au folosit această idee de bază pentru a construi motoare vocale care sunt din ce în ce mai sofisticate. Unul WellSaid Labs construit, de exemplu, folosește două modele principale de învățare profundă. Primul prezice, dintr-un pasaj de text, linia largă a sunetului unui difuzor – inclusiv accentul, tonul și timbrul. Al doilea completează detaliile, inclusiv respirațiile și modul în care vocea rezonează în mediul său. A face o voce sintetică convingătoare necesită mai mult decât simpla apăsare a unui buton. O parte din ceea ce face o voce umană atât de umană este inconsecvența, expresivitatea și capacitatea de a oferi aceleași linii în stiluri complet diferite, în funcție de context. Captarea acestor nuanțe implică găsirea actorilor vocali potriviți pentru a furniza datele de instruire adecvate și pentru a regla modelele de învățare profundă. WellSaid spune că procesul necesită cel puțin o oră sau două de sunet și câteva săptămâni de muncă pentru a dezvolta o replică sintetică cu sunete realiste. Vocile AI au devenit deosebit de populare printre mărcile care doresc să mențină un sunet consistent în milioane de interacțiuni cu clienții.

Odată cu omniprezenta difuzoarelor inteligente de astăzi și creșterea agenților automatizați de servicii pentru clienți, precum și a asistenților digitali încorporați în mașini și dispozitive inteligente, este posibil ca mărcile să producă peste o sută de ore de sunet pe lună. Dar, de asemenea, nu mai vor să folosească vocile generice oferite de tehnologia tradițională text-to-speech – o tendință care s-a accelerat în timpul pandemiei, pe măsură ce tot mai mulți clienți au sărit interacțiunile din magazin pentru a interacționa virtual cu companiile. „Dacă sunt Pizza Hut, cu siguranță nu pot suna ca a lui Domino și cu siguranță nu pot suna ca Papa John”, spune Rupal Patel, profesor la Northeastern University și fondator și CEO al VocaliD, care promite să construiască voci personalizate care se potrivesc identității mărcii unei companii. „Aceste mărci s-au gândit la culorile lor. S-au gândit la fonturile lor. Acum trebuie să înceapă să se gândească și la modul în care sună vocea lor. ”În timp ce companiile trebuiau să angajeze actori de voce diferiți pentru diferite piețe – nord-est versus sudul SUA sau Franța versus Mexic – unele firme de voce AI pot manipula accent sau schimbarea limbajului unei singure voci în moduri diferite.
Acest lucru deschide posibilitatea de a adapta reclame pe platformele de streaming în funcție de cine ascultă, schimbând nu doar caracteristicile vocii, ci și cuvintele rostite. Un anunț de bere ar putea spune unui ascultător să se oprească la un alt pub, în funcție de faptul că joacă în New York sau Toronto, de exemplu. Resemble.ai, care proiectează voci pentru reclame și asistenți inteligenți, spune că lucrează deja cu clienții pentru a lansa astfel de reclame audio personalizate pe Spotify și Pandora. Industriile jocurilor și divertismentului văd, de asemenea, avantajele. Sonantic, o firmă specializată în voci emotive care pot râde și plânge sau șopti și striga, lucrează cu producătorii de jocuri video și studiourile de animație pentru a furniza vocile în off pentru personajele lor. Mulți dintre clienții săi folosesc vocile sintetizate numai în pre-producție și trec la actori de voce reali pentru producția finală. Resemble.ai și alții au lucrat și cu fiLm și emisiuni TV pentru a remedia performanțele actorilor atunci când cuvintele sunt zgârcite sau pronunțate greșit. Mulți folosesc acum un model de partajare a profiturilor pentru a plăti actorilor de fiecare dată când un client își licențiază vocea sintetică specifică, ceea ce a deschis un nou flux de venituri pasive. Alții îi implică pe actori în procesul de proiectare a asemănării lor cu AI și le conferă putere de veto asupra proiectelor în care va fi folosit. SAG-AFTRA face presiuni și pentru adoptarea legislației care să protejeze actorii de replicile ilegitime ale vocii lor. Sursa: technologyreview.com
Jurnal FM 