Novi AI alat za generisanje glasa može da prenese i emociju

Istraživači sa Cornell Univerziteta iz Amerike poigrali su se Microsoft-ovim AI programom VALL-E kako bi dobili što realniju simulaciju i emociju ljudskog glasa.

Program VALL-E je prije svega namijenjen za konverziju teksta u govor, ali zahvaljujući ovom novom istraživanju došlo se do zaključka da je on itekako u stanju da oponaša ljudski glas, pa čak i da prati emociju onog koga oponaša.

Naučnici tvrde da VALL-E može da preuzme nečiji govor poslije tri sekunde slušanja, pa čak i da se uskladi sa akustikom prostorije. Za istraživanje je korišteno 60.000 časova govora na engleskom jeziku. Platforma za njihov rad bila je LibriLight audio biblioteka.

Stručnjaci su svjesni dobrih i loših strana rezultata ovog istraživanja. Naime, mnoge animacije, aplikacije, razni programi mogu imati benefite od ovakvog vida sinhronizacije. Dobro će doći kompanijama čiji projekti se prepliću sa audiovizuelnim sadržajem.

Međutim, s druge strane, ogromne su mogućnosti zloupotrebe. Neke države, poput Kine, već su reagovale i zabranile kako se to žargonski naziva deepfake sadržaje, a i ostale zemlje su, takođe, prepoznale opasnost i sugerisale kompanijama koje rade na razvoju ovakvih softvera da spriječe zloupotrebe algoritama.

Svijet industrije nezamisliv je bez robota, a da li će postati glavni i u svijetu kreativne industrije ostaje da sačekamo i vidimo. Biće zanimljivo!