AI SLUŠAO GLASOVE LJUDI. TADA JE TO STVORILO NJIHOVA LICA.

Send

Jeste li ikada konstruirali mentalnu sliku osobe koju nikada niste vidjeli, temeljenu isključivo na njihovom glasu? Umjetna inteligencija (AI) sada to može učiniti, generirajući digitalnu sliku lica neke osobe koristeći samo kratki audioisječak za referencu.

Nazvanu Speech2Face, neuronsku mrežu - računalo koje "razmišlja" na način sličan ljudskom mozgu - naučili su naučnici na milijunima obrazovnih videozapisa s interneta koji su prikazivali više od 100.000 različitih ljudi kako razgovaraju.

Iz ovog skupa podataka Speech2Face je naučio povezanosti između vokalnih znakova i određenih fizičkih značajki ljudskog lica, napisali su istraživači u novoj studiji. AI je tada upotrijebio audioisječak za modeliranje fotorealističnog lica koje odgovara glasu.

Otkrića su objavljena na mreži 23. svibnja u preprint jounral arXiv i nisu recenzirana.

Srećom, AI (još) ne zna točno kako određeni pojedinac izgleda na temelju samog glasa. Neuronska mreža prepoznala je određene markere u govoru koji su ukazivali na spol, dob i etničku pripadnost, značajke koje dijele mnogi ljudi, izvijestili su autori studije.

"Kao takav, model će proizvesti samo lica prosječnog izgleda", napisali su znanstvenici. "To neće stvoriti slike određenih pojedinaca."

AI je već pokazao da može proizvesti neočekivano točna ljudska lica, premda su njegove interpretacije mačaka iskreno pomalo zastrašujuće.

Lica koja je stvorio Speech2Face - sva okrenuta sprijeda i s neutralnim izrazima - nisu se točno podudarala s ljudima koji stoje iza glasova. Međutim, slike obično bilježe točan raspon, etničku pripadnost i spol pojedinaca, navodi se u studiji.

Međutim, interpretacije algoritma bile su daleko od savršenih. Speech2Face pokazao je „mješovitu izvedbu“ kada se suočio sa jezičnim varijacijama. Na primjer, kada je AI slušao audioisječak azijskog čovjeka koji govori kineski, program je stvorio sliku azijskog lica. Međutim, kada je isti muškarac govorio na engleskom u drugom audio snimku, AI je stvorio lice bijelog čovjeka, izvijestili su znanstvenici.

Algoritam je također pokazao spolnu pristranost, povezujući tihe glasove s muškim licima i visoke zvukove s ženskim licima. A budući da podaci o treningu predstavljaju samo obrazovne videozapise s YouTubea, on "ne predstavlja podjednako cjelokupno svjetsko stanovništvo", napisali su istraživači.

Još jedna zabrinutost zbog ovog video skupa podataka pojavila se kada je osoba koja se pojavila u videozapisu na YouTubeu iznenađena saznanjem da je njegova sličnost uključena u studiju, izvijestio je Slate. Nick Sullivan, šef kriptografije s internetskom zaštitarskom tvrtkom Cloudflare u San Franciscu, neočekivano je uočio svoje lice kao jedan od primjera koji se koristio za treniranje Speech2Face (i koji je algoritam reproducirao prilično približno).

Sullivan nije pristao na pojavljivanje u studiji, ali se smatra da se videozapisi s YouTubea u ovom skupu podataka smatraju istraživačima dostupnim za upotrebu bez stjecanja dodatnih dozvola, navodi Slate.

Send