sobota, 27 apríla, 2024

Nástroj AI od Microsoftu dokáže premeniť fotografie na realistické videá ľudí, ktorí hovoria a spievajú

Spoločnosť Microsoft Research Asia predstavila nový experimentálny nástroj AI s názvom VASA-1, ktorý dokáže vytvoriť statickú snímku osoby – alebo jej kresbu – a existujúci zvukový súbor, aby z nich v reálnom čase vytvoril realistickú hovoriacu tvár. Má schopnosť generovať výrazy tváre a pohyby hlavy pre existujúci statický obrázok a vhodné pohyby pier, ktoré zodpovedajú reči alebo piesni. Výskumníci nahrali na stránku projektu množstvo príkladov a výsledky vyzerajú dostatočne dobre na to, aby mohli oklamať ľudí, aby si mysleli, že sú skutočné.

Aj keď pohyby pier a hlavy v príkladoch môžu pri bližšom skúmaní vyzerať stále trochu roboticky a nesynchronizovane, stále je jasné, že technológiu možno zneužiť na jednoduché a rýchle vytváranie hlboko falošných videí skutočných ľudí. Samotní výskumníci si uvedomujú tento potenciál a rozhodli sa nezverejniť „online demo, API, produkt, ďalšie podrobnosti o implementácii alebo akékoľvek súvisiace ponuky“, kým si nebudú istí, že ich technológia „bude používaná zodpovedne a v súlade s riadnym predpisy." Nepovedali však, či plánujú zaviesť určité bezpečnostné opatrenia, aby zabránili zlým hercom, aby ich použili na nekalé účely, ako je vytváranie falošného porna alebo dezinformačných kampaní.

Vedci sa domnievajú, že ich technológia má množstvo výhod, a to aj napriek jej potenciálnemu zneužitiu. Povedali, že ho možno použiť na zvýšenie rovnosti vo vzdelávaní, ako aj na zlepšenie dostupnosti pre tých, ktorí majú problémy s komunikáciou, možno tým, že im poskytne prístup k avatarovi, ktorý za nich môže komunikovať. Môže tiež poskytnúť spoločnosť a terapeutickú podporu tým, ktorí to potrebujú, povedali, pričom naznačili, že VASA-1 by sa mohol použiť v programoch, ktoré ponúkajú prístup k postavám AI, s ktorými sa ľudia môžu rozprávať.

Podľa dokumentu zverejneného s oznámením bola VASA-1 trénovaná na súbore údajov VoxCeleb2, ktorý obsahuje „viac ako 1 milión výrokov pre 6 112 celebrít“, ktoré boli extrahované z videí YouTube. Aj keď bol tento nástroj trénovaný na skutočných tvárach, funguje aj na umeleckých fotografiách, ako je Mona Lisa, ktorú výskumníci zábavne skombinovali so zvukovým súborom s vírusovým prevedením Paparazzi od Lil Wayna od Anne Hathaway. Je to také úžasné, že stojí za to si to pozrieť, aj keď pochybujete, čo dobré môže takáto technológia urobiť.

Tento vložený obsah nie je dostupný vo vašom regióne.

Tento článok obsahuje pridružené odkazy; ak kliknete na takýto odkaz a uskutočníte nákup, môžeme získať províziu.

source

Related Articles

NAJNOVŠIE ČLÁNKY