Výzkumníci z Microsoftu vydali tento týden článek Vasa-1, nový nástroj umělé inteligence, který dokáže vytvořit působivé video někoho mluvícího, a to pouze pomocí statického obrázku. Microsoft nemá žádné bezprostřední plány na uvolnění nového nástroje pro veřejnost, ale je to docela působivé. No, je to docela působivé, když se nedíváte zblízka na zuby. Jen se podívejte na ty chompery.
Model VASA-1 funguje tak, že pořídí jakýkoli statický snímek lidské tváře – nebo v příkladech Vydal Microsoftumělá inteligence vygenerovaná tvář osoby, která ve skutečnosti neexistuje – a po načtení zvukového souboru dokáže vytvořit synchronizované video, které zahrnuje nuance obličeje a přirozeně vypadající pohyby.
Opět je to všechno docela působivé, jak můžete vidět v jednom z videí, které Microsoft poskytl níže. Ale jedna oblast, kde se zdá, že VASA-1 bojuje, je vyčnívání zubů. Pokud se zaměříte na zuby, mohou získat karikaturní kvalitu, kde vypadají mírně animovaně způsobem, který zcela nezapadá do hyperrealistické kvality všeho ostatního.
Podivné zuby videa se ještě více zviditelní, když vše zpomalíte, jako to udělal Gizmodo v GIFu níže. (To může způsobit, že se budete cítit špatně, když si vyberete něčí vzhled, dokud si nevzpomenete, že osoba níže doslova neexistuje.)
Další video poskytnuté společností Microsoft, které se objevuje níže, vykazuje podobné kvality jako zubní animace – i když ostatní funkce vypadají velmi realisticky, zvláště když si pamatujete, že jediným zdrojovým materiálem je statický obrázek a zvukový soubor.
Z jakéhokoli důvodu byly zuby na videích zobrazujících muže poněkud méně jasné, možná proto, že modelka neukázala, že muži při mluvení otevřeli ústa dokořán. Ale každý, kdo se podíval pozorně, stále cítil, že tady něco není v pořádku.
Jednou z nejzajímavějších věcí, kterých si výzkumníci všimli, je, že jeho model dokáže velmi rychle produkovat relativně kvalitní video, což mají ostatní generátory umělé inteligence rádi. OpenAI Sora Údajně bojovala s. Ve skutečnosti dokument uvádí dobu odezvy pouhých 0,17 sekundy na stolním počítači s jedinou kartou NVIDIA. GPU RTX 4090.
Tato rychlost je to, co může poskytovat okamžitá videa pro různé aplikace, jako jsou překladatelské služby v reálném čase.
„Naše metoda poskytuje nejen vysokou kvalitu videa s realistickou dynamikou obličeje a hlavy, ale podporuje také online vytváření videí v rozlišení 512 x 512 při rychlosti až 40 snímků za sekundu se zanedbatelnou latencí při spuštění avatar, který napodobuje lidské konverzační chování.
Výzkumníci si jsou jasně vědomi rizik spojených s tímto typem technologie, což možná vysvětluje, proč Microsoft zatím neoznámil plány na urychlení jejího veřejného zavádění. Vědci však také identifikovali případy použití, o kterých věří, že budou pro lidstvo přínosné.
„Výhody – jako je podpora rovnosti ve vzdělání, zlepšení dostupnosti pro jednotlivce s komunikačními problémy a poskytování doprovodu nebo terapeutické podpory těm, kteří to potřebují, mimo jiné – podtrhují důležitost našeho výzkumu a dalších souvisejících výzkumů inteligence zodpovědně, s cílem zlepšit lidské blaho.
„Vzhledem k tomuto kontextu nemáme v plánu vydat online demo, API, produkt, další podrobnosti implementace nebo jakékoli související nabídky, dokud nezajistíme, že je technologie používána zodpovědně a v souladu s příslušnými předpisy.“
To by mohl být dobrý nápad Počet podvodů To je možné s tímto typem technologie. Koneckonců, do prezidentských voleb v roce 2024 ve Spojených státech nás dělí jen sedm měsíců. A Celosvětová hrozba fašismu V dohledné době to nezmizí. Lidstvo se skutečně cítí bezmocné proti falešným produktům produkovaným AI právě teď. Možná by velké společnosti jako Microsoft měly udělat vše, co mohou, aby omezily potenciální škody, než se vše na internetu stane falešným.
„Obhájce Twitteru. Zombie fanatik. Hudební fanoušek. Milovník cestování. Webový expert. Pivní guru. Kávový fanatik.“