Meta představuje Chameleon, pokročilý multimediální model

Meta představuje Chameleon, pokročilý multimediální model

Připojte se k nám 5. června v New Yorku a spolupracujte s výkonnými lídry při zkoumání komplexních způsobů auditu modelů umělé inteligence z hlediska zkreslení, výkonu a etického dodržování napříč různými organizacemi. Zde se dozvíte, jak se můžete zúčastnit.


Jak se konkurence v generativní AI posouvá směrem k multimodálním modelům, mrtví vydala náhled toho, co by mohlo být jeho odpovědí na modely vydané Frontier Labs. chameleónjeho nová modelová řada, je navržena tak, aby byla multimediální, spíše než aby skládala komponenty různými způsoby.

Ačkoli Meta ještě nezveřejnila modely, její hlášené experimenty ukazují, že Chameleon dosahuje nejmodernějšího výkonu v různých úkolech, včetně obrazových anotací a vizuálních odpovědí na otázky (VQA), přičemž zůstává konkurenceschopný v úkolech pouze s textem.

Architektura Chameleon může otevřít nové aplikace AI, které vyžadují hluboké porozumění vizuálním i textovým informacím.

Multimodální modely rané integrace

Běžným způsobem vytváření základních multimodálních modelů je sdružování modelů, které byly trénovány v různých modalitách. Tento přístup se nazývá „zpožděná fúze“, kdy systém umělé inteligence přijímá různé modality, zakóduje je do samostatných modelů a poté zkombinuje kódování za účelem vyvození závěrů. I když zpožděná fúze funguje dobře, omezuje schopnost modelů integrovat informace napříč modalitami a vytvářet sekvence překrývajících se obrázků a textu.

VB událost

AI Impact Tour: AI Audit

Připojte se k nám, až se 5. června vrátíme do New Yorku, kde se spojíme s vedoucími pracovníky a ponoříme se do strategií auditu modelů umělé inteligence, abychom zajistili spravedlivost, optimální výkon a dodržování etiky napříč různými organizacemi. Zajistěte si svou účast na této exkluzivní akci pouze pro pozvánky.

Požádejte o pozvání

Chameleon používá architekturu smíšených médií založenou na rané fúzi, což znamená, že byl od základu navržen tak, aby se učil z překrývající se směsi obrázků, textu, kódu a dalších modalit. Chameleoni přeměňují obrazy na diskrétní symboly, podobně jako to jazykové modely dělají se slovy. Používá také standardizovanou slovní zásobu sestávající z textových symbolů, kódu a obrázků. To umožňuje aplikovat stejnou strukturu transformátoru na sekvence obsahující obrazové a textové tokeny.

READ  WhatsApp získává vylepšený design rozhraní a nový zásobník na přílohy

Podle výzkumníků je Chameleonovi nejpodobnějším modelem Google Gemini, který rovněž využívá k rané integraci přístup založený na tokenech. Gemini však ve fázi generování používá samostatné dekodéry obrázků, zatímco Chameleon je end-to-end model, který zpracovává a generuje tokeny.

„Jednotný kódový prostor umožňuje Chameleonu bezproblémově uvažovat a generovat překrývající se textové a obrazové sekvence, aniž by bylo nutné používat komponenty specifické pro metodu,“ napsali vědci.

Logika šifrování a dešifrování splněna (Zdroj: arxiv)

Přestože je včasná integrace velmi atraktivní, představuje značné problémy při trénování a škálování modelu. K překonání těchto problémů výzkumníci použili řadu architektonických úprav a tréninkových technik. Ve svém příspěvku sdílejí podrobnosti o různých experimentech a jejich účincích na model.

Chameleon je trénován ve dvou fázích, s datovým souborem obsahujícím 4,4 bilionu textových symbolů, páry obrázek-text a sekvence překrývajícího se textu a obrázků. Výzkumníci trénovali verzi Chameleon se 7 miliardami a 34 miliardami parametrů na více než 5 milionech hodin 80GB GPU Nvidia A100.

Chameleon v akci

Podle experimentů uvedených v tomto článku může Chameleon provádět různé textové a multimediální úkoly. Pokud jde o testování vizuálních odpovědí na otázky (VQA) a titulků obrázků, Chameleon-34B dosahuje špičkového výkonu a překonává modely jako Flamingo, IDEFICS a Lava-1.5.

Podle výzkumníků Chameleon odpovídá výkonu jiných modelů s „mnohem méně tréninkových příkladů v kontextu a při menších velikostech modelů, a to jak v předtrénovaných, tak v jemně vyladěných hodnoceních modelů“.

Jedním z kompromisů multimédií je snížený výkon na požadavky jedné metody. Například modely vizuálního jazyka mívají nižší výkon u textových výzev. Chameleon však zůstává konkurenceschopný pouze v textových benchmarcích a odpovídá modelům jako Mixtral 8x7B a Gemini-Pro v úlohách logického uvažování a čtení s porozuměním.

Je zajímavé, že software Chameleon může uvolnit nové možnosti pro smíšené modální uvažování a generování, zvláště když výzvy předvídají smíšené modální reakce s překrývajícím se textem a obrázky. Experimenty s reakcemi hodnocenými lidmi ukazují, že uživatelé obecně preferují multimediální dokumenty generované Chameleonem.

READ  Nový únik potvrzuje specifikace Pixel 8 a Watch 2 včetně baterie

Minulý týden OpenAI a Google odhalily nové modely, které poskytují bohaté multimediální zážitky. Mnoho detailů o modelech však neprozradili. Pokud bude Meta pokračovat ve svém vlastním playbooku a uvolňovat závaží pro Chameleon, může se stát otevřenou alternativou k soukromým modelům.

Včasná fúze by také mohla inspirovat nové směry pro výzkum pokročilejších modelů, zvláště když se do mixu přidá více modalit. Robotické startupy už například experimentují s integrací jazykových modelů do řídicích systémů robotů. Bude zajímavé sledovat, jak může časná fúze také zlepšit základní modely pro robotiku.

„Chameleon představuje důležitý krok k realizaci vize sjednocených základních modelů schopných myslet flexibilně a vytvářet multimediální obsah,“ napsali vědci.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *