Veřejné datové sady jsou jedním z nejdůležitějších stavebních kamenů pro výzkum strojového učení. Díky těmto datovým sadám může kdokoli trénovat a vyhodnocovat své modely na osobních zařízeních nebo cloudových službách. Tyto obecné standardy umožňují testování a hodnocení různých metod, protože obsahují předem určené školení a segmentaci testovacích dat.
klasifikace obrázků Je to jeden z nejznámějších problémů počítačového vidění. Nicméně modely klasifikace obrázků byly ve skutečnosti docela dobré. Když zarovnání Předchozí model byl trénován na klasifikačním WebImageText a fungoval jako zastaralý na datové sadě Fashion-Gen. Tato pozorování odhalují, že klasifikaci obrázků lze zlepšit pomocí textových modelů obrázků.
Rozsáhlé, generické datové soubory pro klasifikaci textu obrázků však mají omezenou velikost a jazykovou rozmanitost (viz Tabulka 1). V tomto příspěvku tedy autoři prezentují GLAMI-1M. Obecný vícejazyčný klasifikační standard pro módní výrobky. Stručně popišme soubor dat; Dataset obsahuje 1,1 milionu obrázků módních produktů a jejich popisů v jedné verzi 13 jazyků. Popisy produktů jsou převzaty z webových stránek elektronického obchodu. Obrázky jsou rozděleny do kategorií 191 kategorií (Viz obrázek 2) S vysoce kvalitními štítky. Kompletní testovací sada a 75 % obrázků tréninkové sady 1M je označeno jako člověk.
Vzhledem k tomu, že data jsou shromažďována z webu elektronického obchodu, představují různé problémy, jako je řešení nevyvážených distribucí kategorií s dlouhým koncem, hlasitých štítků, multimediálních vstupů, vícejazyčných skriptů a mnoho dalšího.
Existují určité datové sady specifické pro módu (viz tabulky 2 a 3), ale existuje dvojjazyčná datová sada obrázků a textu, Fashion-MMT. Je však desetkrát menší než GLAMI-1M.
Nyní se dostáváme k otázce, Jak se data shromažďují a čistí?
Módní položky v datovém souboru jsou vybírány z katalogu GLAMI ve dvou fázích:
- Položky s vysoce kvalitními lidskými anotacemi jsou vzorkovány na základě zdroje anotace. K vytvoření testovací sady je použito 100 000 náhodně vybraných vzorků.
- Položky se odebírají z méně spolehlivého systému indikativního označování, aby se získala cvičná sada 1 milionu položek.
Kromě toho nedochází k překrývání mezi sadou obrázků a tréninkovými a testovacími texty, jak bylo ověřeno prostřednictvím MD5 hash A Kosinusová podobnost.
Tabulka 4 poskytuje další informace o datové sadě.
Výzkumníci také vytvořili multimodální klasifikační základní linii a vytvořili transkript-modální obraz na GLAMI-1M.
Nejprve si promluvme o klasifikaci –
v multimediální klasifikace Vstupy pocházejí z různých modalit, zde; textový (název + popis), vizuální (obrázek) a kategorický (zdroj názvu). Pro základní linii použili EmbraceNet, protože dokáže převzít zašifrovaný vstup z jakékoli metody a zkombinovat je do jediné metody.
Teď o tom Vytvořte modální obrázek s textemA
Trénovali malou verzi modelu podobného Imagen na podmnožině datové sady.
Výsledky z obou výchozích hodnot lze vidět v tabulce 6 a na obrázcích 5,6,7.
Konečně, GLAMI-1M Je to největší veřejně dostupná datová sada pro vícejazyčnou klasifikaci textů obrázků. Má potenciál pomoci urychlit výzkum v oblasti generování textově modálních obrázků, klasifikace textů obrázků a vícejazyčného strojového překladu. Kromě toho může být také užitečné pro detailní výpis módních produktů na webových stránkách elektronického obchodu.
skenovat papír A odkaz na github. Veškeré zásluhy za tento výzkum patří výzkumníkům tohoto projektu. Také se nezapomeňte připojit Naše stránka Reddit A nesvorný kanálkde sdílíme nejnovější zprávy o výzkumu AI, skvělé projekty AI a další.
Vineet Kumar je konzultantem ve společnosti MarktechPost. V současné době pokračuje v bakalářském studiu na Indian Institute of Technology (IIT), Kanpur. Je nadšený do strojového učení. Je nadšený pro výzkum a nejnovější vývoj v oblasti hlubokého učení, počítačového vidění a příbuzných oborů.
Nezávislý obhájce jídla. Celkový myslitel. Certifikovaný spisovatel. Televizní ninja. Profesionální tvůrce. Hip-friendly twitter feťák. Hrdý průzkumník. Bacon nadšenec.