Detekce spamu v Gmailu s umělou inteligencí je největším vylepšením zabezpečení za poslední roky

Ilustrace stohu obálek označených — Getty Images | com. pagadesign

Poslední příspěvek na Blog zabezpečení Google Podrobnosti o novém upgradu spamových filtrů Gmailu, který Google nazývá „jedním z největších vylepšení obrany v posledních letech“. Upgrade přichází v podobě nového systému klasifikace textu nazvaného RETVec (Efficient and Flexible Text Vector). Google říká, že to může pomoci porozumět „nepřátelské manipulaci s textem“ – e-mailům plným speciálních znaků, emoji, překlepů a dalších nežádoucích znaků, které byly dříve čitelné pro lidi, ale stroje jim snadno porozuměly. Dříve spamové e-maily plné speciálních znaků snadno pronikly do obrany Gmailu.

Pokud chcete příklad toho, jak vypadá „manipulace s nepřátelským textem“, níže uvedená zpráva je něco z vaší složky se spamem. Moje osobní zkušenost s Gmailem s těmito e-maily je, že to byl během prvního pololetí velký problém, jelikož mi podobné e-maily pravidelně přicházely do schránky. Zdá se, že tento technický upgrade na RETVec funguje, jelikož mi podobné e-maily v posledních měsících nedělaly vůbec žádný problém.

Bylo velmi obtížné třídit e-maily, jako je tento, a zatímco jakýkoli spamový filtr by pravděpodobně mohl skenovat e-mail, který říká: „Blahopřejeme! Pro váš jackpotový účet je k dispozici kredit 1 000 $“, ve skutečnosti to není to, co tento e-mail říká. Velká část písmen zde je „Homofony„Když se ponoříte do nekonečných hlubin standardu Unicode, můžete najít obskurní znaky, které vypadají, jako by byly součástí běžné latinské abecedy, ale ve skutečnosti nejsou.

Například předmět „𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭“ vypadá zvláštně tučně, ne proto, že má tučný design, ale protože používá glyfy UnicodeTučná velká matematika c„. Je to matematický symbol, který lidem vypadá jako písmeno „C“, ale robot pro filtrování spamu ho vidí přísně jako matematický symbol a nerozumí významu v angličtině. Čím blíže se na takový e-mail podíváte, tím je to horší: Obsahuje „C0NGRATULATIONS“ na nule nahrazuje jeden ze znaků „O“, podtržené znaky v „Jᴀ̲ᴄ̲ᴋ̲pot“ jsou tak divné, že se ani nezobrazují při vyhledávání v Unicode, a spousta mezer je zaměněny za tečky nebo podtržítka. Výsledkem je, že filtr spamu vypadá takto Chaos Od emailu a v podstatě to vzdává. (Nechápu, proč jsou nepřečtené e-maily nastaveny na „Doručená pošta“ místo „Spam“, ale nenesu odpovědnost.)

READ Nová sezóna Overwatch 2 přetváří své hrdiny jako padouchy

Google říká, že RETVec je tu, aby zachránil situaci: „RETVec je trénován tak, aby byl odolný vůči manipulaci na úrovni znaků, včetně vkládání, mazání, překlepů, homonymních znaků, nahrazování LEET a dalších.“ Model RETVec je trénován na nové postavě. kodér, který „dokáže šifrovat všechny znaky a slova.“ UTF-8 efektivně. RETVec tedy funguje hned po vybalení ve více než 100 jazycích, aniž by vyžadoval vyhledávací tabulku nebo pevnou velikost slovní zásoby.

Google říká, že efektivita je zde velký problém. Alternativní přístupy, které používají „pevnou velikost slovníku“ nebo „vyhledávací tabulku“ pro homomorfy, učinily jejich provoz náročným na zdroje. Představte si seznam všech možných překlepů a překlepů „Gratulujeme“, které nahrazují jedno nebo více písmen čísly, matematickými symboly, azbukou, hebrejštinou nebo emotikony, a měli byste téměř nekonečný seznam. Google říká, že RETVec je pouze 200 000 „místo milionů parametrů“, takže zatímco cloud filtrování spamu od Googlu je pravděpodobně dost velký na to, aby spustil cokoli, je dost malý na to, aby mohl běžet i na místním počítači. Ritvik Open sourceGoogle doufá, že zbaví svět podvodných útoků, takže i vaše místní sekce komentářů je může jednoho dne spustit.

Zdá se, že RETVec funguje velmi podobně jako lidé čtou: je to model strojového učení TensorFlow, který používá vizuální „podobnost“ k určení významu slov spíše než skutečný obsah znaků. Google Ukažte podobnost Využívá stejnou technologii k rozpoznávání obrázků koček, takže přeměna v nejúžasnější systém optického rozpoznávání znaků na světě se zdá být proveditelná. Tento přístup zjevně vedl k významným zlepšením, jak řekl Google: „Nahrazení předchozího textového vektoru pro klasifikátor spamu Gmailu za RETVec nám umožnilo zlepšit naši míru detekce spamu oproti původnímu stavu o 38 % a snížit míru falešných pozitivních zpráv o 19,4 %. Navíc použití RETVec snížilo využití TPU modelu o 83 %, čímž se nasazení RETVec stalo jedním z největších upgradů obrany v posledních letech.“

READ Samsung Galaxy S23 získá jas a nabití baterie

Google říká, že „za poslední rok“ interně testoval RETVec a již se zavádí do vašeho účtu Gmail.

Jindřiška Ondráčková

„Obhájce Twitteru. Zombie fanatik. Hudební fanoušek. Milovník cestování. Webový expert. Pivní guru. Kávový fanatik.“

Napsat komentář Zrušit odpověď na komentář