Recenzia Deep Learning Papers - Universal Adversarial Patch

V tomto článku najprv budem diskutovať o vytváraní kontradiktórnych obrázkov a potom budem pomaly viesť diskusiu o zaujímavom dokumente publikovanom vedcami v spoločnosti Google Brain o záplatovej protizápalovej fotografii (https://arxiv.org/pdf/1712.09665 .pdf). Tento článok predstavuje všeobecný patch obrázkov, ktorý by po pridaní k obrázkom spôsobil, že by ich nejaká neurónová sieť nesprávne klasifikovala. Autori článku sami to demonštrovali prostredníctvom videa z youtube:

Najprv zistime, prečo sa takýchto protivníkov môžu v prvom rade tvoriť.

Slabé stránky neurónových sietí

Hlboké neurónové siete určite v poslednom čase prinášajú výsledky „vysokej presnosti“ na rozpoznávanie objektov. Napriek tomu je možné, aby neurónová sieť nesprávne označila obrázok s minimálnymi poruchami. Pozrime sa na možné dôvody:

  • Hlboké neurónové siete sú trénované na pevnom súbore údajov, a preto ich transformácia na vstupné signály, ako je preklad alebo rotácia, môže spôsobiť nesprávnu klasifikáciu. To tiež znamená, že malé množstvo šumu pridaného k vstupnému signálu môže spôsobiť nesprávnu klasifikáciu. Napríklad pridanie malého množstva šumu na vstupný obrázok by mohlo spôsobiť, že neurónová sieť nesprávne klasifikuje obraz, hoci ľudské oko nevníma žiadnu zmenu v obrázku. Tento obrázok by vám dal nápad:

[Nedávno bola vykonaná práca na technológii Capsule Networks od Geoffa Hintona, ktorá je invariantná k transformácii obrazu. Kapsuly sú napriek tomu náchylné na iné typy kontradiktórnych útokov. A dokonca aj konvety sú viac či menej rozmerovo a transformačne nemenné]

  • Dnešné klasifikátory založené na Deep Learning sú tiež väčšinou po častiach lineárne. Aj najpopulárnejšie aktivačné funkcie, ako je ReLu (a jej varianty), sú z časti lineárne. Ostatné aktivačné funkcie, ako sú Sigmoid a Tanh, sú vylúčené, pretože spôsobujú problémy, ako napríklad „Vanishing Gradient Problem“. Hoci neurónové siete sú „nelineárne klasifikátory“, dosahujú túto tzv. Nelinearitu prostredníctvom viacerých „lineárnych“ oblastí.

Tieto slabiny neurónových sietí viedli k vytvoreniu celého poľa nazvaného „Adversarial Deep Learning“ (všeobecne „Adversarial Machine Learning“ pre akýkoľvek typ vstupného signálu)

Generovanie kontradiktórnych obrázkov

Generovanie kontradiktórnych obrázkov na oklamanie klasifikátora neurónovej siete nie je novým problémom. V minulosti bolo veľa navrhovaných metód na generovanie kontradiktórnych príkladov. Najjednoduchší spôsob, ako to dosiahnuť, by bolo zmeniť hodnotu jednotlivých pixlov obrázka, kým sa maximalizuje pravdepodobnosť novej triedy. matematicky,

Jednoduchá matematická rovnica na zostavenie kontradiktórnych obrázkov

(Väčšina výskumných pracovníkov zvyčajne nahrádza uvedený pravdepodobnostný termín logaritmickou pravdepodobnosťou)

Existujú tiež iteračné metódy založené na gradiente, ako je napríklad metóda rýchleho gradientového označenia (FGSM), metóda iteratívneho gradientového znaku a metóda klasifikačných metód s najmenšou pravdepodobnosťou, ktoré poskytujú protikladné príklady. Tieto metódy používajú predovšetkým gradient nákladov (J) výstupnej triedy vzhľadom na vstupný obraz, na iteratívnu zmenu vstupného obrazu na základe gradientu. Pozrime sa na matematickú rovnicu FGSM:

FGSM

Stručne povedané, FGSM iteratívne zvyšuje vstupný signál o malé množstvo v smere gradientu nákladov vzhľadom na vstup.

Okrem vyššie uvedených techník existujú samozrejme aj populárne GAN (Generatívne kontradiktórne siete) na generovanie kontradiktórnych obrazov.

Vyššie uvedené metódy síce vytvárajú uspokojivé príklady kontradiktórnosti, ale nie sú dostatočne robustné na to, aby pracovali na ekvivalentne transformovaných obrázkoch. Tento dokument s názvom „Mechanizmy založené na výskume zmierňujú nepriaznivé príklady“ od Luo et. al, ukazuje, že vyššie uvedené príklady kontradiktórnosti zlyhávajú, keď sú orezané pozdĺž predmetu záujmu (Foveated). Je to z toho dôvodu, že siete sú odolné voči škálovaniu a prekladu. Takéto pravidlo transformácie sa však nevzťahuje na hluk alebo poruchu pridanú k obrázku, t. J. Poruchy nie sú dostatočne robustné na to, aby oklamali konvexnú sieť aj po transformácii obrazu. Ďalší dokument s názvom „NIE sa nemusíte obávať nepriaznivých príkladov pri detekcii objektov v autonómnych vozidlách“ má takmer rovnaký zámer.

Je teda dokonca možné vytvoriť robustný súbor kontradiktórnych obrazov? V poslednej dobe sa objavilo niekoľko zaujímavých článkov, ktoré diskutovali o produkcii spoľahlivých príkladov kontradiktórnosti. Pozrime sa na niektoré z nich:

  • Syntéza robustných príkladov kontradiktórnosti (prostredníctvom Očakávania nad transformáciou)
  • Adversarial Patch
  • Smerom k nepostrehnuteľným a robustným kontradiktórnym útokom na neurónové siete

Zameriame sa predovšetkým na prvé 2 príspevky.

Očakávanie nad transformáciou (EOT)

Práca z prvého článku (t. J. Syntéza robustných protikladných príkladov) poskytuje protikladné príklady, ktoré sú dostatočne robustné na to, aby „oklamali“ klasifikátor neurónovej siete pri väčšine transformácií obrazu. V zásade sa tu deje to, že očakávaná pravdepodobnosť triedy je maximalizovaná vo všetkých možných transformačných funkciách (t ~ T), s obmedzením na očakávanú efektívnu vzdialenosť medzi transformovaným originálom a transformovaným narušeným obrazom. Skúsme pochopiť, čo to znamená.

V EOT je daný obraz najskôr urobený kontradiktórnym použitím jednej z vyššie uvedených metód. Teraz definujeme transformačný priestor „T“, v ktorom sú transformácie, ako je rotácia, zmena mierky, preklad atď. Potom vypočítame očakávanie log pravdepodobnosti nášho požadovaného označenia triedy. Matematicky to vyzerá takto:

Očakávaná pravdepodobnosť záznamu požadovanej triedy vzhľadom na transformácie

Potom sa pokúsime maximalizovať túto očakávanú pravdepodobnosť pod podmienkou, že očakávaná účinná vzdialenosť medzi transformovaným originálom a transformovaným narušeným obrazom je menšia ako nejaká hodnota ε ε. Vzhľadom na očakávanú pravdepodobnosť (alebo pravdepodobnosť protokolovania) teda zohľadňujeme všetky transformácie prítomné v priestore transformácie. Obmedzením je zabezpečiť, aby boli generované obrázky čo najbližšie k pôvodnej transformácii. Takto vyzerá konečná rovnica:

Adversarial Patch

Z vyššie uvedeného videa je zrejmé, že hľadáme „univerzálnu“ záplatu obrázka, ktorá po pridaní k akémukoľvek obrázku spôsobí, že neurónová sieť nesprávne klasifikuje obrázok. Na tento účel je najskôr definovaná operátorA (). Operátor A vezme do záplaty, obrazu, koordinuje v obraze (aby umiestnil záplatu) a transformácie, ako je preklad, rotácia a zmena mierky, sa aplikujú na záplatu.

Intuícia za operátorom „A“

Na nájdenie optimálnej záplaty sa pre daný štítok používa Očakávanie nad transformáciou, aby sa maximalizovala pravdepodobnosť nesprávnej klasifikácie. Matematicky to vyzerá takto:

Pôvodný papier používal „Toustovač“ ako triedu kontradiktórnosti a posledná oprava vyzerala takto:

Jedným z obmedzení tejto kontradiktórnej opravy je, že nemôžete oklamať modely detekcie objektov (modely, ktoré rozpoznávajú rôzne objekty v obraze). Napríklad som sa nedávno pokúsil nahrať obrázok s touto opravou na Facebook (: P). Pretože Facebook uvádza všetky predpovede o obrázku v atribúte alt značky img, ktorá ho obsahuje, môžete skontrolovať jeho predpovede ihneď po odovzdaní obrázka. Tu je to, čo som vyskúšal:

Vľavo: Môj príspevok na Facebooku, vpravo: Nástroje Chrome Dev

(: P)

[Tretí článok v zozname vyššie, t. J. „Smerom k nepostrehnutelným a robustným príkladom útokov proti neurónovým sieťam“ vyšiel približne o týždeň späť. V tomto dokumente brali do úvahy ľudský percepčný systém a generovali kontradiktórne príklady]

zhrnutie

  • Generovanie obsahu kontradiktórnosti: Pravdepodobne zvyšujeme pravdepodobnosť nesprávneho zaradenia opakovaným pridaním šumu. Niektoré populárne techniky, ako je FGSM, používajú na zvýšenie šumu znak stúpania nákladov
  • Slabosť: Tieto metódy nie sú dostatočne robustné na to, aby „oklamali“ neurónovú sieť, keď sa vstupný poruchový obraz transformuje (arxiv: 1511.06292 a arxiv: 1707.03501).
  • Očakávanie nad transformáciou: Najskôr vygenerujeme kontradiktórny obraz pomocou jednej z vyššie uvedených metód. Potom maximalizujeme očakávanú pravdepodobnosť protokolovania triedy pre danú transformáciu narušeného obrazu. Toto očakávanie sa týka všetkých transformácií v transformačnom priestore „T“.
  • Adversarial patch: Definuje operátora „A“, ktorý aplikuje opravu na daný obrázok. Očakávanie transformácie sa potom použije na maximalizáciu pravdepodobnosti protokolovania novej triedy pod podmienkou, že sa príliš neodchýli od počiatočnej opravy.