Nové chápanie šarže Normalizácia

Šaržová normalizácia (BN) bola zavedená do roku [1] už v roku 2015. Odvtedy sa používa v najhlbších modeloch vzdelávania s cieľom zlepšiť školenie a odolnosť pri výbere miery vzdelávania, ako aj pri inicializácii parametrov.

BN bol navrhnutý tak, aby redukoval interný covariate posun (ICS) vstupu každej vrstvy normalizáciou prvých dvoch momentov - priemeru a rozptylu. Zároveň neovplyvňuje schopnosť siete produkovať požadovanú distribúciu aktivácie pomocou dvojice naučiteľných parametrov (gama a beta).

Nedávny dokument [2] vrhá nové svetlo na BN a zvýšenie výkonnosti získané pomocou normalizačnej techniky. Na základe experimentov uvádza:

  • ICS nie je dobrým prediktorom tréningového výkonu
  • Zvýšenie výkonu dosiahnuté pomocou BN nevyplýva zo zníženia ICS
  • BN skôr poskytuje vyhladzujúci účinok na optimalizačné prostredie, ktoré zlepšuje odolnosť modelov voči hyperparameterom, ako je napríklad rýchlosť učenia.

Pokus 1

Obrázok 1 nižšie (prevzatý z [2]) zobrazuje tri sady školení siete VGG. Prvá sieť je trénovaná bez BN, druhá je trénovaná s BN; nakoniec, do tretej siete sa vstrekne distribučná nestabilita po každom BN použitom pridaním časovo premenlivého, nenulového stredného a nehmotného rozptylu šumu. Hluk v podstate spôsobuje vysokú ICS, pravdepodobne vyššiu ako štandardné nastavenie.

Obrázok 1 [2], výsledky experimentu 1

Výsledky ukazujú, že aj pri zvýšenom ICS pridaním hluku sa stále dosiahne zvýšenie výkonu (ružová čiara). To poukazuje na zníženie ICS, ktoré nie je faktorom spôsobujúcim zlepšenie výkonnosti.

Pokus 2

Pre každú vrstvu neurónovej siete zachytáva ICS samotnú zmenu v optimalizačnom probléme spôsobenú zmenou vstupov do každej vrstvy, pretože parametre predchádzajúcich vrstiev sa aktualizujú pomocou klesania. Ako reakcia tohto „posunu“ musí každá vrstva upraviť svoje parametre, čo často spôsobuje miznutie alebo explóziu gradientov [1].

Táto myšlienka zmeny v oblasti optimalizácie by sa odrazila aj v zmenách gradientov parametrov vrstvy. Vyššia zmena v gradiente by odzrkadľovala väčšiu zmenu v oblasti optimalizácie. [2] to zachytí zmeraním rozdielu medzi gradientmi každej vrstvy pred (G) a po aktualizácii všetkých predchádzajúcich vrstiev (G '). Menšia hodnota rozdielu l2 by znamenala menší ICS, pretože krajina zostáva podobná.

Obrázok 2 [2], výsledky experimentu 2

[2] ďalej skúma spojenie medzi ICS a BN vynesením rozdielu 12 (a kosínusového uhla) dvoch gradientov, ako je vidieť na obrázku 2. Z obrázku vyššie je zrejmé, že použitie BN neznamená zníženie ICS.

Čo teda robí šaržová normalizácia?

Optimalizačné prostredie siete Deep Neural Network sa môže skladať z mnohých plochých oblastí a ostrých uzlov, ktoré spôsobujú, že problém nie je konvexný. Takéto oblasti vedú k miznúcemu gradientu (ploché oblasti) alebo k výbuchu gradientu (ostré svahy). To zvyšuje citlivosť na rýchlosť učenia a inicializáciu parametrov, čím sa optimalizácia stáva nestabilnou.

[2] sa týka vyššej úrovne lipschitzness gradientov pomocou BN, čo v skutočnosti znamená vyššiu hladkosť optimalizačného prostredia. Toto je možné vidieť na obrázku 3, ktorý vynesie výpočet gradientu straty v tréningovom kroku a meria, ako sa strata mení v tomto smere gradientu.

Obrázok 3 [2]

Z obrázku 3 predstavuje BN hladší profil. Toto robí gradient predvídateľnejším, to znamená, že v každom kroku je pravdepodobnejšie, že gradient zostane podobný pre najbližšie budúce kroky. Takáto predvídateľnosť umožňuje podniknúť väčšie kroky v smere gradientu bez straty stability.

Na záver [2] sa tiež dospelo k záveru, že vyrovnávací účinok BN môže byť dôvodom lepšej generalizácie sietí. To je preto, že BN posúva optimalizáciu smerom k plochým minimám.

Referencie:
[1] Ioffe S, Szegedy C. Normalizácia šarže: Urýchlenie hlbokého školenia v sieti znížením interného kovariátového posunu. arXiv predtlač arXiv: 1502.03167. 11. februára 2015.
[2] Santurkar S, Tsipras D, Ilyas A, Madry A. Ako pomáha optimalizácia šarží optimalizácia? (Nie, nejde o interný posun kosovičiaka). arXiv predtlač arXiv: 1805.11604. 2018, 29. mája.