Učíme sa pamätať: Synaptický rámec plastiky poháňaný kontinuálnym vzdelávaním

Oleksiy Ostapenko, Tassilo Klein, Moin Nabi (ML Research)

Ľudia majú mimoriadnu schopnosť učiť sa nepretržite počas celého svojho života. Schopnosť aplikovať predtým získané vedomosti na nové situácie, prostredia a úlohy je kľúčovým prvkom ľudskej inteligencie. Na biologickej úrovni sa to zvyčajne pripisuje schopnosti selektívne ukladať a spravovať spomienky v dostatočne dlhom časovom období v neurálnych spojeniach nazývaných synapses. Na rozdiel od biologických mozgov tradičné umelé neurónové siete (ANNs) nemajú schopnosť kontrolovať silu synaptických spojení medzi neurónmi. To vedie k extrémne krátkym životnostiam pamäte v ANNs - efekt známy ako katastrofické zabúdanie.

V poslednom desaťročí bola väčšina výskumu v oblasti umelej inteligencie (AI) zameraná na prekročenie úrovne ľudskej úrovne v izolovaných, jasne definovaných úlohách, ako sú hranie počítačových hier, triedenie spamových e-mailov, klasifikácia mačiek od psov a rozpoznávanie reči, len vymenovať zopár. Výsledkom je, že väčšina AI, ktoré nás obklopujú v našom každodennom živote, sa môže označovať ako umelá úzka inteligencia alebo slabá AI. Naopak silná AI sa týka AI podobnej človeku, ktorá môže vykonávať akúkoľvek inteligentnú úlohu, pričom sa dokáže neustále učiť, selektívne zabudnúť, rýchlo sa prispôsobiť novým úlohám a využívať predchádzajúce skúsenosti. Tieto vlastnosti začali výskumníci AI venovať len nedávno.

Prečo neustále učenie? Kľúč k neustále sa meniacim scenárom

Zabudnutie a chýbajúci prenos vedomostí sú jednou z hlavných výziev na ceste od slabej AI k silnej AI. Na rozdiel od ľudí, ktorí zabudli selektívne, stroje zabudli katastroficky. Podobne, zatiaľ čo „dieťa sa učí plaziť, chodiť a potom bežať“ (~ Dave Waters), AI by úplne zabudla na plazenie, keď sa naučí chodiť, a zabudlo by chodiť, keď sa naučilo, ako bežať. Pred preskúmaním možných riešení problému nepretržitého celoživotného vzdelávania sa pozrime na jednoduchý príklad hľadania katalógu odevov založeného na AI.

Model strojového učenia vyškolený na množine údajov obsahujúcej odevy zo sezóny (A) by pri vyhľadávaní medzi produktami tejto sezóny (A) dosahoval veľmi dobré výsledky. Po zmene sezóny sa však môžu zmeniť aj módne trendy. Keď sa módne trendy zmenia, môžu sa do katalógu pridať nové kategórie výrobkov, modely a štýly (napr. Vysoké podpätky namiesto tenisiek, dlhé bundy namiesto krátkych bund atď.). Model trénovaný na údaje z prvej sezóny (A) by pri vyhľadávaní položiek, ktoré boli pridané v novej sezóne, nedosiahol dobrú výkonnosť. V skutočnosti by iba školenie nášho modelu o údajoch z novej sezóny viedlo k katastrofálnemu zabúdaniu na schopnosť vyhľadávať medzi položkami z predchádzajúcej sezóny.

Bežný spôsob riešenia zabudnutia?

Jedna z prvých techník na zmiernenie katastrofického zabúdania v ANN je známa ako zážitkové prehrávanie alebo „skúška“. Pokračovanie príkladu nášho katalógového vyhľadávania, aby sa zachovali informácie, ktoré sa získali v prvej sezóne, model strojového učenia sa jednoducho prešije od nuly o zmesi údajov z obidvoch ročných období, tj predtým získané znalosti sa prehrajú podľa modelu trénovaného na údaje o novej sezóne. Všeobecne by preškolenie modelu zakaždým, keď „presuny“ distribúcie údajov viedli k zvýšeniu nákladov na ukladanie údajov a úsiliu potrebnému na údržbu inteligentných systémov, nehovoriac o dramatickom znížení škálovateľnosti systému. A konečne, ukladanie nespracovaných údajov z predchádzajúcich úloh môže do značnej miery porušiť požiadavky na ochranu údajov v reálnej aplikácii.

V tejto súvislosti sa mnohí vedci zamerali na simuláciu nervovej plasticity v rokoch ANN, a tak zmiernili potrebu ukladania prvotných údajov (1,2,3,4,5,6). Spravidla sa to robí v takzvanom nastavení „prírastkových úloh“, kde sa každý novo pridaný údajový blok považuje za samostatnú úlohu a predpokladá sa, že informácie o označení úlohy sú k dispozícii v čase skúšky. Ak sa vrátime k príkladu katalógového vyhľadávania, bude potrebné, aby sa do každého dotazu zahrnuli informácie o označení sezóny (označenie úlohy); preto by klasifikácia danej časti odevu vyžadovala a priori informácie o sezóne, do ktorej patrí (označenie úlohy). Takéto označenie „úlohy“ by automaticky znížilo výstup modelu na triedy, ktoré patria do predpokladanej úlohy. V našom vyššie uvedenom príklade by sa teda model obmedzil iba na konkrétnu sezónu. Tieto predpoklady sa v aplikáciách v reálnom svete dajú len zriedka splniť.

Samostatná oblasť práce sa zaoberá skutočnejším scenárom. V tomto scenári „prírastkový trieda“ sa výstup klasifikácie modelu neustále rozširuje, keď sa učia nové triedy. V tejto súvislosti je spoločnou stratégiou zavedenie takzvanej zložky generatívnej pamäte (napr. 7,8,9). Tu je namiesto ukladania nespracovaných údajov vyškolený generatívny model, ako je GAN alebo VAE (pozri predchádzajúci blogový príspevok), aby generoval zážitok na prehratie. V príklade katalógu by sa teda položky (so zodpovedajúcou triedou) z prvej sezóny vygenerovali a prehrali podľa modelu.

Existujúce prístupy generatívnej pamäte sa väčšinou spoliehajú na myšlienku hlbokého generatívneho prehrávania, kde sa generatívny model opakovane precvičuje na zmesi aktuálne dostupných skutočných údajov (nová sezóna) a epizód opakovania syntetizovaných predchádzajúcim generátorom (minulá sezóna). Avšak, okrem toho, že sú pri tréningu vysoko neefektívne, tieto prístupy sú vážne náchylné na účinok známy ako „sémantické unášanie“. „Sémantické unášanie“ sa týka kvality snímok generovaných pri každom opakovanom prehrávaní pamäte v závislosti od predtým vygenerovaných snímok, čo spôsobuje náchylnosť na šírenie chýb, čo vedie k strate kvality a zabudnutiu.

Navrhované riešenie - učenie sa plasticity v generatívnej pamäťovej sieti

Doteraz sme sa dozvedeli, že opakovanie skúseností je jednoduchou a užitočnou stratégiou na prekonanie zabudnutia všeobecne v ANN, a najmä v náročnej situácii „zvyšujúcej sa o triedu“. Táto stratégia je však použiteľná iba vtedy, keď sa epizódy prehrávania nezachovávajú ako prvotné údaje, ale vo forme relevantných a efektívne uložených vzorcov pamäte.

Aby sme to vyriešili, v našej nedávnej práci sme navrhli metódu s názvom Dynamická generatívna pamäť (DGM) - komplexný učiteľný rámec nepretržitého učenia, ktorý simuluje synaptickú plasticitu pomocou naučiteľných masiek pozornosti aplikovaných na parametre generatívnej siete (GAN). , Tvrdé maskovanie pozornosti identifikuje segmenty siete, ktoré sú nevyhnutné na zapamätanie aktuálne získaných informácií, a zabraňuje ich aktualizácii počas budúceho vzdelávania. Sieť je ďalej motivovaná k opätovnému použitiu predtým získaných poznatkov, ktoré boli uložené v takýchto „vyhradených“ segmentoch siete, čo vedie k pozitívnemu prenosu poznatkov vpred. Preto v našom príklade katalógu produktov by sa vedomosti o položkách katalógu z predchádzajúcej sezóny mohli pri učení o položkách novej sezóny účinne znovu použiť. Celkovo sa DGM môže dozvedieť o nových úlohách bez potreby nahrádzania starých znalostí, čím sa zvyšuje efektívnosť odbornej prípravy a stáva sa robustnejším vzhľadom na katastrofické zabúdanie.

V dôsledku toho môže DGM generovať informatívne a rozmanité vzorky predtým naučených kategórií v ktoromkoľvek kroku kontinuálneho vzdelávania, ako je to znázornené na obrázku nižšie. Nahradením týchto vzoriek modelu na riešenie úloh (D) sa získa model, ktorý si dokáže udržať vysoký výkon klasifikácie na všetkých triedach, ktoré boli pozorované počas nepretržitého procesu učenia.

O škálovateľnosti

Vzhľadom na obmedzenú veľkosť siete je nevyhnutné, aby sa s rastúcim počtom úloh, ktoré sa treba naučiť, v určitom okamihu vyčerpala kapacita modelu. Tento problém sa zhoršuje pri simulácii nervovej plasticity s maskovaním tvrdej pozornosti na úrovni parametrov. Aby sa zaručila dostatočná kapacita a konštantná expresná sila základnej siete, DGM udržiava konštantný počet „bezplatných“ parametrov (tj raz, keď sa dajú účinne aktualizovať) rozšírením siete o presne ten počet parametrov, ktoré boli vyhradené pre predchádzajúcu sieť. úloha. Kľúčovou myšlienkou je, že pri danom pozitívnom prenose vedomostí vpred (t. J. Opätovné použitie parametrov) by sa mal počet rezervácií parametrov pre nové úlohy časom znižovať a rast siete by sa mal v určitom okamihu saturovať.

Technické podrobnosti o metóde DGM nájdete v úplnom dokumente o arXiv.

Aj keď ešte stále nie je ďaleko od vyriešenia problému katastrofického zabúdania a napriek niekoľkým obmedzeniam, DGM demonštruje efektívny rast siete a odolnosť proti katastrofickému zabúdaniu v náročnom nastavení „triedy-prírastkové“. Sme presvedčení, že predložený výskum nám môže pomôcť zlepšiť naše chápanie neustáleho učenia - základnej schopnosti na ceste k dosiahnutiu silnej AI, ktorá sa dokáže v priebehu času adaptívne a progresívne učiť (a zabudnúť).

Naša práca na celoživotnom vzdelávaní je prezentovaná na CVPR 2019.

O autorovi: Oleksiy Ostapenko, pridružený výskumný inžinier vo výskumnom tíme strojového vzdelávania SAP, pracuje na výzvach celoživotného vzdelávania, o ktorých sa hovorí v tomto príspevku vo svojom príspevku, ktorý bude predstavený na tohtoročnom CVPR.