Distillery AI Distillery (Part 1): Pohľad vtáčej perspektívy na výskum AI

Rôzne šošovky, ktoré možno vidieť cez AI; motivácie a úvod do našej webovej aplikácie

Poznámka: Ak chcete roboty u vás doma a chceli by ste, aby sa to stalo skôr, ako neskôr, urobte prosím náš veľmi krátky prieskum. Vaše odpovede pomáhajú riadiť naše simulované výskumy v oblasti životného prostredia a projekty robotiky

Venujte 3 minúty svojho času: https://forms.gle/hPiP1p3sJ734Hzk19
Pekne ďakujem!

V spoločnosti MTank pracujeme na dvoch cieľoch. (1) Modelovanie a destilácia vedomostí v rámci AI. (2) Pokročiť vo vytváraní skutočne inteligentných strojov. V rámci tohto úsilia vydávame informácie o našej práci, ktorú si ľudia môžu užívať a učiť sa. Ak sa vám naša práca páči, ukážte svoju podporu sledovaním, zdieľaním a tlieskaním zadkov. Vopred ďakujem!

  • Časť 1: Vtáčie pohľad na výskum AI
  • Časť 2: Destilácia vložením

Čo je to a prečo ste to urobili?

Vitajte v našej prvej splátke projektu AI Distillery Project, kde sa náš tím MTank, frustrovaný objemom výskumu AI po celom svete, pokúša o hackovanie riešenia našej hromady neprečítaných papierov, ktoré sa každý deň pripájajú. V našom predchádzajúcom blogu o vízii sme hravo a presne opísali objem globálnych výskumných publikácií o umelej inteligencii ako ohnisko - neuveriteľne vysokého objemu, ale médium, ktoré bráni tomu, aby niekto správne uhasil svoju smäd. Preto sme sa rozhodli vyskúšať akvakultúru, ktorá prinúti osviežiť poznatky o AI a rôznych súvisiacich oblastiach.

Prečo sa pýtaš? Po prvé, mysleli sme si, že je to zaujímavý problém. Po druhé, počuli sme (a zhodovali sa) mučené náreky vedcov, ktorí boli znepokojení svojou neschopnosťou držať krok s pokrokom, a to aj v tých najzaostalejších podoblastiach AI. Výskumník často musí rozdeliť svoj čas medzi čítanie, kódovanie, správu, výučbu atď. A niekedy, keď je potrebné napísať dokument pred stanoveným termínom, autori vinu pripúšťajú, že nečítajú žiadne nové príspevky, pravdepodobne mesiace na čas, keď sa pripravia na podanie.

Vedecké poznatky sa do veľkej miery šíria v jednom hlavnom formáte: vedecké práce. Nedávno sa verejné online archívy, ktoré umožňujú citácie, napríklad ArXiv, stali široko prijímanou metódou rýchleho publikovania vedeckého obsahu (pozri tweet od Yann LeCun). Dokumenty majú stále prednosť, pokiaľ ide o to, ako prenášame vedomosti vo vede, paradigme, ktorá sa má zmysluplne posunúť. Tieto príspevky sú prijímané do časopisov a konferencií, alebo sú populárne iba na sociálnych sieťach. V súčasnosti je ArXiv miestom, kde sa väčšina najväčších dokumentov v rámci AI nachádza ešte pred vzájomným preskúmaním.
Naším cieľom je v jednej vete:
Automaticky modelovať a destilovať znalosti v rámci AI

Tento cieľ je veľký, vágny a ideálny pre prácu, ktorú by sme chceli vykonať v najbližších rokoch. Zahŕňa to samozrejme prácu, ktorú sme vykonali ručne, v našich predchádzajúcich dvoch prieskumných publikáciách: Rok v počítačovom videní a multimodálne metódy. Publikácie, ktoré nás pri písaní prinútili snažiť sa pridať do týchto podpolí najlepšie a najnovšie najnovšie dokumenty (SOTA), kým si neuvedomujeme, aké zbytočné to bolo.

Blížiace sa monštrum pokroku AI neúprosne tlačí vpred, keď sme sa zúfalo snažili stráviť, kvantifikovať a písať o svojich dobrodružstvách. V prípade liehovaru AI je však cieľom rozšíriť náš prístup a zaoberať sa výskumom z iného uhla - automaticky by sme vás radi oslovili.

Možno je čas aplikovať AI na AI a automatizovať kurátorstvo a sumarizáciu vedomostí v teréne? Vieme, že na výskum AI je určených veľa úžasných zdrojov, napríklad distill.pub, ale ich kompilácia, editácia a tvorivý proces sú veľmi náročné na čas. Existuje nejaký iný spôsob, ako vytvoriť prehľady pasívne?
Oblasť Network Science sa venuje štúdiu a hľadaniu vzťahov v rámci veľkých citačných sietí. Arxiv-sanity, jedna z našich najväčších inšpirácií, pomáha ľuďom konečne hľadať dokumenty, ktoré hľadajú, alebo odporučiť dokumenty, ktoré by sa im mohli páčiť. Je to kontrola schopnosti vyhľadávania a automatizácie.

Zaujíma nás však hra meta-výskum - čo môže náš výskum povedať o výskume AI? Kam smeruje celá táto univerzita, startup a priemyselný zápal? Ktoré oblasti najviac spolupracujú? Čo je práve teraz horúce a čo bude čoskoro horúce výskumom?

Zatiaľ to nevieme, ale sledujeme to a možno sa to dozvieme spoločne.

Problém z hľadiska získavania informácií (IR)

Rôzne situácie si vyžadujú rôzne metódy získavania informácií. Vykonávanie prieskumného vyhľadávania je v štandardných IR systémoch ťažké, pretože terminológia sa môže líšiť aj v úzko súvisiacich oblastiach (sieťové analýzy verzus grafické neurónové siete). Ako nájsť podobné frázy bez toho, aby ste vedeli, čo hľadáte? Ako nájsť súvisiace dokumenty k vášmu novému nápadu v lese dokumentov GAN?

Moderné spracovanie prirodzeného jazyka prinieslo nástroje na vykonávanie týchto typov prieskumného vyhľadávania, musíme ich iba použiť na údaje z cenných zdrojov, napríklad ArXiv. Preto sa snažíme poskytovať čo najrýchlejšie a najpresnejšie najrelevantnejšie a najvýznamnejšie informácie. Týmto spôsobom by sa výskumníci a odborníci zbavili ťažkopádneho „dotazovania“, aby našli informácie, ktoré potrebujú, z veľkého množstva dokumentov.

Vytvorenie súboru údajov

Počet príspevkov pridaných do ArXiv mesačne od roku 2014. V roku 2018 bolo v ArXiv mesačne v uvedených oblastiach vydaných viac ako 1000 príspevkov mesačne. Každý mesiac okrem januára. V novembri bolo vydaných viac ako 2000 príspevkov.

Ako východisko pre náš vznešený cieľ sme použili základňu kódov arxiv-sanity (vytvorenú Andrejom Karpatym) na zhromaždenie ~ 50 000 dokumentov z API ArXiv vydaného od roku 2014 a ktoré boli v oblasti cs. [CV | CL | CL | CL | CL | CL | LG | AI | NE] alebo stat.ML. Kudos oboch týchto systémov, ako také neuveriteľné zdroje s otvoreným zdrojom, nás privádzajú do bodu, v ktorom má k týmto vedomostiam prístup niekto. V dôsledku toho však vznikla aspoň jedna malá vonkajšia stránka:

Ako zistíme, čo potrebujeme, ak je toľko [prekliatych] papierov?

Možno existuje spôsob, ako si v kontexte výskumu okolo nich vizualizovať staré i nové noviny. To znamená nielen samotné podpole, ale rôzne hniezda, ktoré obývajú. Preskúmanie sa stáva ľahším, objavovaniu a navigácii sa pomáha, nezvyčajne významne, najprv poznaním, kde v priestore dokumentov a poznatkov sa nachádzate a čo je okolo vás.

Očistenie textového korpusu

~ 50000 príspevkov bolo rozdelených podľa formátu pdf2text. Odstránili sme zastavovacie slová (napr. „A“, „z“, „z“) a tokeny, ktoré sa objavujú menej ako prahová hodnota (napríklad 5 alebo 30 - pre každú metódu odlišná). Bežné bigramy („deep_learning“) a trigramy („convolutional_neural_networks“) sú to, čo by sme sa chceli naučiť vkladať, ale pri vytváraní n-gramov existuje problém kvôli kombinatorickej explózii.

Zjednodušene povedané, nechceli by sme sa vyhnúť učeniu vložiek pre bigramy ako „and_the“ a „this_paper“, ktorých sú tisíce. Pretože ešte jednoduchšie, v kontexte výskumu AI nemajú žiadnu hodnotu. Predstavujú všeobecne ľudový jazyk.
Namiesto toho sme manuálne definovali dôležitú skupinu konceptov z väčšej sady najbežnejších n-gramov - „rekurentné neurónové siete“, „podporný vektorový stroj“ atď. Ako prvý prístup nájdeme tieto koncepty v texte a nahradíme ich. s konceptovými tokenmi (convolutional_neural_networks, support_vector_machine).

Distillery AI: webová aplikácia na skúmanie výskumu AI

Vytvorili sme webovú aplikáciu, ktorá je k dispozícii na adrese ai-distillery.io, na ktorej zobrazíme väčšinu našich výsledkov, nástrojov, widgiet, štatistík, tabuliek a ďalších. Pomocou webovej aplikácie je možné skúmať niektoré z našich vyškolených modelov v zozbieraných množinách údajov a tiež umožniť komukoľvek preskúmať súvisiace koncepty, nájsť podobné dokumenty alebo získať prehľad každého z nich spolu s trendmi a sledovať ich postupný vývoj. Celkovo je v súčasnosti k dispozícii 6 stránok a v najbližších mesiacoch to plánujeme veľa aktualizovať. Sú to tieto:

Vyhľadávanie papiera (liehovar AI)

Paper Search: podobné vo funkcii ako arxiv-sanity-preserver, ale používame vyhľadávaciu knižnicu Whoosh pre väčšiu flexibilitu a škálovateľnosť. Vyvolajte dotaz a nájdite pre tento dotaz najrelevantnejšie dokumenty.

Blízkosť papiera (liehovar AI)

Blízkosť vkladania slov: nájdite sémanticky podobné slová, napr. „CNN“ je blízko „konvetu“ a „RNN“ je blízko „LSTM“

Blízkosť vkladania papiera: nájdite podobné papiere, napr. Papier „AlexNet“ môže byť blízko papiera „googleNet“ alebo vo všeobecnosti platí, že dokumenty z toho istého poľa budú mať tendenciu byť bližšie ako dokumenty zo samostatných polí.

Vkladanie vizualizácií (liehovar AI)

Vizualizácia vkladania slov: 2D T-SNE graf ukazujúci, aké slová sú blízko seba v priestore vkladania pomocou metód vkladania slov: Word2vec a fastText

Vizualizácia vkladania papiera: Ďalší graf T-SNE, ale na vizualizáciu samotného priestoru vkladania papiera a pomocou našich dvoch zvolených metód vkladania sú LSA a doc2vec.

Grafy a ďalšie informácie: Grafy a informácie, ktoré považujeme za zaujímavé a ktoré sme vytvorili na našej ceste napr. najlepší autori, najlepšie príspevky, počet publikovaných príspevkov za mesiac, atď.
Príklad niektorých máp a štatistík, ktoré náš systém dokáže automaticky vyrobiť z papierového korpusu ArXiv. Prítomnosť „GAN“ v časopise, najviac publikovaná téma, najcitovanejší autori atď.

Zaokrúhlenie nahor

Používame naše najlepšie zbrane na skrotenie šelmy pokroku AI, t. J. S bankou, ReactJS, D3.js, ChartJS a Whoosh. Predtým, ako sme konečne hostili aktuálnu verziu aplikácie s Hertznerom, prešli sme zábavnou cestou z Heroku (príliš málo pamäte RAM) do služby Google Compute Engine (príliš drahé na príliš málo pamäte RAM).

Začali sme AI Distillery dvoma metódami „papierového vkladania“, latentnou sémantickou analýzou (LSA) a doc2vec - a dvoma algoritmami vkladania slov, word2vec a fastText. V nasledujúcej splátke ukážeme čitateľov tieto vloženia a každú stránku, ktorú sme vytvorili. Pre túto chvíľu neváhajte a preskúmajte lokalitu (ai-distillery.io). Náš experimentálny kód nájdete na repozitári AI Distillery GitHub, kde sme použili rámce ako gensim, sklearn a spacy na niektoré z vyššie uvedených.

Ako vždy, ďakujeme, že ste si našli čas na prečítanie našej práce. A prosím, tleskajte a zdieľajte prácu MTank s každým, koho si myslíte, že by sa vám mohol páčiť. Vaša podpora nás všetkých motivuje k tomu, aby sme vyskúšali nové veci a prispeli svojimi dvoma centmi do komunity AI. Takže v tomto prípade nedržte svoj potlesk, ak sa vám páči, čo robíme!

Ak by ste s nami chceli spolupracovať na našej divokej ceste zlepšovania transparentnosti AI alebo máte akékoľvek pripomienky týkajúce sa ktorejkoľvek časti nášho výskumu alebo webovej aplikácie, sme otvorení návrhom, takže neváhajte osloviť v sekcii komentárov alebo e-mailom (info@themtank.com). Dajte si pozor na časť 2 tejto série, ktorá bude čoskoro a na začiatok novej série blogov, ktorú sme spomenuli v našom blogu o vízii (Od pohárov po vedomie).