Rok v počítačovej vízii - 2. časť zo 4

- Druhá časť: Segmentácia, Super-res / Colouration / Transfer Style, Uznanie akcie

Poznámka: Ak chcete roboty u vás doma a chceli by ste, aby sa to stalo skôr, ako neskôr, urobte prosím náš veľmi krátky prieskum. Vaše odpovede pomáhajú riadiť naše simulované výskumy v oblasti životného prostredia a projekty robotiky

Venujte 3 minúty svojho času: https://forms.gle/hPiP1p3sJ734Hzk19
Pekne ďakujem!
Nasledujúca časť je prevzatá z nedávnej publikácie, ktorú zostavil náš výskumný tím a ktorá sa týkala oblasti počítačového videnia. Prvá a druhá časť sú v súčasnosti k dispozícii na našej webovej stránke a zostávajúce časti (tri a štyri) budú zverejnené v blízkej budúcnosti.

Úplná publikácia bude v nasledujúcich týždňoch k dispozícii zadarmo na našich webových stránkach. Časti 1–2 sú teraz k dispozícii na adrese: www.themtank.org

Odporúčame čitateľom, aby si tento kus prezerali cez našu vlastnú webovú stránku, pretože súčasťou obsahu je vložený obsah a jednoduché navigačné funkcie, aby bol prehľad čo najdynamickejší. Naše webové stránky nevytvárajú pre tím žiadne príjmy a jednoducho sa snažia, aby materiály boli pre čitateľov čo najpútavejšie a najintuitívnejšie. Akákoľvek spätná väzba na prezentáciu, ktorú tu srdečne vítame!

Sledujte, zdieľajte a podporujte našu prácu prostredníctvom akýchkoľvek preferovaných kanálov (a tlieskajte obsahu svojich sŕdc!). Neváhajte a kontaktujte redaktorov s akýmikoľvek otázkami alebo sa dozviete, ako potenciálne prispieť k budúcim dielam: info@themtank.com

segmentácia

Central to Computer Vision je proces segmentácie, ktorý rozdeľuje celé obrázky do zoskupení pixelov, ktoré potom môžu byť označené a klasifikované. Okrem toho sémantická segmentácia ide ďalej tým, že sa snaží sémanticky porozumieť úlohe každého pixelu v obrázku, napr. je to mačka, auto alebo nejaký iný druh triedy? Segmentácia inštancií to ešte viac rozdeľuje na rôzne segmenty tried, napr. označovanie troch rôznych psov tromi rôznymi farbami. Je to jedna z prepážok aplikácií Computer Vision, ktoré sa v súčasnosti používajú v autonómnych sadách technológií riadenia.

Možno, že niektoré z najlepších vylepšení v oblasti segmentácie sú s láskavým dovolením FAIR, ktorý naďalej stavia na svojej práci DeepMask od roku 2015 [46]. DeepMask vytvára hrubé „masky“ nad objektmi ako počiatočnú formu segmentácie. V roku 2016 spoločnosť Fair predstavila SharpMask [47], ktorý vylepšuje „masky“ poskytované spoločnosťou DeepMask, napravuje stratu detailov a zlepšuje sémantickú segmentáciu. Okrem toho MultiPathNet [48] identifikuje objekty vymedzené každou maskou.

„Ak chcete zachytiť všeobecný tvar objektu, musíte mať vedomosti na vysokej úrovni o tom, na čo sa pozeráte (DeepMask), ale presne umiestnite hranice, ktoré potrebujete, aby ste sa mohli obzrieť späť na prvky nižšej úrovne až po pixely ( SharpMask). “- Piotrský dolár, 2016. [49]
Obrázok 6: Demonštrácia techník FAIR v akcii
Poznámka: Vyššie uvedené obrázky ukazujú techniky segmentácie, ktoré používa FAIR. Patria sem aplikácie techník DeepMask, SharpMask a MultiPathNet, ktoré sa používajú v tomto poradí. Tento proces umožňuje presnú segmentáciu a klasifikáciu v rôznych scénach. Zdroj: Dolár (2016) [50]

Siete propagácie videa [51] sa snažia vytvoriť jednoduchý model na šírenie presných masiek objektov, priradených na prvom snímke, cez celú videosekvenciu spolu s niektorými ďalšími informáciami.

V roku 2016 vedci pracovali na nájdení alternatívnych konfigurácií siete na riešenie vyššie uvedených problémov rozsahu a lokalizácie. DeepLab [52] je jedným z takýchto príkladov, ktorý dosahuje povzbudzujúce výsledky pre úlohy sémantického segmentovania obrázkov. Khoreva a kol. (2016) [53] nadväzujú na predchádzajúce práce spoločnosti Deeplab (približne v roku 2015) a navrhujú školiacu metódu s nedostatočným dohľadom, ktorá dosahuje porovnateľné výsledky s plne kontrolovanými sieťami.

Program Computer Vision ďalej zdokonalil zdieľanie užitočného informačného prístupu v sieti pomocou koncových sietí, ktoré znižujú výpočtové požiadavky na viacsmerové čiastkové úlohy na klasifikáciu. Týmto prístupom sú dva kľúčové dokumenty:

  • 100 vrstiev Tiramisu [54] je plne konvolučný DenseNet, ktorý prepája každú vrstvu s každou ďalšou vrstvou. Taktiež dosahuje SOTA na viacerých porovnávacích údajových súboroch s menším počtom parametrov a školením / spracovaním.
  • Sémantická segmentácia plne uvedomujúca inštanciu inštancie [55] vykonáva predikciu a klasifikáciu masky inštancie spoločne (dva podúlohy).
    Víťaz segmentu COCO MSRA. 37,3% AP.
    Absolútny skok 9,1% z MSRAVC v roku 2015 v výzve COCO.

Kým ENet [56], architektúra DNN pre sémantickú segmentáciu v reálnom čase, nepatrí do tejto kategórie, preukazuje komerčné výhody zníženia nákladov na výpočet a poskytnutia väčšieho prístupu k mobilným zariadeniam.

Naša práca si želá, aby sa čo najviac týchto pokrokov vrátilo späť k hmatateľným verejným aplikáciám. S ohľadom na to nasledujúce obsahuje niektoré z najzaujímavejších aplikácií segmentácie v zdravotníctve v roku 2016;
  • Benchmark pre endoluminálnu scénu segmentácie kolonoskopických obrazov [57]
  • 3D plne konvolučné siete pre subkortikálnu segmentáciu v MRI: rozsiahla štúdia [58]
  • Výučba s polovičným dohľadom pomocou dienoizačných automatických kódovačov na detekciu a segmentáciu mozgovej lézie [59]
  • Segmentácia 3D ultrazvuku: Prieskum [60]
  • Plne konvolučný prístup založený na štruktúrovanej predikcii neurónovej siete smerom k segmentácii cievy sietnice [61]
  • 3-D konvolučné neurónové siete pre segmentáciu glioblastómu [62]

Jednou z našich obľúbených aplikácií kvázi-lekárskej segmentácie je FusionNet [63] - hlboká plne reziduálna konvolučná neurónová sieť pre segmentáciu obrazu v connectomike [64] porovnávaná s metódami segmentácie elektrónovou mikroskopiou SOTA (EM).

Super-rozlíšenie, prenos štýlov a farbenie

Nie všetky výskumy v oblasti počítačovej vízie slúžia na rozšírenie pseudo-kognitívnych schopností strojov a často sa legendárna tvárnosť neurónových sietí, ako aj ďalšie techniky ML, hodia na množstvo ďalších nových aplikácií, ktoré sa šíria do verejného priestoru. Minuloročný pokrok v oblasti super rozlíšenia, prenosu štýlov a kolorovania zaberal tento priestor pre nás.

Super-rozlíšenie sa týka procesu odhadu obrazu s vysokým rozlíšením z náprotivku s nízkym rozlíšením a tiež predikcie obrazových prvkov pri rôznych zväčšeniach, čo môže ľudský mozog urobiť takmer bez námahy. Pôvodne bolo super-rozlíšenie uskutočňované jednoduchými technikami, ako je bicubická interpolácia a najbližší susedia. Pokiaľ ide o komerčné aplikácie, výskum v tejto oblasti priniesol túžba prekonať obmedzenia s nízkym rozlíšením, ktoré vyplývajú z kvality zdroja a realizácie vylepšenia obrazu „CSI Miami“. Uvádzame niekoľko preddavkov za rok a ich potenciálny vplyv:

  • Neural Enhance [65] je duchovným dieťaťom Alex J. Champandard a kombinuje prístupy zo štyroch rôznych výskumných prác, aby sa dosiahla jeho metóda Super-resolution.

V roku 2016 sa tiež pokúsilo o superrozlíšenie videa v reálnom čase v dvoch významných prípadoch; [66], [67]

  • RAISR: Rýchle a presné superrozlíšenie obrázkov [68] od spoločnosti Google sa vyhýba nákladným požiadavkám na pamäť a rýchlosť prístupu neurónovej siete pomocou tréningových filtrov s pármi obrazov s nízkym rozlíšením a vysokým rozlíšením. RAISR, ako rámec založený na učení, je o dva rády rýchlejší ako konkurenčné algoritmy a má minimálne požiadavky na pamäť v porovnaní s prístupmi založenými na neurálnych sieťach. Preto je možné superrozlíšenie rozšíriť na osobné zariadenia. K dispozícii je výskumný blog. [69]
Obrázok 7: Príklad SRGAN s vysokým rozlíšením
Poznámka: Zľava doprava: bicubická interpolácia (objektív najhorší pre zaostrenie), Hlboká reziduálna sieť optimalizovaná pre MSE, hlboká reziduálna generatívna protivníková sieť optimalizovaná pre stratu citlivejšiu na vnímanie ľudí, pôvodný obrázok s vysokým rozlíšením (HR). Zodpovedajúci pomer špičkového signálu k šumu (PSNR) a štrukturálna podobnosť (SSIM) sú uvedené v dvoch zátvorkách. [4 x zväčšenie] Čitateľ môže chcieť priblížiť dva stredné obrázky (SRResNet a SRGAN), aby videl rozdiel medzi hladkosťou obrazu a realistickejšími jemnými detailmi.
Zdroj: Ledig a kol. (2017) [70]

Použitie generatívnych kontradiktórnych sietí (GAN) predstavuje súčasné SOTA pre superrozlíšenie:

  • SRGAN [71] poskytuje fotorealistické textúry zo silne nepreberaných obrázkov na verejných referenčných hodnotách, pričom používa diskriminačnú sieť vyškolenú na rozlíšenie medzi mimoriadne rozlíšenými a originálnymi fotorealistickými obrázkami.

Kvalitatívne SRGAN vykonáva najlepšie, aj keď SRResNet funguje najlepšie s metrikou špičkového signálu k šumu (PSNR), ale SRGAN získava jemnejšie textúrne detaily a dosahuje najlepšie priemerné skóre názoru (MOS). „Pokiaľ je nám známe, jedná sa o prvý rámec, ktorý umožňuje odvodiť fotorealistické prírodné obrázky pre 4 × upscaling faktory.“ [72] Všetky predchádzajúce prístupy nedokážu obnoviť jemnejšie textúrové detaily pri veľkých upscaling faktoroch.

  • Amortizovaná MAP inferencia pre superrozlíšenie obrazu [73] navrhuje metódu výpočtu maximálnej a posteriori (MAP) inferencie s použitím konvolučnej neurónovej siete. Ich výskum však predstavuje tri prístupy k optimalizácii, pričom všetky GAN sú v súčasnosti v reálnych obrazových údajoch výrazne lepšie.
Obrázok 8: Prenos štýlov od spoločnosti Nikulin & Novak
Poznámka: Prenos rôznych štýlov na fotografiu mačky (originál vľavo hore).
Zdroj: Nikulin & Novak (2016)

Style Transfer bezpochyby predstavuje nové použitie neurónových sietí, ktoré sa dostali do verejnej sféry, konkrétne prostredníctvom minuloročných facebookových integrácií a spoločností ako Prisma [74] a Artomatix [75]. Prevod štýlov je staršou technikou, ale v roku 2015 bol vydaním Neurálneho algoritmu umeleckého štýlu prevedený na neurónové siete [76]. Odvtedy koncepciu prenosu štýlov rozšírili Nikulin a Novák [77] a uplatnili sa aj na video [78], ako je to v prípade Computer Vision bežný vývoj.

Obrázok 9: Ďalšie príklady prenosu štýlov
Poznámka: Horný riadok (zľava doprava) predstavuje umelecký štýl, ktorý sa transponuje do pôvodných obrázkov zobrazených v prvom stĺpci (Žena, Golden Gate Bridge a Meadow Environment). Pri použití normalizácie podmienených inštancií môže sieť na prenos jedného štýlu zachytiť súčasne 32 štýlov, z ktorých sa tu zobrazuje päť. Celá sada obrázkov je k dispozícii v prílohe zdrojového dokumentu. Táto práca bude súčasťou Medzinárodnej konferencie o vzdelávacích zastúpeniach (ICLR) 2017.
Zdroj: Dumoulin a kol. (2017, s. 2) [79]

Prenos štýlov ako téma je po vizualizácii pomerne intuitívny; nasnímajte obrázok a predstavte si ho pomocou štylistických prvkov iného obrázka. Napríklad v štýle slávneho maľby alebo umelca. Tento rok Facebook vydal Caffe2Go, [80], svoj hlboký vzdelávací systém, ktorý sa integruje do mobilných zariadení. Google tiež vydal niekoľko zaujímavých prác, ktoré sa snažili kombinovať viac štýlov a vytvoriť tak úplne jedinečné štýly obrázkov: Research blog [81] a full paper [82].

Okrem mobilných integrácií má prenos štýlov aj aplikácie na tvorbu herných prostriedkov. Členovia nášho tímu nedávno videli prezentáciu zakladateľa a CTO spoločnosti Artomatix, Eric Rissera, ktorý diskutoval o novej aplikácii tejto techniky na tvorbu obsahu v hrách (mutácia textúry atď.), A preto dramaticky minimalizuje prácu konvenčného umelca textúr. ,

Farbenie je proces zmeny čiernobielych obrázkov na nové plnofarebné verzie. Pôvodne to robili manuálne ľudia, ktorí starostlivo vyberali farby tak, aby reprezentovali konkrétne pixely v každom obrázku. V roku 2016 bolo možné tento proces automatizovať a zároveň zachovať vzhľad realizmu svedčiaci o procese kolorizácie zameranom na človeka. Aj keď ľudia nemusia presne reprezentovať skutočné farby danej scény, ich znalosti zo skutočného sveta umožňujú použitie farieb spôsobom, ktorý je konzistentný s obrazom a inou osobou, ktorá si tento obraz prezerá.

Proces kolorovania je zaujímavý tým, že sieť priraďuje obrazom najpravdepodobnejšie sfarbenie na základe jeho pochopenia umiestnenia objektu, textúr a prostredia, napr. naučí sa, že pokožka je ružovkastá a obloha modrastá.

Podľa nášho názoru sú tri z najvplyvnejších diel roka:
  • Zhang a kol. produkoval metódu, ktorá bola schopná úspešne oklamať ľudí na 32% ich pokusov. Ich metodika je porovnateľná s „kolorimačným Turingovým testom“. [83]
  • Larsson a kol. [84] plne automatizujú svoj systém kolorizácie obrázkov pomocou odhadu hĺbkového učenia pre histogram.
  • Nakoniec Lizuka, Simo-Serra a Ishikawa [85] demonštrujú kolorizačný model založený aj na CNN. Práca prekonala existujúcu SOTA, my [tím] máme pocit, že táto práca je tiež kvalitatívne najlepšia a zdá sa byť najrealistickejšia. Obrázok 10 poskytuje porovnanie, avšak obrázok je prevzatý od Lizuka et al.
Obrázok 10: Porovnanie výskumu kolorizácie
Poznámka: Z hora nadol - stĺpec prvý obsahuje pôvodný monochromatický obrazový vstup, ktorý je následne farebne upravovaný rôznymi technikami. Ostatné stĺpce zobrazujú výsledky generované iným významným výskumom kolorizácie v roku 2016. Pri pohľade zľava doprava sú to Larsson a kol. [84] 2016 (stĺpec dva), Zhang a kol. [83] 2016 (stĺpec tri) a Lizuka, Simo-Serra a Ishikawa. [85] 2016, autori označovaní aj ako „náš“ (stĺpec štyri). Rozdiel v kvalite sfarbenia je najzreteľnejší v treťom riadku (zhora), ktorý zobrazuje skupinu mladých chlapcov. Domnievame sa, že práca Lizuka a kol. Je kvalitatívne lepšia (stĺpec štyri). Zdroj: Lizuka a kol. 2016 [86]

„Okrem toho naša architektúra dokáže na rozdiel od väčšiny existujúcich prístupov založených na CNN spracovať obrázky ľubovoľného rozlíšenia.“

V teste, ktorý zistil, aké prirodzené bolo ich zafarbenie, dostali užívatelia náhodný obrázok zo svojich modelov a boli požiadaní, „vyzerá tento obrázok pre vás prirodzene?“

Ich prístup dosiahol 92,6%, základná hodnota dosiahla približne 70% a základná pravda (skutočné farebné fotografie) sa považovala za 97,7% času za prirodzené.

Uznanie akcie

Úloha rozpoznávania akcie sa vzťahuje na klasifikáciu akcie v rámci daného video rámca, a novšie na algoritmy, ktoré môžu predpovedať pravdepodobné výsledky interakcií dané iba niekoľko snímok pred uskutočnením akcie. V tomto ohľade vidíme nedávny výskumný pokus vložiť kontext do algoritmických rozhodnutí podobných iným oblastiam počítačového videnia. Niektoré kľúčové dokumenty v tomto priestore sú:

  • Dlhodobé časové záväzky pre uznanie akcie [87] využívajú priestorovo-časovú štruktúru ľudských činov, t. J. Konkrétny pohyb a trvanie, aby sa správne rozpoznali akcie pomocou variantu CNN. Na prekonanie suboptimálneho časového modelovania dlhodobejších účinkov pomocou CNN autori navrhujú neurónovú sieť s dlhodobými časovými závratami (LTC-CNN) na zlepšenie presnosti rozpoznávania akcie. Zjednodušene povedané, LTC môžu pozerať na väčšie časti videa, aby rozpoznali akcie. Ich prístup využíva a rozširuje 3D CNN „na umožnenie reprezentácie akcie v plnom časovom meradle“.

„Uvádzame najmodernejšie výsledky týkajúce sa dvoch náročných referenčných kritérií na rozpoznávanie ľudskej činnosti UCF101 (92,7%) a HMDB51 (67,2%).“

  • Spatiotemporálne reziduálne siete na rozpoznávanie video akcií [88] uplatňujú pri úlohe rozpoznávania akcie variáciu dvojprúdovej siete CNN, ktorá kombinuje techniky tak z tradičných prístupov CNN, ako aj z nedávno popularizovaných reziduálnych sietí (ResNets). Dvojprúdový prístup čerpá inšpiráciu z neurovedeckej hypotézy o fungovaní vizuálnej kôry, t.j. oddelené dráhy rozpoznávajú tvar / farbu a pohyb objektu. Autori kombinujú výhody klasifikácie ResNets injektovaním zvyškových spojení medzi dvoma prúdmi CNN.

„Každý stream pôvodne vykonáva rozpoznávanie videa samostatne a pre konečnú klasifikáciu sa skóre softmax kombinujú s neskorou fúziou. K dnešnému dňu je tento prístup najúčinnejším prístupom k uplatňovaniu hlbokého učenia na uznanie akcie, najmä s obmedzenými údajmi o odbornej príprave. V našej práci priamo prevádzame obrazové siete ConvNets na 3D architektúry a vykazujeme výrazne lepší výkon v porovnaní s dvoma prúdmi. “- 94% na UCF101 a 70,6% na HMDB51. Feichtenhofer a kol. vykonali zlepšenia v porovnaní s tradičnými metódami vylepšenej hustej trajektórie (iDT) a dosiahli lepšie výsledky použitím oboch techník.

  • Očakávanie vizuálnych reprezentácií z neoznačeného videa [89] je zaujímavý dokument, hoci nie je to striktná klasifikácia akcie. Program predpovedá akciu, ktorá sa pravdepodobne uskutoční vzhľadom na sled video snímok až jednu sekundu pred akciou. Tento prístup využíva skôr vizuálnu reprezentáciu ako klasifikáciu pixel po pixle, čo znamená, že program môže fungovať bez označených údajov, pričom využíva vlastnosti výučby funkcií hlbokých neurónových sietí [90].

„Kľúčovou myšlienkou nášho prístupu je to, že môžeme trénovať hlboké siete na predpovedanie vizuálnej reprezentácie obrazov v budúcnosti. Vizuálne reprezentácie sú sľubným predikčným cieľom, pretože kódujú obrázky na vyššej sémantickej úrovni ako pixely, zatiaľ sa však dajú počítať automaticky. Potom použijeme rozpoznávacie algoritmy na našu predpovedanú reprezentáciu na predvídanie objektov a akcií “.

Organizátori výzvy na uznanie akcie Thumos [91] vydali dokument opisujúci všeobecné prístupy k uznávaniu akcie za posledné roky. Tento dokument tiež poskytuje prehľad výziev v rokoch 2013 - 2015, budúce smery k výzvam a nápady, ako dať počítačom komplexnejšie chápanie videa prostredníctvom rozpoznávania akcií. Dúfame, že sa výzva na uznanie akcie Thumos vráti v roku 2017 po (zdanlivo) neočakávanom hiatuse.

Nasledujte náš profil na médiu pre ďalšiu splátku - Časť 3 zo 4: Smerom k 3D porozumeniu sveta.
Neváhajte a umiestnite všetky pripomienky a návrhy do sekcie komentárov a my sa čo najskôr vrátime. Prípadne nás môžete kontaktovať priamo na adrese: info@themtank.com

Celý dokument je k dispozícii na: www.themtank.org/a-year-in-computer-vision

Veľká vďaka,

Nádrž M.

Referencie v poradí vzhľadu

[46] Pinheiro, Collobert a Dollar. 2015. Učenie sa uchádzačom o členenie na predmet. [Online] arXiv: 1506.06204. K dispozícii: arXiv: 1506.06204v2

[47] Pinheiro a kol. 2016. Naučiť sa spresňovať segmenty objektov. [Online] arXiv: 1603.08695. K dispozícii: arXiv: 1603.08695v2

[48] ​​Zagoruyko, S. 2016. Sieť MultiPath na detekciu objektov. [Online] arXiv: 1604.02135v2. K dispozícii: arXiv: 1604.02135v2

[49] Dolár, P. 2016. Naučiť sa segmentovať. [Blog] FAIR. K dispozícii: https://research.fb.com/learning-to-segment/

[50] Dollar, P. 2016. Segmentovanie a vylepšovanie obrázkov pomocou SharpMask. [Online] Kód Facebook. K dispozícii: https://code.facebook.com/posts/561187904071636/segmenting-and-refining-images-with-sharpmask/

[51] Jampani a kol. 2016. Video propagačné siete. [Online] arXiv: 1612.05478. K dispozícii: arXiv: 1612,05478v2

[52] Chen et al., 2016. DeepLab: Sémantická segmentácia obrazu s hlbokými konvolučnými sieťami, atóznou konverziou a plne prepojenými CRF. [Online] arXiv: 1606.00915. K dispozícii: arXiv: 1606,00915v1

[53] Khoreva a kol. 2016. Simple It It: Slabý dohľad nad inštanciou a sémantickou segmentáciou. [Online] arXiv: 1603.07485v2. K dispozícii: arXiv: 1603.07485v2

[54] Jégou a kol. 2016. Sto vrstiev Tiramisu: Plne konvolučné husté siete pre sémantickú segmentáciu. [Online] arXiv: 1611.09326v2. K dispozícii: arXiv: 1611.09326v2

[55] Li a kol. 2016. Sémantická segmentácia s úplnou konvergenčnou inštanciou. [Online] arXiv: 1611.07709v1. K dispozícii: arXiv: 1611.07709v1

[56] Paszke a kol. 2016. ENet: Hlboká architektúra neurónových sietí pre sémantickú segmentáciu v reálnom čase. [Online] arXiv: 1606.02147v1. K dispozícii: arXiv: 1606.02147v1

[57] Vázquez a kol. 2016. Referenčná hodnota pre segmenty endoluminálnej scény kolonoskopických obrazov. [Online] arXiv: 1612,00799. K dispozícii: arXiv: 1612,00799v1

[58] Dolz a kol. 2016. 3D plne konvolučné siete pre subkortikálnu segmentáciu v MRI: rozsiahla štúdia. [Online] arXiv: 1612.03925. K dispozícii: arXiv: 1612,03925v1

[59] Alex a kol. 2017. Výučba s polovičným dohľadom pomocou dienoizačných automatických kódovačov na detekciu a segmentáciu mozgovej lézie. [Online] arXiv: 1611.08664. K dispozícii: arXiv: 1611,08664v4

[60] Mozaffari a Lee. 2016. Segmentácia 3D ultrazvukového obrazu: prieskum. [Online] arXiv: 1611.09811. K dispozícii: arXiv: 1611,09811v1

[61] Dasgupta a Singh. 2016. Prístup založený na štruktúrovanej predikcii založenej na úplne konvolučnej neurónovej sieti smerom k segmentácii sietnicových ciev. [Online] arXiv: 1611.02064. K dispozícii: arXiv: 1611.02064v2

[62] Yi a kol. 2016. 3-D konvolučné neurónové siete pre segmentáciu glioblastómu. [Online] arXiv: 1611.04534. K dispozícii: arXiv: 1611,04534v1

[63] Quan a kol. 2016. FusionNet: Hlboká úplne zvyšková konvolučná neurónová sieť na segmentáciu obrazu v oblasti connectomiky. [Online] arXiv: 1612.05360. K dispozícii: arXiv: 1612,05360v2

[64] Connectomics sa týka mapovania všetkých spojení v nervovom systéme organizmu, t. J. Neurónov a ich spojení.

[65] Champandard, A.J. 2017. Neural Enhance (posledný záväzok 30/11/2016). [Online] Github. K dispozícii: https://github.com/alexjc/neural-enhance [Prístup: 11. 2. 2017]

[66] Caballero a kol. 2016. Video s vysokým rozlíšením v reálnom čase so priestorovými a časovými sieťami a kompenzáciou pohybu. [Online] arXiv: 1611,05250. K dispozícii: arXiv: 1611,05250v1

[67] Shi a kol. 2016. Jednoobrazové a videozáznamy v reálnom čase s vysokým rozlíšením pomocou efektívnej sub-pixelovej konvolučnej neurónovej siete. [Online] arXiv: 1609.05158. K dispozícii: arXiv: 1609.05158v2

[68] Romano a kol. 2016. RAISR: Rýchle a presné rozlíšenie obrázkov. [Online] arXiv: 1606.01299. K dispozícii: arXiv: 1606.01299v3

[69] Milanfar, P. 2016. Vylepšite! RAISR Sharp Images with Machine Learning. [Blog] Google Research Blog. K dispozícii: https://research.googleblog.com/2016/11/enhance-raisr-sharp-images-with-machine.html [Prístup: 20/03/2017].

[70] tamtiež

[71] Ledig a kol. 2017. Photo-Realistic Single Image Super-Resolution with Generative Adversarial Network. [Online] arXiv: 1609.04802. K dispozícii: arXiv: 1609.04802v3

[72] tamtiež

[73] Sønderby a kol. 2016. Amortizovaná MAP Inferencia pre Super-rozlíšenie obrazu. [Online] arXiv: 1610.04490. K dispozícii: arXiv: 1610,04490v1

[74] Prisma. 2017. [Web] Prisma. K dispozícii: https://prisma-ai.com/ [Prístup: 01/04/2017].

[75] Artomatix. 2017. [Webová stránka] Artomatix. K dispozícii: https://services.artomatix.com/ [Prístup: 01/04/2017].

[76] Gatys a kol. 2015. Neurálny algoritmus umeleckého štýlu. [Online] arXiv: 1508.06576. K dispozícii: arXiv: 1508,06576v2

[77] Nikulin a Novak. 2016. Preskúmanie umeleckého štýlu neurónov. [Online] arXiv: 1602.07188. K dispozícii: arXiv: 1602.07188v2

[78] Ruder a kol. 2016. Prevod umeleckého štýlu pre videá. [Online] arXiv: 1604.08610. K dispozícii: arXiv: 1604,08610v2

[79] tamtiež

[80] Jia a Vajda. 2016. Poskytovanie AI v reálnom čase na dlani. [Online] Kód Facebook. K dispozícii: https://code.facebook.com/posts/196146247499076/delivering-real-time-ai-in-the-palm-of-your-hand/ [Prístup: 20/01/2017].

[81] Dumoulin a kol. 2016. Supercharging Style Transfer. [Online] Google Research Blog. K dispozícii: https://research.googleblog.com/2016/10/supercharging-style-transfer.html [Prístup: 20/01/2017].

[82] Dumoulin a kol. 2017. Naučená reprezentácia umeleckého štýlu. [Online] arXiv: 1610.07629. K dispozícii: arXiv: 1610,07629v5

[83] Zhang a kol. 2016. Farebné sfarbenie obrazu. [Online] arXiv: 1603.08511. K dispozícii: arXiv: 1603.08511v5

[84] Larsson a kol. 2016. Učebné reprezentácie pre automatické sfarbenie. [Online] arXiv: 1603.06668. K dispozícii: arXiv: 1603,06668v2

[85] Lizuka, Simo-Serra a Ishikawa. 2016. Nech je k dispozícii Colour !: Spoločné učenie globálnych a lokálnych priorít obrazu pre automatické zafarbenie obrazu so súčasnou klasifikáciou. [Online] ACM Transaction on Graphics (Proc. Of SIGGRAPH), 35 (4): 110. K dispozícii: http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/

[86] tamtiež

[87] Varol a kol. 2016. Dlhodobé dočasné návrhy na uznanie akcie. [Online] arXiv: 1604.04494. K dispozícii: arXiv: 1604,04494v1

[88] Feichtenhofer a kol. 2016. Spatiotemporálne zvyškové siete na rozpoznávanie videa. [Online] arXiv: 1611.02155. K dispozícii: arXiv: 1611.02155v1

[89] Vondrick a kol. 2016. Očakávanie vizuálnych zobrazení z neoznačeného videa. [Online] arXiv: 1504.08023. K dispozícii: arXiv: 1504,08023v2

[90] Conner-Simons, A., Gordon, R. 2016. Vyučovacie stroje na predpovedanie budúcnosti. [Online] MIT NOVINKY. K dispozícii: https://news.mit.edu/2016/teaching-machines-to-predict-the-future-0621 [Prístup: 03/02/2017].

[91] Idrees a kol. 2016. Výzva THUMOS na uznávanie akcií pre videá „vo voľnej prírode“. [Online] arXiv: 1604.06182. K dispozícii: arXiv: 1604.06182v1