Od učenia pod dohľadom k učeniu bez dohľadu: Zmena paradigmy počítačového videnia
- 175
Pomalé odstraňovanie injekcie ľudských znalostí z procesu školenia
Zdroj: Leon Sick
Od vzniku moderných metód počítačového videnia bolo možné zaznamenať úspech pri aplikácii týchto techník len v oblasti pod dohľadom. Na to, aby bol model použiteľný na vykonávanie úloh, ako je rozpoznávanie obrazu, detekcia objektov alebo sémantická segmentácia, býval potrebný ľudský dohľad. V posledných niekoľkých rokoch výskumu počítačového videnia došlo k zásadnej zmene zamerania tejto oblasti: Od zaručeného úspechu s ľudským dohľadom sa prešlo k novým hraniciam:
Podujme sa na cestu k novej ére, ktorá už začala.
Úspech učenia pod dohľadom
AlexNet znamenal prvý prelom v použití neurónových sietí na obrazové úlohy, konkrétne na výzvu ImageNet. Odtiaľto sa začala hra a výskumná komunita počítačového videnia sa vrhla na zdokonaľovanie kontrolovaných techník pre mnohé druhy úloh počítačového videnia.
Pre klasifikáciu obrázkov sa od pôvodnej práce AlexNet objavilo mnoho variantov modelov. ResNet sa nesporne stal klasikou medzi konvolučnými neurónovými sieťami. Vznikli efektívne architektúry, ako napríklad EfficientNet. Dokonca aj siete optimalizované pre mobilné zariadenia, ako napríklad architektúra MobileNet. V poslednom čase si čoraz väčšiu pozornosť (nechcený vtip) získali Vision Transformers, ktoré pri správnych nastaveniach (veľa údajov a výpočtov) dokázali prekonať konvolučné neurónové siete. Pôvodne boli vynájdené pre jazykové úlohy, ich aplikácia pre počítačové videnie zaznamenala obrovský úspech. Ďalším zaujímavým prístupom bol návrh priestorov pre návrh sietí, kde kvantovaná lineárna funkcia definuje architektúru siete nazývanú RegNet.
Dalšími úlohami, ktoré sa úspešne riešili pomocou učenia pod dohľadom, boli detekcia objektov a sémantická segmentácia. V prvej oblasti sa o prvý veľký rozruch postarali R-CNN, po ktorých nasledovalo mnoho pokrokov vo výpočtovej účinnosti a presnosti. Pozoruhodné prístupy sú R-CNN Fast, Faster a Mask, ale aj algoritmy YOLO a detektory s jedným záberom, ako napríklad SSD MobileNet. Míľnikom v oblasti sémantickej segmentácie bola architektúra U-Net.
Nedá sa zabudnúť ani na porovnávacie súbory údajov, ktoré umožnili porovnateľnejšie techniky pod dohľadom. ImageNet stanovil štandard pre klasifikáciu obrázkov a MS COCO je stále dôležitý pre úlohy detekcie a segmentácie objektov.
Všetky tieto techniky majú jedno spoločné: pri dosahovaní dobrých výsledkov sa spoliehajú na vydestilované ľudské znalosti a zručnosti v podobe označených údajov. V skutočnosti sú postavené okolo tohto zdroja a závisia od neho.
Všetky tieto techniky určitým spôsobom využívajú umelé neurónové siete, ktoré modelujú biologickú neurónovú sieť u človeka. Ale napriek tomu sa tieto modely učia veľmi odlišne vnímať od spôsobu, akým sa to učia ľudia. Prečo napodobňovať len ľudský mozog v jeho biologickej podobe a nie kognitívny proces, ktorý stojí za učením rozpoznávania a klasifikácie?
Tu prichádza na rad ďalší vývoj: učenie pod vlastným dohľadom.
Zavedenie učenia pod vlastným dohľadom do procesu
Premýšľajte o tom, ako ste sa naučili vidieť. Ako ste sa naučili rozpoznať jablko. Keď ste boli mladší, videli ste veľa jabĺk, ale nie všetky mali na sebe nápis „Toto je jablko“ a nikto vám nepovedal, že je to jablko zakaždým, keď ste ho videli. Spôsob, akým ste sa to naučili, bola podobnosť: Tento predmet ste videli opakovane, viackrát za týždeň, možno aj za deň. Rozpoznali ste ho: Potom vás jedného dňa niekto naučil, že toto je jablko. Zrazu ste tento abstraktný objekt, toto vizuálne zobrazenie, začali teraz poznať ako „jablko“. Toto je podobný proces, ktorý sa používa pri samoučení.
Najmodernejšie techniky, ako napríklad SimCLR alebo SwAV, kopírujú tento proces. Pri predtréningu sa všetky štítky vyradia, modely sa trénujú bez použitia ľudských znalostí. Modelom sa ukážu dve verzie toho istého obrázka, môže byť orezaný alebo farebne skreslený či otočený, a začnú sa učiť, že napriek ich rozdielnej vizuálnej reprezentácii sú tieto objekty tá istá „vec“. V skutočnosti je to viditeľné v ich podobných latentných vektorových reprezentáciách (zapamätajte si to na neskôr). Model sa teda naučí vytvárať konzistentný vektor pre každú triedu objektov.
Nasleduje krok „učenia“: Predtrénovanému modelu sa tentoraz zobrazia niektoré obrázky so štítkami. A naučí sa oveľa rýchlejšie a efektívnejšie klasifikovať rôzne druhy objektov.
Takto sa z procesu trénovania odstránila veľká časť ľudských znalostí, ale nie všetky. Ďalší krok je však hneď za rohom.
Na ceste k učeniu bez dozoru
Aby bol model úplne bez dozoru, musí byť vycvičený bez ľudského dozoru (štítkov) a stále musí byť schopný plniť úlohy, ktoré sa od neho očakávajú, napríklad klasifikovať obrázky.
Pamätajte si, že modely s vlastným dozorom už urobili krok týmto smerom: Predtým, ako sa im zobrazia akékoľvek štítky, sú už schopné vypočítať konzistentné vektorové reprezentácie pre rôzne objekty. To je kľúčom k odstráneniu všetkého ľudského dohľadu.
To, čo tento vektor vo všeobecnosti predstavuje, sú obrázky so zníženou dimenziou. V skutočnosti sa autoenkodéry dajú natrénovať tak, aby obnovovali pixely obrazu. Vďaka jeho zníženej dimenzii môžeme použiť techniku, ktorá sa v počítačovom videní dlho ignorovala (z dobrých dôvodov): Klasifikátor k-najbližších susedov. Ak sú naše vektorové reprezentácie také dobré, že len rovnaké objekty tvoria zhluk a rôzne objekty sú zoskupené ďaleko od seba, môžeme modelu podať nový, neznámy obrázok a model ho priradí do zhluku správnej triedy. Model nebude schopný povedať, ako sa trieda volá, ale do akej skupiny obrázkov patrí. Ak tejto skupine priradíte názov triedy, bude možné klasifikovať všetky objekty v tejto skupine. Názvy tried sú predsa umelé výtvory ľudí (niekto definoval, že táto vec sa volá jablko) a význam im priraďujú len ľudia.
Keďže všetky značky sú z procesu trénovania odstránené a výsledky v prácach ako DINO sú celkom sľubné, je to najbližšie k odstráneniu všetkého dohľadu z procesu trénovania modelov počítačového videnia.
Ale stále je čo zlepšovať, stále je čo zlepšovať.
Záver
Ak ste čítali až sem, veľmi si vážim, že ste si našli čas. Zámerne som do tohto príbehu nezaradil žiadne obrázky, pretože odvádzajú vašu pozornosť od významu tohto textu. Veď všetci chceme byť dobrými transformermi, však? (Tentoraz to bol zámer)
Úprimne vám ďakujem, že ste si prečítali tento článok. Ak sa zaujímate o samoučenie, pozrite si ďalšie moje články, v ktorých sa snažím vysvetliť najnovšie dokumenty v tejto oblasti pre všetkých záujemcov. A ak sa chcete ponoriť hlbšie do oblasti pokročilého počítačového videnia, zvážte, či sa chcete stať mojím sledovateľom. Snažím sa raz týždenne uverejniť článok a informovať vás a všetkých ostatných záujemcov o novinkách vo výskume počítačového videnia!
Zdroj: https://towardsdatascience.com/from-supervised-to-unsupervised-learning-a-paradigm-shift-in-computer-vision-ae19ada1064d