A felügyelt tanulástól a felügyelet nélküli tanulásig: Paradigmaváltás a számítógépes látásban
- 204
Az emberi tudás lassú eltávolítása a képzési folyamatból
Forrás: Leon Sick
A modern számítógépes látásmódok megjelenése óta e technikák alkalmazása során csak a felügyelt területen lehetett sikereket elérni. Ahhoz, hogy egy modell használhatóvá váljon olyan feladatok elvégzésére, mint a képfelismerés, a tárgyfelismerés vagy a szemantikus szegmentálás, korábban emberi felügyeletre volt szükség. A számítógépes látáskutatás utóbbi néhány éve jelentős változást hozott a terület fókuszában: Az emberi felügyelettel elért garantált sikertől az új határok felé mozdultak el: Önfelügyelt és felügyelet nélküli tanulás.
Kerüljünk el egy új korszakba, amely már elkezdődött.
A felügyelt tanulás sikere
AlexNet jelentette az első áttörést a neurális hálózatok képi feladatokra való alkalmazásában, pontosabban az ImageNet kihíváson. Onnantól kezdve a játék folytatódott, és a számítógépes látás kutatóközösség viharzott a számítógépes látás sokféle feladatára alkalmas felügyelt technikák tökéletesítése felé.
A képosztályozásra az eredeti AlexNet-papír óta a modellek számos változata jelent meg. A ResNet vitathatatlanul a konvolúciós neurális hálózatok klasszikusa lett. Megjelentek az olyan hatékony architektúrák, mint az EfficientNet. Még a mobil eszközökre optimalizált hálózatok is, mint például a MobileNet architektúra. Nemrégiben a Vision Transformers egyre nagyobb figyelmet kapott (nem szándékos vicc), és megfelelő beállítások mellett (sok adat és számítási kapacitás) a konvolúciós neurális hálózatok teljesítményét is felülmúlják. Eredetileg nyelvi feladatokra találták ki őket, de a számítógépes látás területén való alkalmazásuk hatalmas sikert aratott. Egy másik érdekes megközelítés a hálózat tervezési terek kialakítása volt, ahol egy kvantált lineáris függvény határozza meg a RegNet nevű hálózati architektúrát.
A következő feladatok, amelyeket felügyelt tanulással sikeresen kezeltek, a tárgyfelismerés és a szemantikus szegmentálás voltak. Az R-CNN-ek az első területen hozták az első nagy dobást, amelyet számos előrelépés követett a számítási hatékonyság és pontosság terén. Említésre méltó megközelítések a Fast, Faster és Mask R-CNN, de a YOLO algoritmusok és az egylövetű detektorok, mint például az SSD MobileNet. A szemantikus szegmentálás területén mérföldkőnek számított az U-Net architektúra.
Nem szabad megfeledkezni a benchmark-adatkészletekről sem, amelyek összehasonlíthatóbbá tették a felügyelt technikákat. Az ImageNet a képosztályozásban állította fel a mércét, az MS COCO pedig még mindig fontos az objektumdetektálási és szegmentálási feladatokban.
Egy dolog közös ezekben a technikákban: a jó teljesítményükhöz a címkézett adatok formájában rendelkezésre álló desztillált emberi tudásra és készségekre támaszkodnak. Valójában erre az erőforrásra épülnek, és ettől függenek.
Mindegyik technika valamilyen módon mesterséges neurális hálózatokat alkalmaz, amelyek az ember biológiai neurális hálózatát modellezik. De mégis, ezek a modellek nagyon másképp tanulnak érzékelni, mint ahogyan az emberek ezt megtanulják. Miért csak az emberi agyat utánoznánk biológiai formájában, és miért nem a felismerés és osztályozás megtanulása mögött álló kognitív folyamatot?
Ez az a pont, ahol a következő evolúció jön: az önfelügyelt tanulás.
Az önfelügyelet bevezetése a folyamatba
Gondoljon arra, hogyan tanult meg látni. Hogyan tanulsz meg felismerni egy almát. Amikor fiatalabb voltál, sok almát láttál, de nem mindegyiken volt egy felirat, hogy „Ez egy alma”, és senki sem mondta neked, hogy alma, ahányszor csak megláttál egyet. A hasonlóság alapján tanultad meg: Újra és újra láttad ezt a tárgyat, hetente, sőt talán naponta többször is. Felismerted: Hé… ez ugyanaz!
Egy nap aztán valaki megtanította neked, hogy ez egy alma. Hirtelen ez az absztrakt tárgy, ez a vizuális reprezentáció most már úgy vált számodra ismertté, hogy „alma”. Ez egy hasonló folyamat, amelyet az önfelügyelt tanulásban használnak.
A legkorszerűbb technikák, mint például a SimCLR vagy a SwAV ezt a folyamatot másolják. Az előképzésnél minden címkét elvetünk, a modellek emberi tudás felhasználása nélkül képződnek. A modelleknek megmutatják ugyanannak a képnek két változatát, legyen az vágott, színtorzított vagy elforgatott, és elkezdik megtanulni, hogy az eltérő vizuális reprezentációjuk ellenére ezek a tárgyak ugyanaz a „dolog”. Valójában ez látható a hasonló látens vektorreprezentációikban (ezt jegyezzük meg későbbre). A modell tehát megtanulja, hogy minden egyes tárgyosztályhoz konzisztens vektort állítson elő.
A következő lépés a „tanítás”: Az előzetesen betanított modellnek ezúttal néhány képet mutatunk címkékkel. És sokkal gyorsabban és hatékonyabban tanulja meg a különböző típusú tárgyak osztályozását.
Az emberi tudás nagy része tehát kikerült a betanítási folyamatból, de nem minden. De a következő lépés már csak a sarkon van.
A felügyelet nélküli tanulás felé
Hogy egy modell teljesen felügyelet nélküli legyen, emberi felügyelet (címkék) nélkül kell betanítani, és mégis képesnek kell lennie a tőle elvárt feladatok elvégzésére, például a képek osztályozására.
Ne feledjük, hogy az önfelügyelt modellek már megtettek egy lépést ebbe az irányba: Mielőtt bármilyen címkét mutatnának nekik, már képesek konzisztens vektorreprezentációkat kiszámítani a különböző objektumokhoz. Ez a kulcsa annak, hogy minden emberi felügyeletet kiiktassunk.
Az, amit ez a vektor általában egy dimenzionalitásában csökkentett képet ábrázol. Valójában az autoencoderek betaníthatók a kép képpontjainak újratermelésére. A csökkentett dimenzió miatt egy olyan technikát használhatunk, amelyet a számítógépes látásban régóta (jó okokból) figyelmen kívül hagynak: A k-közelebbi szomszédok osztályozót. Ha a vektorreprezentációnk olyan jó, hogy csak azonos objektumok alkotnak egy klasztert, és a különböző objektumok messze klasztereződnek, akkor betáplálhatunk a modellbe egy új, ismeretlen képet, és a modell a megfelelő osztályú klaszterhez fogja rendelni. A modell nem azt fogja tudni megmondani, hogy mi az osztály neve, hanem azt, hogy a kép melyik csoportba tartozik. Ha ehhez a csoporthoz hozzárendelünk egy osztálynevet, akkor a csoportba tartozó összes objektumot besorolhatjuk. Végül is az osztálynevek az emberek mesterséges alkotásai (valaki meghatározta, hogy ezt a dolgot almának hívják), és csak az emberek tulajdonítanak nekik jelentést.
Mivel minden címkét eltávolítanak a képzési folyamatból, és az eredmények az olyan cikkekben, mint a DINO elég ígéretesek, ez áll a legközelebb ahhoz, hogy minden felügyeletet eltávolítsunk a számítógépes látásmodellek képzési folyamatából.
De még mindig van hova fejlődnünk, van még hova fejlődnünk.
Az összegzés
Ha eddig a pontig olvastál, nagyra értékelem, hogy időt szántál rám. Szándékosan nem tettem bele képeket ebbe a történetbe, mivel azok elterelik a figyelmedet a szöveg értelméről. Hiszen mindannyian szeretnénk jó transzformátorok lenni, nem igaz? (Ezúttal szándékosan)
Őszintén köszönöm, hogy elolvastad ezt a cikket. Ha érdekel az önfelügyelt tanulás, nézd meg a többi történetemet, ahol megpróbálom elmagyarázni a legkorszerűbb dolgozatokat a térben minden érdeklődőnek. És ha szeretnél mélyebben elmerülni a fejlett számítógépes látás területén, fontold meg, hogy követőm leszel. Igyekszem hetente egyszer közzétenni egy-egy cikket, és folyamatosan tájékoztatni téged és minden érdeklődőt a számítógépes látáskutatás újdonságairól!
Forrás: https://towardsdatascience.com/from-supervised-to-unsupervised-learning-a-paradigm-shift-in-computer-vision-ae19ada1064d