De la învățarea supravegheată la cea nesupravegheată: O schimbare de paradigmă în viziunea computerizată
- 176
Îndepărtarea treptată a cunoștințelor umane din procesul de instruire
Sursa: Leon Sick
De la apariția metodelor moderne de viziune pe calculator, succesul în aplicarea acestor tehnici a putut fi observat doar în domeniul supravegheat. Pentru ca un model să fie util pentru îndeplinirea unor sarcini precum recunoașterea imaginilor, detectarea obiectelor sau segmentarea semantică, era necesară supravegherea umană. În ultimii câțiva ani de cercetare în domeniul vederii computerizate, s-a produs o schimbare majoră în ceea ce privește concentrarea asupra acestui domeniu: Departe de succesul garantat cu ajutorul supravegherii umane și spre noi frontiere: Învățarea autosupravegheată și nesupravegheată.
Să pornim într-o călătorie spre o nouă eră care a început deja.
Succesul învățării supervizate
AlexNet a marcat prima descoperire în aplicarea rețelelor neuronale pentru sarcini de imagine, mai exact pentru provocarea ImageNet. De acolo, a început jocul, iar comunitatea de cercetare în domeniul vederii computerizate a luat cu asalt perfecționarea tehnicilor supravegheate pentru multe tipuri de sarcini de viziune computerizată.
Pentru clasificarea imaginilor, au apărut multe variante de modele de la articolul original AlexNet. ResNet a devenit, fără îndoială, clasicul dintre rețelele neuronale convoluționale. Au apărut arhitecturi eficiente, cum ar fi EfficientNet. Chiar și rețele optimizate pentru dispozitive mobile, cum ar fi arhitectura MobileNet. Mai recent, transformatoarele de viziune au atras din ce în ce mai multă atenție (glumă neintenționată) și au demonstrat că depășesc performanțele rețelelor neuronale convoluționale în setările potrivite (multe date și calcul). Inventați inițial pentru sarcini lingvistice, aplicarea lor pentru viziunea computerizată a avut un succes uriaș. O altă abordare interesantă a fost aceea de a proiecta spații de proiectare a rețelelor în care o funcție liniară cuantificată definește arhitectura rețelei numită RegNet.
Următoarele sarcini care au fost abordate cu succes cu ajutorul învățării supravegheate au fost detectarea obiectelor și segmentarea semantică. R-CNN-urile au făcut prima mare vâlvă în primul domeniu, urmate de multe progrese în ceea ce privește eficiența și acuratețea computațională. Abordările notabile sunt R-CNN-urile Fast, Faster și Mask, dar și algoritmii YOLO și detectoarele cu o singură lovitură, cum ar fi SSD MobileNet. O piatră de hotar în domeniul segmentării semantice a fost arhitectura U-Net.
De asemenea, nu trebuie uitate seturile de date de referință care au făcut ca tehnicile supravegheate să fie mai comparabile. ImageNet a stabilit standardul pentru clasificarea imaginilor, iar MS COCO este încă important pentru sarcinile de detectare și segmentare a obiectelor.
Toate aceste tehnici au un lucru în comun: pentru a avea performanțe bune, ele se bazează pe cunoștințele și abilitățile umane distilate sub forma datelor etichetate. De fapt, ele sunt construite în jurul acestei resurse și depind de ea.
Într-un fel, toate aceste tehnici utilizează rețele neuronale artificiale care modelează rețeaua neuronală biologică din oameni. Dar totuși, aceste modele învață foarte diferit pentru a percepe față de modul în care oamenii învață acest lucru. De ce să imităm doar creierul uman în forma sa biologică și nu și procesul cognitiv din spatele învățării recunoașterii și clasificării?
Aici intervine următoarea evoluție: învățarea autosupravegheată.
Introducerea autosupravegherii în proces
Gândiți-vă la modul în care ați învățat să vedeți. Cum ați învățat să recunoașteți un măr. Când erați mai tânăr, ați văzut multe mere, dar nu toate aveau un semn pe ele pe care să scrie „Acesta este un măr” și nimeni nu v-a spus că este un măr de fiecare dată când ați văzut unul. Modul în care ați învățat a fost prin asemănare: Ați văzut acest obiect de mai multe ori, de mai multe ori pe săptămână, poate chiar pe zi. Ați recunoscut: Hei… acesta este același lucru!
Apoi, într-o zi, cineva v-a învățat că acesta este un măr. Dintr-o dată, acest obiect abstract, această reprezentare vizuală, a devenit acum cunoscut pentru dumneavoastră ca „măr”. Acesta este un proces similar utilizat în învățarea autosupravegheată.
Cele mai moderne tehnici, cum ar fi SimCLR sau SwAV, copiază acest proces. Pentru pre-antrenare, toate etichetele sunt eliminate, modelele se antrenează fără a utiliza cunoștințe umane. Modelelor li se arată două versiuni ale aceleiași imagini, fie că aceasta este decupată sau distorsionată sau rotită, și încep să învețe că, în ciuda reprezentării lor vizuale diferite, aceste obiecte sunt același „lucru”. De fapt, acest lucru este vizibil în reprezentările lor vectoriale latente similare (rețineți acest lucru pentru mai târziu). Astfel, modelul învață să producă un vector coerent pentru fiecare clasă de obiecte.
În continuare, urmează etapa de „învățare”: Modelului pre-antrenat i se arată câteva imagini cu etichete de data aceasta. Și acesta învață mult mai rapid și mai eficient să clasifice diferite tipuri de obiecte.
Așa că o mare parte din cunoștințele umane au fost eliminate din procesul de instruire, dar nu toate. Dar următorul pas este chiar după colț.
Cu privire la învățarea nesupravegheată
Pentru ca un model să fie complet nesupravegheat, acesta trebuie să fie antrenat fără supraveghere umană (etichete) și să fie în continuare capabil să îndeplinească sarcinile pe care trebuie să le îndeplinească, cum ar fi clasificarea imaginilor.
Amintiți-vă că modelele autosupravegheate fac deja un pas în această direcție: Înainte de a li se arăta etichete, acestea sunt deja capabile să calculeze reprezentări vectoriale coerente pentru diferite obiecte. Acest lucru este esențial pentru a elimina toată supravegherea umană.
Ceea ce reprezintă în general acest vector este o imagine redusă în dimensionalitatea sa. De fapt, autocodificatoarele pot fi antrenate să recreeze pixelii imaginii. Datorită dimensiunii sale reduse, putem utiliza o tehnică ignorată de mult timp (din motive întemeiate) în vederea computerizată: Un clasificator k-nearest-neighbors. Dacă reprezentările noastre vectoriale sunt atât de bune încât doar aceleași obiecte formează un cluster, iar obiectele diferite sunt grupate la mare distanță, putem alimenta modelul cu o imagine nouă, necunoscută, iar modelul o va atribui clusterului din clasa corectă. Modelul nu va fi capabil să vă spună care este numele clasei, ci din ce grup de imagini face parte. Dacă atribuiți un nume de clasă acestui grup, toate obiectele din grup pot fi clasificate. La urma urmei, numele de clasă sunt creații artificiale ale oamenilor (cineva a definit că acest lucru se numește măr) și li se atribuie semnificație doar de către oameni.
Din moment ce toate etichetele sunt eliminate din procesul de instruire și rezultatele din lucrări precum DINO sunt destul de promițătoare, aceasta este cea mai apropiată cale pe care am parcurs-o de eliminarea întregii supravegheri din procesul de instruire a modelelor de viziune computerizată.
Dar mai sunt încă multe de făcut, mai mult loc pentru îmbunătățiri.
Încheiere
Dacă ați citit până în acest punct, apreciez foarte mult că v-ați făcut timp. În mod intenționat nu am inclus imagini în această poveste, deoarece acestea vă distrag atenția de la sensul acestui text. Adică, cu toții ne dorim să fim un transformator bun, nu? (De data aceasta a fost intenționat)
Vă mulțumesc sincer că ați citit acest articol. Dacă sunteți interesați de învățarea autosupravegheată, aruncați o privire la alte povești ale mele în care încerc să explic celor interesați lucrările de ultimă oră din acest spațiu. Și dacă doriți să vă scufundați mai adânc în domeniul viziunii computerizate avansate, luați în considerare posibilitatea de a deveni un follower al meu. Încerc să postez un articol o dată pe săptămână și și să vă țin pe dumneavoastră și pe oricine altcineva interesat la curent cu noutățile din domeniul cercetării în domeniul vederii computerizate!
Sursa: https://towardsdatascience.com/from-supervised-to-unsupervised-learning-a-paradigm-shift-in-computer-vision-ae19ada1064d