Vom überwachten zum unüberwachten Lernen: Ein Paradigmenwechsel in der Computer Vision
- 181
Schrittweise Entfernung des menschlichen Wissens aus dem Trainingsprozess
Quelle: Leon Sick
Seit den Anfängen der modernen Computer-Vision-Methoden konnten Erfolge bei der Anwendung dieser Techniken nur im überwachten Bereich verzeichnet werden. Um ein Modell für die Durchführung von Aufgaben wie Bilderkennung, Objekterkennung oder semantische Segmentierung nutzbar zu machen, war früher eine menschliche Überwachung erforderlich. In den letzten Jahren hat sich der Schwerpunkt der Bildverarbeitungsforschung grundlegend geändert: Weg vom garantierten Erfolg mit menschlicher Überwachung, hin zu neuen Grenzen: Selbstüberwachtes und unbeaufsichtigtes Lernen.
Lassen Sie uns auf eine Reise in eine neue Ära gehen, die bereits begonnen hat.
Der Erfolg des überwachten Lernens
AlexNet markierte den ersten Durchbruch bei der Anwendung neuronaler Netze für Bildaufgaben, genauer gesagt bei der ImageNet-Herausforderung. Von da an ging es Schlag auf Schlag und die Computer-Vision-Forschungsgemeinschaft stürmte auf die Perfektionierung überwachter Techniken für viele Arten von Computer-Vision-Aufgaben zu.
Für die Bildklassifizierung sind seit der ursprünglichen AlexNet-Veröffentlichung viele Varianten von Modellen entstanden. ResNet ist unbestreitbar der Klassiker unter den neuronalen Faltungsnetzen geworden. Effiziente Architekturen wie das EfficientNet sind aufgetaucht. Sogar Netzwerke, die für mobile Geräte optimiert sind, wie die MobileNet-Architektur. In jüngster Zeit haben Vision Transformers zunehmend an Aufmerksamkeit gewonnen (unbeabsichtigter Scherz) und es hat sich gezeigt, dass sie unter den richtigen Bedingungen (viele Daten und Rechenleistung) neuronale Faltungsnetze übertreffen können. Ursprünglich für Sprachaufgaben erfunden, ist ihre Anwendung für die Computer Vision ein großer Erfolg gewesen. Ein weiterer interessanter Ansatz war der Entwurf von Netzentwurfsräumen, in denen eine quantisierte lineare Funktion die Netzarchitektur definiert, genannt RegNet.
Die nächsten Aufgaben, die erfolgreich mit überwachtem Lernen angegangen wurden, waren Objekterkennung und semantische Segmentierung. R-CNNs haben in der ersten Domäne für Furore gesorgt, gefolgt von vielen Fortschritten in Bezug auf Recheneffizienz und Genauigkeit. Bemerkenswerte Ansätze sind das Fast, Faster und Mask R-CNN, aber auch die YOLO-Algorithmen und Single-Shot-Detektoren wie das SSD MobileNet. Ein Meilenstein auf dem Gebiet der semantischen Segmentierung war die U-Net-Architektur.
Nicht zu vergessen sind auch die Benchmark-Datensätze, die die überwachten Techniken vergleichbarer machten. ImageNet setzte den Standard für die Bildklassifikation, und MS COCO ist nach wie vor wichtig für die Objekterkennung und -segmentierung.
Alle diese Techniken haben eines gemeinsam: Sie sind auf destilliertes menschliches Wissen und Können in Form von gelabelten Daten angewiesen, um gute Ergebnisse zu erzielen. In gewisser Weise verwenden alle diese Verfahren künstliche neuronale Netze, die das biologische neuronale Netz des Menschen nachbilden. Aber dennoch lernen diese Modelle ganz anders als der Mensch, wahrzunehmen. Warum nur das menschliche Gehirn in seiner biologischen Form nachahmen und nicht den kognitiven Prozess, der dem Erkennen und Klassifizieren zugrunde liegt?
Hier kommt die nächste Entwicklung ins Spiel: das selbstüberwachte Lernen.
Einführung der Selbstüberwachung in den Prozess
Überlegen Sie, wie Sie gelernt haben, zu sehen. Wie Sie lernen, einen Apfel zu erkennen. Als Sie jünger waren, haben Sie viele Äpfel gesehen, aber nicht alle hatten ein Schild mit der Aufschrift „Das ist ein Apfel“, und niemand hat Ihnen jedes Mal gesagt, dass es ein Apfel ist, wenn Sie einen gesehen haben. Die Art und Weise, wie du gelernt hast, war durch Ähnlichkeit: Du hast dieses Objekt immer wieder gesehen, mehrmals pro Woche, vielleicht sogar pro Tag. Du hast es erkannt: Hey… das ist dasselbe!
Dann, eines Tages, hat dir jemand beigebracht, dass dies ein Apfel ist. Plötzlich war Ihnen dieses abstrakte Objekt, diese visuelle Darstellung, als „Apfel“ bekannt. Dies ist ein ähnlicher Prozess wie beim selbstüberwachten Lernen.
Die modernsten Verfahren wie SimCLR oder SwAV kopieren diesen Prozess. Beim Pre-Training werden alle Labels verworfen, die Modelle trainieren ohne menschliches Wissen. Den Modellen werden zwei Versionen desselben Bildes gezeigt, auch wenn es beschnitten, farblich verzerrt oder gedreht ist, und sie beginnen zu lernen, dass diese Objekte trotz ihrer unterschiedlichen visuellen Darstellung dasselbe „Ding“ sind. Dies zeigt sich in der Tat in ihren ähnlichen latenten Vektordarstellungen (merken Sie sich dies für später). Das Modell lernt also, für jede Objektklasse einen konsistenten Vektor zu erzeugen.
Als Nächstes folgt der „Lernschritt“: Dem vortrainierten Modell werden diesmal einige Bilder mit Beschriftungen gezeigt. Und es lernt sehr viel schneller und effektiver, verschiedene Arten von Objekten zu klassifizieren.
So wurde ein Großteil des menschlichen Wissens aus dem Trainingsprozess entfernt, aber nicht alles. Aber der nächste Schritt steht vor der Tür.
Auf dem Weg zum unbeaufsichtigten Lernen
Um ein Modell vollständig unbeaufsichtigt zu machen, muss es ohne menschliche Aufsicht (Kennzeichnungen) trainiert werden und trotzdem in der Lage sein, die Aufgaben zu erfüllen, die von ihm erwartet werden, z. B. die Klassifizierung von Bildern.
Erinnern Sie sich, dass die selbstüberwachten Modelle bereits einen Schritt in diese Richtung machen: Bevor ihnen irgendwelche Bezeichnungen angezeigt werden, sind sie bereits in der Lage, konsistente Vektordarstellungen für verschiedene Objekte zu berechnen. Dies ist der Schlüssel zum Wegfall jeglicher menschlicher Überwachung.
Was dieser Vektor im Allgemeinen darstellt, ist ein in seiner Dimensionalität reduziertes Bild. Tatsächlich können Autoencoder darauf trainiert werden, die Bildpixel nachzubilden. Aufgrund der reduzierten Dimension können wir eine Technik verwenden, die in der Computer Vision lange Zeit (aus guten Gründen) ignoriert wurde: Ein k-nearest-neighbors-Klassifikator. Wenn unsere Vektordarstellungen so gut sind, dass nur gleiche Objekte einen Cluster bilden und unterschiedliche Objekte weit entfernt geclustert werden, können wir das Modell mit einem neuen, unbekannten Bild füttern und das Modell wird es dem Cluster der richtigen Klasse zuordnen. Das Modell wird Ihnen nicht sagen können, wie der Klassenname lautet, sondern zu welcher Gruppe von Bildern es gehört. Wenn Sie dieser Gruppe einen Klassennamen zuweisen, können alle Objekte in dieser Gruppe klassifiziert werden. Schließlich sind Klassennamen künstliche Schöpfungen von Menschen (jemand hat definiert, dass dieses Ding Apfel heißt) und werden nur von Menschen mit Bedeutung versehen.
Da alle Beschriftungen aus dem Trainingsprozess entfernt werden und die Ergebnisse in Arbeiten wie DINO recht vielversprechend sind, kommen wir der Entfernung jeglicher Überwachung aus dem Trainingsprozess von Computer-Vision-Modellen bisher am nächsten.
Aber es bleibt noch mehr zu tun, mehr Raum für Verbesserungen.
Zusammenfassung
Wenn Sie bis zu diesem Punkt gelesen haben, weiß ich es sehr zu schätzen, dass Sie sich die Zeit genommen haben. Ich habe absichtlich keine Bilder in diese Geschichte eingefügt, da sie Ihre Aufmerksamkeit vom Sinn dieses Textes ablenken. Ich meine, wir wollen doch alle ein guter Transformator sein, oder? (Diesmal war es beabsichtigt)
Ich danke Ihnen aufrichtig für das Lesen dieses Artikels. Wenn Sie sich für selbstüberwachtes Lernen interessieren, werfen Sie einen Blick auf andere Artikel von mir, in denen ich versuche, den neuesten Stand der Technik in diesem Bereich zu erklären. Und wenn Sie tiefer in das Gebiet des fortgeschrittenen Computer-Vision eintauchen möchten, sollten Sie sich überlegen, ein Follower von mir zu werden. Ich versuche, einmal pro Woche einen Artikel zu veröffentlichen und Sie und alle anderen Interessierten auf dem Laufenden zu halten, was es Neues in der Bildverarbeitungsforschung gibt!
Quelle: https://towardsdatascience.com/from-supervised-to-unsupervised-learning-a-paradigm-shift-in-computer-vision-ae19ada1064d