Was ist die vielfältige Annahme beim teilüberwachten Lernen?


20

Ich versuche herauszufinden, was die mannigfaltige Annahme im semi-überwachten Lernen bedeutet. Kann jemand auf einfache Weise erklären? Ich kann die Intuition dahinter nicht verstehen.

Es besagt, dass Ihre Daten auf einer niedrigdimensionalen Mannigfaltigkeit liegen, die in einem höherdimensionalen Raum eingebettet ist. Ich habe nicht verstanden, was das bedeutet.


Antworten:


38

Stellen Sie sich vor, Sie haben ein paar Samen auf einer Glasplatte, die horizontal auf einem Tisch liegt. Aufgrund der Art und Weise, wie wir normalerweise über den Raum denken, kann man mit Sicherheit sagen, dass diese Samen mehr oder weniger in einem zweidimensionalen Raum leben, da jeder Samen durch die beiden Zahlen identifiziert werden kann, die die Koordinaten dieses Samens auf der Oberfläche von angeben das Glas.

Stellen Sie sich nun vor, Sie nehmen die Platte und kippen sie schräg nach oben, so dass die Oberfläche des Glases nicht mehr horizontal zum Boden steht. Wenn Sie nun einen der Samen finden möchten, haben Sie mehrere Möglichkeiten. Wenn Sie sich entscheiden, das Glas zu ignorieren, scheint jeder Samen im dreidimensionalen Raum über der Tabelle zu schweben. Daher müssen Sie den Standort jedes Samens mit drei Zahlen beschreiben, eine für jede Raumrichtung. Aber nur durch Kippen des Glases haben Sie nichts daran geändert, dass die Samen immer noch auf einer zweidimensionalen Oberfläche leben. Sie könnten also beschreiben, wie die Oberfläche des Glases im dreidimensionalen Raum liegt, und dann die Positionen der Samen auf dem Glas unter Verwendung Ihrer ursprünglichen zwei Dimensionen beschreiben.

In diesem Gedankenexperiment ähnelt die Glasoberfläche einer niedrigdimensionalen Mannigfaltigkeit, die in einem höherdimensionalen Raum existiert: Unabhängig davon, wie Sie die Platte in drei Dimensionen drehen, leben die Samen immer noch entlang der Oberfläche einer zweidimensionalen Ebene.

Beispiele

Im Allgemeinen ist eine in einen höherdimensionalen Raum eingebettete niedrigdimensionale Mannigfaltigkeit nur eine Menge von Punkten, die aus irgendeinem Grund als verbunden oder Teil derselben Menge angesehen werden. Insbesondere könnte der Verteiler in dem höherdimensionalen Raum irgendwie verdreht sein (z. B. ist die Oberfläche des Glases möglicherweise in eine Schalenform anstelle einer Plattenform verzogen), aber der Verteiler ist im Grunde immer noch niedrigdimensional. Insbesondere im hochdimensionalen Raum kann diese Mannigfaltigkeit viele verschiedene Formen annehmen. Da wir jedoch in einer dreidimensionalen Welt leben, sind Beispiele mit mehr als drei Dimensionen schwer vorstellbar. Betrachten Sie nur als Beispiel diese Beispiele:

  • ein Stück Glas (planar, zweidimensional) im physischen Raum (dreidimensional)
  • ein einzelner Faden (eindimensional) in einem Stück Stoff (zweidimensional)
  • ein Stück Stoff (zweidimensional) in der Waschmaschine zerknittert (dreidimensional)

Häufige Beispiele für Mannigfaltigkeiten beim maschinellen Lernen (oder zumindest Mengen, von denen angenommen wird, dass sie sich entlang niedrigdimensionaler Mannigfaltigkeiten bewegen) sind:

  • Bilder von natürlichen Szenen (normalerweise sehen Sie beispielsweise keine Bilder mit weißem Rauschen, was bedeutet, dass "natürliche" Bilder nicht den gesamten Raum möglicher Pixelkonfigurationen einnehmen)
  • Naturgeräusche (ähnliches Argument)
  • menschliche Bewegungen (der menschliche Körper hat Hunderte von Freiheitsgraden, aber Bewegungen scheinen in einem Raum zu leben, der mit ~ 10 Dimensionen effektiv dargestellt werden kann)

Die Mannigfaltigkeit lernen

Die vielfältige Annahme beim maschinellen Lernen ist, dass anstelle der Annahme, dass Daten in der Welt von jedem Teil des möglichen Raums stammen könnten (z. B. dem Raum aller möglichen 1-Megapixel-Bilder, einschließlich weißem Rauschen), die Annahme sinnvoller ist Die Trainingsdaten stammen von relativ niedrig dimensionierten Mannigfaltigkeiten (wie der Glasplatte mit den Samen). Dann wird es eine wichtige Aufgabe, die Struktur der Mannigfaltigkeit zu lernen. Darüber hinaus scheint diese Lernaufgabe ohne die Verwendung von gekennzeichneten Trainingsdaten möglich zu sein.

Es gibt viele, viele verschiedene Möglichkeiten, die Struktur einer niederdimensionalen Mannigfaltigkeit zu lernen. Einer der am weitesten verbreiteten Ansätze ist PCA, bei dem davon ausgegangen wird, dass der Verteiler aus einem einzelnen ellipsoiden "Blob" wie einer Pfannkuchen- oder Zigarrenform besteht, der in einen höherdimensionalen Raum eingebettet ist. Durch kompliziertere Techniken wie Isomap, ICA oder spärliche Codierung werden einige dieser Annahmen auf verschiedene Weise gelockert.

Halbüberwachtes Lernen

Es gibt zwei Gründe, weshalb die vielfältige Annahme beim teilüberwachten Lernen wichtig ist. Für viele realistische Aufgaben (z. B. Feststellen, ob die Pixel in einem Bild eine 4 oder eine 5 zeigen) sind auf der Welt viel mehr Daten ohne Beschriftungen verfügbar (z. B. Bilder, die möglicherweise Ziffern enthalten) als mit Beschriftungen (z. B. Bilder, die ausdrücklich mit "4" oder "5" gekennzeichnet sind). Darüber hinaus sind in den Pixeln der Bilder um viele Größenordnungen mehr Informationen verfügbar als in den Etiketten der Bilder, die Etiketten aufweisen. Aber, wie ich oben beschrieben habe, werden natürliche Bilder nicht tatsächlich aus der gleichmäßigen Verteilung über Pixelkonfigurationen abgetastet, so dass es wahrscheinlich ist, dass es eine Vielfalt gibt, die die Struktur natürlicher Bilder erfasst.Während die Bilder mit 5s ebenfalls auf einem anderen, aber in der Nähe befindlichen Verteiler liegen, können wir versuchen, Repräsentationen für jeden dieser Verteiler nur unter Verwendung der Pixeldaten zu entwickeln, in der Hoffnung, dass die verschiedenen Verteiler unter Verwendung der verschiedenen erlernten Merkmale der Daten dargestellt werden. Wenn wir dann später ein paar Bits an Etikettendaten zur Verfügung haben, können wir diese Bits verwenden, um einfach Etiketten auf die bereits identifizierten Mannigfaltigkeiten anzuwenden.

Der größte Teil dieser Erklärung stammt aus der Arbeit in der vertieften und spielerisch erlernten Literatur. Yoshua Bengio und Yann LeCun - siehe das Energy Based Learning Tutorial haben besonders leicht zugängliche Argumente in diesem Bereich.


1
Dies beantwortet nicht die Frage: Sie erklären nicht, warum Verteiler benötigt werden, Sie erklären im Grunde, warum höherdimensionale Einbettungen nicht benötigt werden (eine Teilmenge einer höherdimensionalen Einbettung muss kein Verteiler sein, um zu Ihren Beispielen zu passen).
Gented

5

Stellen Sie zunächst sicher, dass Sie verstehen, was eine Einbettung ist. Es ist aus der Mathematik entlehnt . Grob gesagt handelt es sich um eine Zuordnung der Daten zu einem anderen Bereich (häufig als Einbettungsbereich oder Merkmalsbereich bezeichnet ), wobei einige Strukturen oder Eigenschaften der Daten beibehalten werden. Beachten Sie, dass seine Dimensionalität größer oder kleiner als der Eingaberaum sein kann. In der Praxis ist die Abbildung komplex und stark nichtlinear. Einige Beispiele:

  • Ein realer " Wortvektor ", der ein Wort darstellt, z. B. word2vec
  • Die Aktivierung einer Schicht eines Convnets, wie der FC7-Schicht AlexNet (FC7 ist die 7. vollständig verbundene Schicht)

Zur Veranschaulichung nehme ich ein Beispiel dieses Papiers von Josh Tenenbaum:

Abb. 1 zeigt das Problem der Merkmalserkennung anhand eines Beispiels für die visuelle Wahrnehmung. Die Menge der Ansichten eines Gesichts aus allen möglichen Blickwinkeln ist ein extrem hochdimensionaler Datensatz, wenn er als Bildarrays in einem Computer oder auf einer Netzhaut dargestellt wird. Beispielsweise können Graustufenbilder mit 32 x 32 Pixeln als Punkte in einem 1.024-dimensionalen Beobachtungsraum [Eingaberaum] betrachtet werden . Die wahrnehmungsbedeutende Struktur dieser Bilder [Merkmalsraum] ist jedoch viel geringer dimensioniert; Alle Bilder in 1 liegen auf einer zweidimensionalen Mannigfaltigkeit, die durch den Betrachtungswinkel parametrisiert ist

Bildbeschreibung hier eingeben

Josh Tenenbaum diskutiert dann die Schwierigkeiten, eine solche Abbildung von der Eingabe zum Merkmalsraum zu lernen. Kehren wir jedoch zu der Frage zurück: Wir sind daran interessiert, wie die Eingabe- und Merkmalsräume zusammenhängen.

  • Das 32*32 array of grey pixel valuesist der Eingaberaum
  • Der [x1=elevation, x2=azimuth]Raum ist der Merkmalsraum (obwohl vereinfacht, kann er als gültiger Einbettungsraum angesehen werden).

Die mannigfaltige Hypothese wiedergeben (aus diesem großartigen Artikel zitierend ):

Die vielfältige Hypothese lautet, dass natürliche Daten in ihrem Einbettungsraum niederdimensionale Mannigfaltigkeiten bilden

Anhand dieses Beispiels wird deutlich, dass die Dimensionalität des Einbettungsraums viel geringer ist als die des Eingaberaums: 2 gegenüber 1024. (Diese Unterscheidung gilt auch für die Auswahl von höherdimensionalen, weniger vereinfachten Einbettungsräumen).

Um sich davon zu überzeugen, dass die Einbettung vielfältig ist, lade ich Sie ein, den Rest des Tenenbaum- Papiers oder den Colah-Artikel zu lesen .

Hinweis: Dies ist nur eine Illustration dessen, was die vielfältige Hypothese bedeutet, und kein Argument dafür, warum dies geschieht .

Siehe auch : Erklärung von Wortvektoren , word2vec paper

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.