Was genau ist der Unterschied zwischen überwachtem und unbeaufsichtigtem Lernen?


28

Ich versuche, Clustering-Methoden zu verstehen.

Was ich glaube, habe ich verstanden:

  1. Beim überwachten Lernen sind die Kategorien / Labels, denen Daten zugewiesen werden, vor der Berechnung bekannt. Die Bezeichnungen, Klassen oder Kategorien werden also verwendet, um die Parameter zu "lernen", die für diese Cluster wirklich wichtig sind.

  2. Beim unbeaufsichtigten Lernen werden Datensätze Segmenten zugeordnet, ohne dass die Cluster bekannt sind.

Bedeutet das, dass ich beaufsichtigtes Lernen vorziehen sollte, wenn ich nicht einmal weiß, welche Parameter für eine Segmentierung entscheidend sind?


2
Beachten Sie, dass Clustering nicht die einzige Art von unbeaufsichtigtem Lernen ist.
George

1
Betreutes Lernen wird bevorzugt, wenn gekennzeichnete Trainingsdaten verfügbar sind. Sie können Ihre Daten mit überwachten oder unbeaufsichtigten Methoden partitionieren. Der Hauptunterschied besteht darin, dass Sie in der überwachten Umgebung die RICHTIGE Segmentierung für Ihre Trainingsdaten kennen.
Nick

Antworten:


23

Der Unterschied besteht darin, dass beim überwachten Lernen die "Kategorien", "Klassen" oder "Labels" bekannt sind. Beim unbeaufsichtigten Lernen ist dies nicht der Fall, und der Lernprozess versucht, geeignete "Kategorien" zu finden. Bei beiden Arten des Lernens werden alle Parameter berücksichtigt, um zu bestimmen, welche zur Durchführung der Klassifizierung am besten geeignet sind.

Ob Sie sich für überwacht oder unbeaufsichtigt entschieden haben, sollte davon abhängen, ob Sie die "Kategorien" Ihrer Daten kennen oder nicht. Wenn Sie es wissen, wenden Sie beaufsichtigtes Lernen an. Wenn Sie nicht wissen, verwenden Sie unbeaufsichtigt.

Da Sie über eine große Anzahl von Parametern verfügen und nicht wissen, welche relevant sind, können Sie die relevanten Parameter mithilfe der Hauptkomponentenanalyse ermitteln.


13

Beachten Sie, dass es mehr als 2 Überwachungsgrade gibt. Siehe zum Beispiel die Seiten 24-25 (6-7) in der Dissertation von Christian Biemann, Unüberwachte und wissensfreie Verarbeitung natürlicher Sprache im Strukturentdeckungsparadigma, 2007.

Die Dissertation identifiziert 4 Grade: beaufsichtigt, semi-beaufsichtigt, schwach beaufsichtigt und unbeaufsichtigt und erklärt die Unterschiede im Kontext der Verarbeitung natürlicher Sprache. Hier sind die relevanten Definitionen:

  • In überwachten Systemen sind die Daten, die einem maschinellen Lernalgorithmus präsentiert werden, vollständig gekennzeichnet. Das heißt: Alle Beispiele sind mit einer Klassifizierung versehen, die die Maschine reproduzieren soll. Dazu wird aus den Daten ein Klassifikator gelernt, der Vorgang des Zuordnens von Bezeichnungen zu noch nicht sichtbaren Instanzen wird als Klassifizierung bezeichnet.
  • In halbüberwachten Systemen darf die Maschine zusätzlich unbeschriftete Daten berücksichtigen. Aufgrund einer größeren Datenbasis übertreffen halbüberwachte Systeme ihre überwachten Gegenstücke häufig anhand derselben gekennzeichneten Beispiele. Der Grund für diese Verbesserung liegt darin, dass das System die inhärente Struktur der Daten genauer modellieren kann, wenn die Daten nicht gekennzeichnet sind.
  • Bootstrapping, auch Selbsttraining genannt, ist eine Form des Lernens, die darauf ausgelegt ist, noch weniger Trainingsbeispiele zu verwenden, die manchmal als schwach beaufsichtigt bezeichnet werden . Bootstrapping beginnt mit einigen Trainingsbeispielen, bildet einen Klassifikator aus und verwendet positive Beispiele, die dieser Klassifikator für die Umschulung liefert. Mit zunehmender Anzahl von Trainingsbeispielen verbessert sich der Klassifikator, sofern nicht zu viele negative Beispiele als positiv eingestuft werden, was zu einer Verschlechterung der Leistung führen kann.
  • Unüberwachte Systeme erhalten überhaupt keine Schulungsbeispiele und führen Clustering durch. Dies ist die Aufteilung von Dateninstanzen in mehrere Gruppen. Die Ergebnisse von Clustering-Algorithmen sind datengesteuert, daher "natürlicher" und besser an die zugrunde liegende Struktur der Daten angepasst. Dieser Vorteil ist auch der Hauptnachteil: Ohne die Möglichkeit, der Maschine mitzuteilen, was zu tun ist (wie bei der Klassifizierung), ist es schwierig, die Qualität der Clusterergebnisse schlüssig zu beurteilen. Das Fehlen einer Trainingsbeispielvorbereitung macht das unbeaufsichtigte Paradigma jedoch sehr attraktiv.

0

Beim betreuten Lernen sind die Klassen im Voraus bekannt und auch ihre Arten, beispielsweise zwei Klassen, gute und schlechte Kunden. Wenn ein neues Objekt (Kunde) aufgrund seiner Attribute eintritt, kann der Kunde einer schlechten oder einer guten Kundenklasse zugeordnet werden.

Beim unbeaufsichtigten Lernen sind die Gruppen / Klassen nicht bereits bekannt, wir haben Objekte (Kunden), also gruppieren Sie die Kunden mit ähnlichen Kaufgewohnheiten, daher werden unterschiedliche Gruppen der Kunden gebildet, dh sie sind aufgrund ähnlicher Kaufgewohnheiten nicht bereits bekannt.


0

Beim überwachten Lernen hängt die Ausgabe (abhängige Variable) von der Eingabevariable (unabhängige Variable) ab. Bei einigen vorgegebenen Überwachungen versucht der Responder, das gewünschte Ziel zu berechnen.

Beim unbeaufsichtigten Lernen gibt es keine Aufsicht, daher versucht das System, sich an die Situation anzupassen und lernt auf der Grundlage einer bestimmten Maßnahme manuell.

Beispiel: Lehrer in einer Klasse - Aufsicht - überwachtes Lernen Ein Selbststudium, das in der Klasse gewählt wird - keine Aufsicht - unbeaufsichtigtes Lernen

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.