Überwachtes Lernen

1) Ein menschliches baut einen Klassifizierer basierend auf Eingabe und Ausgabedaten
2) Dieser Klassifikator wird mit einem Trainingsdatensatz trainiert
3) Dieser Klassifikator wird mit einem Testdatensatz getestet
4) Bereitstellung, wenn die Ausgabe zufriedenstellend ist

Um verwendet zu werden, wenn "Ich weiß, wie man diese Daten klassifiziert, ich brauche nur Sie (den Klassifizierer), um sie zu sortieren."

Methodenkomponente: Zum Klassifizieren von Beschriftungen oder zum Erzeugen reeller Zahlen

Unbeaufsichtigtes Lernen

1) Ein menschliches baut einen Algorithmus basierend auf Eingangsdaten
2) Dieser Algorithmus wird mit einem Testdatensatz getestet (in dem der Algorithmus den Klassifikator erstellt).
3) Einsatz, wenn der Klassifikator zufriedenstellend ist

Um verwendet zu werden, wenn "Ich habe keine Ahnung, wie ich diese Daten klassifizieren soll. Können Sie (der Algorithmus) einen Klassifikator für mich erstellen?"

Methodenpunkt: Etiketten klassifizieren oder vorhersagen (PDF)

Verstärkung lernen

1) Ein menschliches baut einen Algorithmus basierend auf Eingangsdaten
2) Dieser Algorithmus stellt einen Zustand dar, der von den Eingabedaten abhängt, in denen ein Benutzer den Algorithmus über die vom Algorithmus ausgeführte Aktion belohnt oder bestraft. Dies setzt sich über die Zeit fort
3) Dieser Algorithmus lernt aus der Belohnung / Bestrafung und aktualisiert sich, dies geht weiter
4) Es ist immer in Produktion, es muss reale Daten lernen, um Aktionen von Staaten darstellen zu können

Zu verwenden, wenn: "Ich habe keine Ahnung, wie ich diese Daten klassifizieren soll. Können Sie diese Daten klassifizieren und ich werde Ihnen eine Belohnung geben, wenn sie korrekt sind, oder ich werde Sie bestrafen, wenn sie nicht korrekt sind."

Ist dies der Fluss dieser Praktiken? Ich höre viel darüber, was sie tun, aber die praktischen und beispielhaften Informationen sind erschreckend wenig!

— Karl Morrison
quelle

Hat mir sehr gut gefallen, wie Sie Ihre Frage gestellt haben. Ich fand diese Antwort hilfreich: stats.stackexchange.com/a/522/92255

— Ashesh Kumar Singh

3

Dies ist eine sehr schöne kompakte Einführung in die Grundideen!

Verstärkung lernen

Ich denke, dass Ihre Use-Case-Beschreibung des verstärkenden Lernens nicht genau richtig ist. Der Begriff klassifizieren ist nicht zutreffend. Eine bessere Beschreibung wäre:

Ich weiß nicht , wie zu handeln in dieser Umgebung , können Sie ein gutes finden Verhalten und in der Zwischenzeit werde ich Ihnen geben Feedback .

Mit anderen Worten, das Ziel ist eher, etwas gut zu kontrollieren , als etwas gut zu klassifizieren .

Eingang

Die Umgebung, die definiert wird durch
- alle möglichen Zustände
- mögliche Aktionen in den Staaten
Die Belohnungsfunktion ist abhängig vom Zustand und / oder der Aktion

Algorithmus

Der Agent
- ist in einem Zustand
- führt eine Aktion aus , um in einen anderen Status zu wechseln
- bekommt eine Belohnung für die Aktion im Staat

Ausgabe

Der Agent möchte eine optimale Police finden , die die Belohnung maximiert

— Elcombato
quelle

2

Haftungsausschluss: Ich bin kein Experte und habe (noch) nie etwas mit Verstärkung gelernt, daher wäre jedes Feedback willkommen ...

Hier ist eine Antwort, die Ihrer Liste ein paar winzige mathematische Notizen und einige andere Gedanken darüber hinzufügt, wann Sie was verwenden sollen. Ich hoffe, die Aufzählung ist selbsterklärend genug:

Überwacht

Wir haben Daten $\mathcal{D} = \{(\boldsymbol{x}_0,y_0), (\boldsymbol{x}_1,y_1), \ldots, (\boldsymbol{x}_n,y_n)\}$
Wir suchen für alle Punkte ein Modell , das ein Verlust- / Kostenmaß minimiert $g$ $L(y_i, g(\boldsymbol{x}_i))$ $0 \leq i < l$
Wir werten das Modell aus, indem wir den Verlust / die Kosten für den Rest der Daten ( ) berechnen , um eine Vorstellung davon zu erhalten, wie gut sich das Modell verallgemeinert $L$ $l \leq i \leq n$

Wir können Beispiele nennen, aber wir können keinen Algorithmus angeben, um von der Eingabe zur Ausgabe zu gelangen

Einstellung für Klassifizierung und Regression

Unbeaufsichtigt

Wir haben Daten $\mathcal{D} = \{\boldsymbol{x}_0, \boldsymbol{x}_1, \ldots, \boldsymbol{x}_n\}$
Wir suchen ein Modell , das uns einen Einblick in unsere Daten gibt. $g$
Wir haben kaum oder gar nichts zu sagen, ob wir etwas Nützliches / Interessantes getan haben

Wir haben einige Daten, aber wir haben keine Ahnung, wo wir anfangen sollen, nach nützlichen / interessanten Dingen zu suchen

Einstellung für Clustering, Dimensionsreduktion, Auffinden versteckter Faktoren, generativer Modelle usw.

Verstärkung

Wir haben keine Daten
Wir bauen ein Modell , die Daten erzeugt (oft als Aktionen), die auf Messungen basieren , und / oder frühere Aktionen, in einem Versuch , eine Belohnung Maßnahme zu maximieren , Dies ist dem Modell im Allgemeinen nicht bekannt (es muss auch erlernt werden). $g$ $\boldsymbol{x}_i$ $R(\boldsymbol{x}_i)$
Wir bewerten anhand der Belohnungsfunktion, nachdem sie einige Zeit zum Lernen hatte.

Wir haben keine Ahnung, wie etwas zu tun ist, aber wir können sagen, ob es richtig oder falsch gemacht wurde

Dies scheint besonders nützlich für sequentielle Entscheidungsaufgaben zu sein.

Literatur:
Si, J., Barto, A., Powell, W. und Wunsch, D. (2004) Bestärkungslernen und seine Beziehung zu überwachtem Lernen im Handbuch des Lernens und der ungefähren dynamischen Programmierung, John Wiley & Sons, Inc., Hoboken, New Jersey, USA. doi: 10.1002 / 9780470544785.ch2

— Herr Tsjolder
quelle

Betreutes Lernen, unbeaufsichtigtes Lernen und Bestärkungslernen: Workflow-Grundlagen

Überwachtes Lernen

Unbeaufsichtigtes Lernen

Verstärkung lernen

Verstärkung lernen

Eingang

Algorithmus

Ausgabe

Überwacht

Unbeaufsichtigt

Verstärkung