Halbüberwachtes Lernen, aktives Lernen und tiefes Lernen für die Klassifizierung


19

Letzte Bearbeitung mit allen Ressourcen aktualisiert:

Für ein Projekt wende ich Algorithmen für maschinelles Lernen zur Klassifizierung an.

Herausforderung: Sehr begrenzte beschriftete Daten und viel mehr unbeschriftete Daten.

Tore:

  1. Wenden Sie eine halbüberwachte Klassifizierung an
  2. Wenden Sie einen halbüberwachten Etikettierungsprozess an (bekannt als aktives Lernen).

Ich habe viele Informationen aus Forschungsarbeiten gefunden, wie zum Beispiel die Anwendung von EM, Transductive SVM oder S3VM (Semi Supervised SVM) oder die Verwendung von LDA usw. Auch zu diesem Thema gibt es nur wenige Bücher.

Frage: Wo sind die Implementierungen und praktischen Quellen?


Letztes Update (basierend auf den Hilfen von mpiktas, bayer und Dikran Marsupial)

Teilüberwachtes Lernen:

Aktives Lernen:

  • Dualist : eine Implementierung des aktiven Lernens mit Quellcode zur Textklassifizierung
  • Diese Webseite bietet einen wunderbaren Überblick über aktives Lernen.
  • Ein experimenteller Design Workshop: hier .

Tiefes Lernen:


Es gibt ein R-Paket RTextTools . Wenn ich mich nicht irre, werden mehrere der von Ihnen genannten Methoden implementiert.
mpiktas

Hallo mpiktas, danke für deine freundliche Hilfe. Es ist ein interessantes Toolkit. Es scheint sich jedoch nur um betreutes Lernen zu handeln, da ich lese "TextTools ist ein kostenloses Open-Source-Paket für maschinelles Lernen zur automatischen Textklassifizierung, das Anfängern und Fortgeschrittenen den Einstieg in das betreute Lernen erleichtert. Das Paket enthält neun Algorithmen für die Ensemble-Klassifikation (SVM, SVDA, Boosting, Bagging, zufällige Wälder, GLMnet, Entscheidungsbäume, neuronale Netze, maximale Entropie) "
Flake

Ok, hier ist ein weiterer Versuch: Weka . Die Autoren haben ein Buch geschrieben, und das Inhaltsverzeichnis erwähnt das halbüberwachte Lernen. Ich hoffe aufrichtig, dass das Kapitel nicht mit "... leider ist keiner dieser Algorithmen in Weka implementiert"
endet

Drat, ich habe die ältere Version des Buches! Vielen Dank für den Hinweis auf diese Quelle!
Flake

Antworten:


8

Es scheint, als ob Deep Learning für Sie sehr interessant sein könnte. Dies ist ein sehr junges Gebiet von Deep-Connection-Modellen, die unbeaufsichtigt trainiert und anschließend unter Aufsicht verfeinert werden. Die Feinabstimmung erfordert viel weniger Proben als das Vor-Trainieren.

Ich empfehle [Semantig Hashing Salakhutdinov, Hinton . Schauen Sie sich die Codes an, die darin enthalten sind, um eindeutige Dokumente des Reuters-Korpus zu finden: (unbeaufsichtigt!)

Bildbeschreibung hier eingeben

Wenn Sie Code benötigen, lesen Sie deeplearning.net . Ich glaube jedoch nicht, dass es Out-of-the-Box-Lösungen gibt.


Das ist ziemlich interessant und neue Informationen für mich. Natürlich wären sofort einsatzbereite Implementierungen besser, aber das hilft mir wirklich, etwas näher zu wissen, was ich will. Vielen Dank.
Flake

5

Isabelle Guyon (und Kollegen) organisierten vor einiger Zeit eine Herausforderung zum aktiven Lernen, die Berichte werden hier veröffentlicht (Open Access). Dies hat den Vorteil, dass es sehr praktisch ist und dass Sie die Leistungen verschiedener Ansätze unter einem unvoreingenommenen (umgangssprachlichen) Protokoll direkt vergleichen können (die zufällige Auswahl von Mustern ist überraschend schwer zu übertreffen).


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.