Schwierigkeit, seltene Fälle zu „lernen“

Gibt es ein Ergebnis, das zeigt, dass Modelle (z. B. SVM, Neural-Net, kNN usw.) Schwierigkeiten haben werden, "seltene" Instanzen / Schwanzphänomene zu lernen?

machine-learning lg.learning pac-learning

— Daniel
quelle

Ich denke, Sie haben eine Antwort zu schnell akzeptiert - es ist eine gute Antwort, aber es könnte auch mehr Möglichkeiten geben.

— Usul

@usul danke für den Kommentar. Haben Sie weitere Vorschläge? Würde mich über weitere Gedanken freuen.

— Daniel

Im klassischen PAC-Lernmodell (dh Klassifizierungsmodell) sind seltene Fälle kein Problem. Dies liegt daran, dass angenommen wird, dass die Testpunkte des Lernenden aus derselben Verteilung stammen wie die Trainingsdaten. Wenn also ein Raumbereich so dünn ist, dass er in der Trainingsprobe schlecht dargestellt wird, ist seine Wahrscheinlichkeit, während der Testphase zu erscheinen, gering.

Sie benötigen ein anderes Lernmodell, das sich explizit mit Typ-I- und Typ-II-Fehlern befasst, oder möglicherweise einen kombinierten Präzisionsrückruf-Score. Auch hier glaube ich nicht, dass es Ergebnisse gibt, die darauf hinweisen, dass eine bestimmte Klasse von Algorithmen für diese Aufgabe besonders schlecht geeignet ist, aber ich könnte mich irren.

Das Beste, was ich mir vorstellen kann, ist die Empfindlichkeit gegenüber Ausreißern. AdaBoost verfügt beispielsweise über diese Eigenschaft.

— Aryeh
quelle