Wie kann man feststellen, ob eine Lernkurve aus dem SVM-Modell eine Verzerrung oder Varianz aufweist?


Antworten:


13

Teil 1: Wie man die Lernkurve liest

Erstens sollten wir uns auf die rechte Seite des Diagramms konzentrieren, wo es genügend Daten für die Auswertung gibt.

  • Wenn zwei Kurven "nahe beieinander" sind und beide eine niedrige Punktzahl haben. Das Modell leidet unter einem Anpassungsproblem (hohe Abweichung)

  • Wenn die Trainingskurve eine viel bessere Punktzahl aufweist, die Testkurve jedoch eine geringere Punktzahl aufweist, dh es gibt große Lücken zwischen zwei Kurven. Dann leidet das Modell an einem Überpassungsproblem (hohe Varianz)

Teil 2: Meine Einschätzung für das von Ihnen zur Verfügung gestellte Grundstück

Aus der Handlung ist es schwer zu sagen, ob das Modell gut ist oder nicht. Es ist möglich, dass Sie ein wirklich "einfaches Problem" haben, ein gutes Modell kann 90% erreichen. Andererseits ist es möglich, dass Sie ein wirklich "schweres Problem" haben, dass das Beste, was wir tun können, darin besteht, 70% zu erreichen. (Beachten Sie, dass Sie möglicherweise nicht erwarten, dass Sie ein perfektes Modell haben. Die Punktzahl ist 1. Wie viel Sie erreichen können, hängt davon ab, wie viel Rauschen in Ihren Daten auftritt. Angenommen, Ihre Daten enthalten viele Datenpunkte mit der Funktion EXACT, aber mit unterschiedlichen Bezeichnungen. egal was du tust, du kannst keine 1 in der Punktzahl erreichen.)

Ein weiteres Problem in Ihrem Beispiel ist, dass 350 Beispiele in einer realen Anwendung zu klein erscheinen.

Teil 3: Weitere Vorschläge

Um ein besseres Verständnis zu erhalten, können Sie die folgenden Experimente durchführen, um eine Überanpassung zu erfahren und zu beobachten, was in der Lernkurve passieren wird.

  • Wählen Sie sehr komplizierte Daten aus, beispielsweise MNIST-Daten, und passen Sie sie an ein einfaches Modell an, beispielsweise ein lineares Modell mit einem Feature.

  • Wählen Sie einfache Daten aus, z. B. Iris-Daten, die zu einem Komplexitätsmodell passen, z. B. SVM.


Teil 4: Andere Beispiele

Zusätzlich werde ich zwei Beispiele geben, die sich auf Unter- und Überanpassung beziehen. Beachten Sie, dass dies keine Lernkurve ist, sondern die Leistung in Bezug auf die Anzahl der Iterationen im Gradientenverstärkungsmodell , bei dem mehr Iterationen eine höhere Wahrscheinlichkeit für eine Überanpassung haben. Die x-Achse zeigt die Anzahl der Iterationen, und die y-Achse zeigt die Leistung, die negativ ist. Fläche unter ROC (je niedriger, desto besser.)

Die linke Nebenhandlung leidet nicht unter Überanpassung (auch nicht unteranpassung, da die Leistung einigermaßen gut ist), während die rechte Unterhandlung unter Überanpassung leidet, wenn die Anzahl der Iterationen groß ist.

Bildbeschreibung hier eingeben


Vielen Dank, dass Sie hxd1011! Stimmen Sie mir zu, wenn ich sage, dass mein Modell ein wenig abweichend und ein wenig voreingenommen ist (da die Punktzahl nicht 1 ist)?
Afke

@Papie Ich denke, dein Modell ist in Ordnung ... 80% der Punkte sind nicht schlecht und zwei Kurven liegen nahe beieinander. Das einzige Problem ist, dass Beispiele bis zu 350 sind, was in einer realen Anwendung möglicherweise zu klein ist.
Haitao Du

@Papie Sie können auch nicht davon ausgehen, dass Sie ein perfektes Modell haben. Die Punktzahl ist 1. Wie viel Sie erreichen können, hängt davon ab, wie viel Rauschen in Ihren Daten vorhanden ist. Angenommen, Ihre Daten enthalten viele Datenpunkte mit der EXAKT-Funktion, aber unterschiedliche Bezeichnungen, egal was Sie tun, Sie können in der Punktzahl keine 1 erzielen.
Haitao Du

11
Ich denke, dass seine "80% Punktzahl nicht schlecht" keine gute Möglichkeit ist, über Dinge nachzudenken. Es gibt keine gute Gesamtbewertung, sie hängt stark vom zu lösenden Problem ab, insbesondere vom Signal-Rausch-Verhältnis im Prozess und den verfügbaren Daten. Sie weisen in Ihrer Antwort darauf hin, sodass ich den "nicht schlechten" Kommentar entfernen würde.
Matthew Drury

1
@MatthewDrury Danke für Vorschläge, Antwort überarbeitet!
Haitao Du
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.