Soll ich meine Daten neu mischen?


9

Wir haben eine Reihe von biologischen Proben, deren Beschaffung ziemlich teuer war. Wir haben diese Beispiele einer Reihe von Tests unterzogen, um Daten zu generieren, die zum Erstellen eines Vorhersagemodells verwendet werden. Zu diesem Zweck haben wir die Stichproben in Trainings- (70%) und Testsätze (30%) unterteilt. Wir haben erfolgreich ein Modell erstellt und es auf das Test-Set angewendet, um festzustellen, dass die Leistung "nicht optimal" war. Die Experimentatoren wollen nun die biologischen Tests verbessern, um ein besseres Modell zu erstellen. Sofern wir keine neuen Proben erhalten können, empfehlen Sie uns, die Proben neu zu mischen, um neue Trainings- und Validierungssätze zu erstellen oder bei der ursprünglichen Abteilung zu bleiben. (Wir haben keinen Hinweis darauf, dass die Aufteilung problematisch war).


1
Wie haben Sie die Daten aufgeteilt? Zufällig von Hand oder eine andere Methode? In Wahrheit ist der Teil über "erfolgreich ein Modell erstellt" ein VIEL größerer Teil des Problems. Bevor Sie teure Dinge tun, sollten Sie prüfen, ob Sie den geeigneten Modelltyp verwenden, ob Sie Ihre Trainingsdaten überanpassen und ob Sie über die entsprechenden Daten für das verfügen, was Sie vorhersagen möchten.
Wayne

Übrigens habe ich vergessen, den Zynismus-Modus
einzuschalten,

Antworten:


12

Da Sie bereits ein Holdout-Beispiel verwenden, sollten Sie es behalten und Ihre neuen Modelle auf demselben Trainingsbeispiel aufbauen, damit alle Modelle die gleichen Beziehungen zwischen den Funktionen berücksichtigen. Wenn Sie eine Feature-Auswahl durchführen, müssen die Samples außerdem vor einer dieser Filterstufen weggelassen werden. Das heißt, die Merkmalsauswahl muss in die Kreuzvalidierungsschleife aufgenommen werden.

Bemerkenswerterweise gibt es leistungsfähigere Methoden als eine Aufteilung von 0,67 / 0,33 für die Modellauswahl, nämlich eine k-fache Kreuzvalidierung oder ein Auslassen. Siehe z . B. Die Elemente des statistischen Lernens (§7.10, S. 241-248), www.modelselection.org oder Eine Übersicht über Kreuzvalidierungsverfahren für die Modellauswahl von Arlot und Celisse (fortgeschrittener mathematischer Hintergrund erforderlich).

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.