Ich habe eine Frage zur Modellauswahl und Modellleistung bei der logistischen Regression. Ich habe drei Modelle, die auf drei verschiedenen Hypothesen basieren. Die ersten beiden Modelle (nennen wir sie z und x) haben nur eine erklärende Variable in jedem Modell, und das dritte (nennen wir es w) ist komplizierter. Ich verwende AIC für die Variablenauswahl für das w-Modell und dann AIC für den Vergleich, welches der drei Modelle die abhängige Variable am besten erklärt. Ich habe festgestellt, dass das w-Modell den niedrigsten AIC aufweist, und möchte nun einige Leistungsstatistiken für dieses Modell erstellen, um eine Vorstellung von der Vorhersagekraft des Modells zu erhalten. Ich weiß nur, dass dieses Modell besser ist als die beiden anderen, aber nicht, wie gut es ist.
Da ich alle Daten verwendet habe, um das Modell zu lernen (um alle drei Modelle vergleichen zu können), wie gehe ich mit der Modellleistung vor? Nach dem, was ich gesammelt habe, kann ich nicht einfach eine k-fache Kreuzvalidierung für das endgültige Modell durchführen, das ich aus der Modellauswahl mit AIC erhalten habe, sondern muss mit allen erklärenden Variablen von vorne beginnen. Ist das richtig? Ich würde denken, dass es das endgültige Modell ist, das ich mit AIC ausgewählt habe, und ich möchte wissen, wie gut es funktioniert, aber mir ist klar, dass ich alle Daten trainiert habe, damit das Modell möglicherweise voreingenommen ist. Wenn ich also von vorne mit allen erklärenden Variablen in allen Falten beginnen sollte, erhalte ich für einige Falten unterschiedliche endgültige Modelle. Kann ich einfach das Modell aus der Falte auswählen, das die beste Vorhersagekraft bietet, und dieses auf den vollständigen Datensatz anwenden, um es zu vergleichen AIC mit den beiden anderen Modellen (z und x)? Oder wie geht das?
Der zweite Teil meiner Frage ist eine grundlegende Frage zur Überparametrisierung. Ich habe 156 Datenpunkte, 52 sind 1, der Rest sind 0. Ich habe 14 erklärende Variablen zur Auswahl für das w-Modell. Mir ist klar, dass ich aufgrund von Überparametrisierung nicht alle einbeziehen kann. Ich habe gelesen, dass Sie nur 10% der Gruppe der abhängigen Variablen mit den wenigsten Beobachtungen verwenden sollten wäre nur 5 für mich. Ich versuche, eine Frage in der Ökologie zu beantworten. Ist es in Ordnung, die Startvariablen auszuwählen, die meiner Meinung nach die abhängigen am besten einfach anhand der Ökologie erklären? Oder wie wähle ich die erklärenden Ausgangsvariablen aus? Es fühlt sich nicht richtig an, einige Variablen vollständig auszuschließen.
Ich habe also wirklich drei Fragen:
- Könnte es in Ordnung sein, die Leistung an einem Modell zu testen, das anhand des vollständigen Datensatzes mit Kreuzvalidierung trainiert wurde?
- Wenn nicht, wie wähle ich das endgültige Modell bei der Kreuzvalidierung aus?
- Wie wähle ich die Startvariablen aus, damit ich sie überparametrieren möchte?
Entschuldigung für meine unordentlichen Fragen und meine Unwissenheit. Ich weiß, dass ähnliche Fragen gestellt wurden, aber ich fühle mich immer noch ein wenig verwirrt. Schätzen Sie alle Gedanken und Vorschläge.