Ich habe einen Datensatz mit ~ 400.000 Datensätzen und 9 Variablen analysiert. Die abhängige Variable ist binär. Ich habe eine logistische Regression, einen Regressionsbaum, einen zufälligen Wald und einen Baum mit Gradientenverstärkung angepasst. Alle von ihnen geben praktisch identische Anpassungsgütezahlen an, wenn ich sie in einem anderen Datensatz validiere.
Warum ist das so? Ich vermute, das liegt daran, dass mein Verhältnis von Beobachtungen zu Variablen so hoch ist. Wenn dies richtig ist, bei welchem Verhältnis von Beobachtung zu variablem Verhältnis werden verschiedene Modelle unterschiedliche Ergebnisse liefern?