Ich habe letztes Wochenende Faraway's Lehrbuch Linearmodelle mit R (1. Auflage) gelesen . Faraway hatte ein Kapitel mit dem Titel "Statistische Strategie und Modellunsicherheit". Er beschrieb (Seite 158) , dass er künstlich einige Daten erzeugt ein sehr kompliziertes Modell, dann fragte er seine Studenten , die Daten zu modellieren und die Schüler vorhergesagten Ergebnisse vergleichen vs Leseergebnisse. Leider haben die meisten Schüler die Testdaten überpasst und die vorhergesagten Werte völlig falsch angegeben. Um dieses Phänomen zu erklären, schrieb er mir etwas sehr Beeindruckendes:
"Der Grund, warum die Modelle so unterschiedlich waren, war, dass die Schüler die verschiedenen Methoden in unterschiedlicher Reihenfolge anwendeten. Einige wählten Variablen vor der Transformation aus, andere umgekehrt. Einige wiederholten eine Methode, nachdem das Modell geändert wurde, andere nicht. Ich ging die Strategien durch dass einige der Schüler etwas benutzten und nichts eindeutig falsch finden konnten, was sie getan hatten. Ein Schüler machte einen Fehler bei der Berechnung seiner oder ihrer vorhergesagten Werte, aber im Rest war offensichtlich nichts falsch. Die Leistung bei dieser Aufgabe zeigte sich nicht eine Beziehung dazu in den Prüfungen. "
Ich wurde darauf hingewiesen, dass die Genauigkeit der Modellvorhersage das „goldene Kriterium“ für die Auswahl der besten Modellleistung ist. Wenn ich mich nicht irre, ist dies auch die beliebte Methode bei Kaggle-Wettbewerben. Doch hier stellte Faraway etwas anderes fest, als dass die Modellvorhersage-Leistung nichts zu tun haben könntemit der Fähigkeit des beteiligten Statistikers. Mit anderen Worten, ob wir das beste Modell in Bezug auf die Vorhersagekraft bauen können, hängt nicht wirklich davon ab, wie erfahren wir sind. Stattdessen wird es durch eine große "Modellunsicherheit" (blindes Glück?) Bestimmt. Meine Frage ist: Trifft dies auch auf die Datenanalyse im realen Leben zu? Oder war ich mit etwas sehr Grundlegendem verwechselt? Denn wenn dies zutrifft, ist die Auswirkung auf die Analyse realer Daten immens: Ohne das "reale Modell" hinter den Daten zu kennen, gibt es keinen wesentlichen Unterschied zwischen der Arbeit erfahrener / unerfahrener Statistiker: Beides sind nur wilde Vermutungen die Trainingsdaten zur Verfügung.