Ich bin nicht sicher, wo diese Frage hingehört: Cross Validated oder The Workplace. Aber meine Frage hängt vage mit der Statistik zusammen.
Diese Frage (oder ich nehme an, Fragen) stellte sich während meiner Arbeit als "Praktikant im Bereich Data Science". Ich habe dieses lineare Regressionsmodell erstellt und die Restkurve untersucht. Ich sah deutliche Anzeichen von Heteroskedastizität. Ich erinnere mich, dass die Heteroskedastizität viele Teststatistiken wie das Konfidenzintervall und den T-Test verzerrt. Also habe ich nach dem, was ich am College gelernt habe, das gewichtete kleinste Quadrat verwendet. Mein Vorgesetzter hat das gesehen und mir geraten, das nicht zu tun, weil "ich die Dinge kompliziert gemacht habe", was für mich überhaupt kein sehr überzeugender Grund war.
Ein anderes Beispiel wäre "Entfernen einer erklärenden Variablen, da ihr p-Wert unerheblich ist". Dieser Rat ist aus logischer Sicht einfach nicht sinnvoll. Nach dem, was ich gelernt habe, kann ein unbedeutender p-Wert verschiedene Gründe haben: Zufall, Verwendung des falschen Modells, Verletzung der Annahmen usw.
Ein weiteres Beispiel ist, dass ich mein Modell mithilfe der k-fachen Kreuzvalidierung evaluiert habe. Entsprechend dem Ergebnis ist gerade viel besser als C V m o d e l 2 . Aber wir haben ein niedrigeres R 2 für Modell 1, und der Grund hat etwas mit dem Achsenabschnitt zu tun . Mein Vorgesetzter scheint jedoch Modell 2 zu bevorzugen, da es ein höheres R 2 aufweist . Seine Gründe (wie R 2 ist robust, oder Kreuzvalidierung ist ein Ansatz des maschinellen Lernens, kein statistischer Ansatz.) Scheine einfach nicht überzeugend genug zu sein, um meine Meinung zu ändern.
Als jemand, der gerade sein Studium abgeschlossen hat, bin ich sehr verwirrt. Ich bin sehr leidenschaftlich darin, korrekte Statistiken anzuwenden, um Probleme der realen Welt zu lösen, aber ich weiß nicht, welche der folgenden Aussagen zutreffen:
- Die Statistiken, die ich selbst gelernt habe, sind einfach falsch, also mache ich nur Fehler.
- Es gibt einen großen Unterschied zwischen theoretischer Statistik und Gebäudemodellen in Unternehmen. Und obwohl die Statistiktheorie richtig ist, folgen die Leute ihr einfach nicht.
- Der Manager verwendet die Statistiken nicht richtig.
Update am 17.04.2017: Ich habe mich für eine Promotion entschieden. in der Statistik. Vielen Dank für Ihre Antwort.