Ich arbeite an einer Hausaufgabe, bei der mein Professor möchte, dass wir ein echtes Regressionsmodell erstellen, eine Datenprobe simulieren und er versucht, unser wahres Regressionsmodell mithilfe einiger der Techniken zu finden, die wir im Unterricht gelernt haben. Wir müssen dasselbe mit einem Datensatz tun, den er uns gegeben hat.
Er sagt, dass er in der Lage war, ein ziemlich genaues Modell für alle früheren Versuche zu erstellen, ihn zu betrügen. Es gab einige Studenten, die ein verrücktes Modell erstellten, aber er war wohl in der Lage, ein einfacheres Modell zu erstellen, das gerade ausreichte.
Wie kann ich ein schwieriges Modell entwickeln, das er finden kann? Ich möchte nicht super billig sein, indem ich 4 quadratische Terme, 3 Beobachtungen und massive Varianz mache? Wie kann ich einen scheinbar harmlosen Datensatz erstellen, unter dem sich ein zähes kleines Modell befindet?
Er hat einfach 3 Regeln zu befolgen:
Ihr Datensatz muss eine "Y" -Variable und 20 "X" -Variablen enthalten, die als "Y", "X1", ..., "X20" gekennzeichnet sind.
Ihre Antwortvariable muss aus einem linearen Regressionsmodell stammen, das erfüllt: Y ' i = β 0 + β 1 X ' i 1 + … + β p - 1 X ' i , p - 1 + ϵ i wobei ϵ i ∼ N ( 0 , σ 2 ) und p ≤ 21 .
Alle Variablen, die zum Erstellen von Y verwendet wurden, sind in Ihrem Datensatz enthalten.
Es sollte beachtet werden, dass nicht alle 20 X-Variablen in Ihrem realen Modell enthalten sein müssen
Ich dachte daran, so etwas wie das Fama-French 3-Faktor-Modell zu verwenden und ihn mit den Bestandsdaten (SPX und AAPL) beginnen zu lassen und diese Variablen in die kontinuierlich zusammengesetzten Renditen umzuwandeln, um sie ein wenig mehr zu verschleiern. Aber das lässt mich bei der ersten Beobachtung und den Zeitreihen (die wir im Unterricht noch nicht besprochen haben) mit fehlenden Werten zurück.
Unsicher, ob dies der richtige Ort ist, um so etwas zu posten. Ich hatte das Gefühl, es könnte eine gute Diskussion hervorrufen.
Edit: Ich frage auch nicht nach "vorgefertigten" Modellen. Ich bin neugieriger auf Themen / Tools in der Statistik, die es jemandem ermöglichen würden, dies zu tun.