Ich versuche die Korrelation zwischen einer dichotomen und einer kontinuierlichen Variablen zu finden.
Bei meinen Grundlagenarbeiten habe ich festgestellt, dass ich einen unabhängigen t-Test verwenden muss und die Voraussetzung dafür ist, dass die Verteilung der Variablen normal sein muss.
Ich führte einen Kolmogorov-Smirnov-Test zum Testen der Normalität durch und stellte fest, dass die kontinuierliche Variable nicht normal und verzerrt ist (für etwa 4.000 Datenpunkte).
Ich habe den Kolmogorov-Smirnov-Test für den gesamten Variablenbereich durchgeführt. Soll ich sie in Gruppen aufteilen und den Test machen? Das heißt, wenn ich risk level
( 0
= nicht riskant, 1
= riskant ) und Cholesterinspiegel habe, dann sollte ich:
Teilen Sie sie in zwei Gruppen, wie
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Nehmen Sie sie zusammen und wenden Sie den Test an? (Ich habe es nur für den gesamten Datensatz durchgeführt.)
Welchen Test soll ich danach durchführen, wenn er noch nicht normal ist?
BEARBEITEN: Das obige Szenario war nur eine Beschreibung, die ich versucht habe, für mein Problem bereitzustellen. Ich habe einen Datensatz, der mehr als 1000 Variablen und ungefähr 4000 Proben enthält. Sie sind entweder kontinuierlich oder kategorisch. Meine Aufgabe ist es, eine dichotome Variable basierend auf diesen Variablen vorherzusagen (möglicherweise ein logistisches Regressionsmodell zu entwickeln). Daher dachte ich, dass die erste Untersuchung das Auffinden der Korrelation zwischen dichotomen und einer kontinuierlichen Variablen beinhalten würde.
Ich habe versucht zu sehen, wie die Verteilung der Variablen ist, und daher versucht, zum t-Test zu gehen. Hier fand ich die Normalität als Problem. Der Kolmogorov-Smirnov-Test ergab in den meisten dieser Variablen einen Signifikanzwert von 0,00.
Soll ich hier Normalität annehmen? Die Schiefe und Kurtosis dieser Variablen zeigt auch, dass die Daten in fast allen Fällen verzerrt sind (> 0).
Gemäß der unten angegebenen Anmerkung werde ich die Punkt-Biserial-Korrelation weiter untersuchen. Über die Verteilung der Variablen bin ich mir aber noch nicht sicher.