Korrelation zwischen dichotomer und kontinuierlicher Variable

Ich versuche die Korrelation zwischen einer dichotomen und einer kontinuierlichen Variablen zu finden.

Bei meinen Grundlagenarbeiten habe ich festgestellt, dass ich einen unabhängigen t-Test verwenden muss und die Voraussetzung dafür ist, dass die Verteilung der Variablen normal sein muss.

Ich führte einen Kolmogorov-Smirnov-Test zum Testen der Normalität durch und stellte fest, dass die kontinuierliche Variable nicht normal und verzerrt ist (für etwa 4.000 Datenpunkte).

Ich habe den Kolmogorov-Smirnov-Test für den gesamten Variablenbereich durchgeführt. Soll ich sie in Gruppen aufteilen und den Test machen? Das heißt, wenn ich risk level( 0= nicht riskant, 1= riskant ) und Cholesterinspiegel habe, dann sollte ich:

Teilen Sie sie in zwei Gruppen, wie

Risk level =0 (Cholestrol level) -> Apply KS
Risk level =1 (Cholestrol level) -> Apply KS

Nehmen Sie sie zusammen und wenden Sie den Test an? (Ich habe es nur für den gesamten Datensatz durchgeführt.)

Welchen Test soll ich danach durchführen, wenn er noch nicht normal ist?

BEARBEITEN: Das obige Szenario war nur eine Beschreibung, die ich versucht habe, für mein Problem bereitzustellen. Ich habe einen Datensatz, der mehr als 1000 Variablen und ungefähr 4000 Proben enthält. Sie sind entweder kontinuierlich oder kategorisch. Meine Aufgabe ist es, eine dichotome Variable basierend auf diesen Variablen vorherzusagen (möglicherweise ein logistisches Regressionsmodell zu entwickeln). Daher dachte ich, dass die erste Untersuchung das Auffinden der Korrelation zwischen dichotomen und einer kontinuierlichen Variablen beinhalten würde.

Ich habe versucht zu sehen, wie die Verteilung der Variablen ist, und daher versucht, zum t-Test zu gehen. Hier fand ich die Normalität als Problem. Der Kolmogorov-Smirnov-Test ergab in den meisten dieser Variablen einen Signifikanzwert von 0,00.

Soll ich hier Normalität annehmen? Die Schiefe und Kurtosis dieser Variablen zeigt auch, dass die Daten in fast allen Fällen verzerrt sind (> 0).

Gemäß der unten angegebenen Anmerkung werde ich die Punkt-Biserial-Korrelation weiter untersuchen. Über die Verteilung der Variablen bin ich mir aber noch nicht sicher.

— Sree Aurovindh
quelle

Die Korrelation (jeglicher Art) zwischen einem Kontinuum und einer binären (Gruppen-) Variablen ist nicht viel mehr (und vielleicht weniger ...) als nur ein Vergleich der Mittelwerte (eine Art Mittelwert ...) zwischen den Gruppen, so gewöhnlich es sollte besser sein, das einfach zu tun!

— kjetil b halvorsen

Antworten:

Ich bin ein bisschen verwirrt; Ihr Titel sagt "Korrelation", aber Ihr Beitrag bezieht sich auf T-Tests. Ein T-Test ist ein Test der zentralen Position - unterscheidet sich der Mittelwert eines Datensatzes vom Mittelwert eines anderen Datensatzes? Die Korrelation zeigt andererseits die Beziehung zwischen zwei Variablen. Es gibt eine Vielzahl von Korrelationsmaßen. In Ihrem Fall scheint eine Punkt-Biserial-Korrelation angemessen zu sein.

Sie haben Recht, dass ein T-Test Normalität voraussetzt; Es ist jedoch wahrscheinlich, dass die Normalitätstests selbst für triviale Nichtnormalitäten mit einem N von 4000 signifikante Ergebnisse liefern. T-Tests sind ziemlich robust gegenüber geringfügigen Abweichungen von der Normalität, wenn die Varianzen der beiden Datensätze ungefähr gleich sind und die Stichprobe Größen ungefähr gleich. Ein nichtparametrischer Test ist jedoch für Ausreißer robuster und die meisten von ihnen haben eine fast so hohe Leistung wie der t-Test, selbst wenn die Verteilungen normal sind.

In Ihrem Beispiel verwenden Sie "Cholesterin" jedoch als riskant oder nicht riskant. Dies ist mit ziemlicher Sicherheit eine schlechte Idee. Die Dichotomisierung einer kontinuierlichen Variablen ruft magisches Denken hervor. Es heißt, dass Cholesterin irgendwann von "nicht riskant" zu "riskant" wechselt. Angenommen, Sie haben 200 als Cutoff verwendet - dann sagen Sie, dass jemand mit einem Cholesterinspiegel von 201 genau wie jemand mit 400 und jemand mit 199 wie jemand mit 100 ist. Dies macht keinen Sinn.

— Peter Flom - Monica wieder einsetzen
quelle

Ich stimme zu, und ich denke, die meisten von uns stimmen zu, dass die Dichotomisierung Informationen verschwendet und dass es sich um eine grobe, grobe oder ungeschickte Methode handeln kann. Ich denke nur, dass das Argument "magisches Denken" ein wenig übertrieben ist. Sich dafür zu entscheiden, einen Unterschied zu beschönigen, ist nicht dasselbe wie zu glauben, dass es keinen Unterschied gibt. Ich gehe davon aus, dass es Zeiten geben wird, in denen ich es für zweckmäßig und lohnenswert halte, Kategorien aus einer kontinuierlichen Variablen zu erstellen, entweder für Analyse- oder Berichtszwecke. Nur meine 2 Cent.

— Rolando2

R^{2}

$R^2$

Vereinfachen wir die Dinge. Mit N = 4.000 für den Cholesterinspiegel sollten Sie kein Problem damit haben, dass Ihre Ergebnisse durch Ausreißer verzerrt werden. Daher können Sie die Korrelation selbst verwenden, wie in Ihrem Anfangssatz impliziert. Es spielt keine Rolle, ob Sie die Korrelation mit der Pearson-, Spearman- oder Point-Biserial-Methode bewerten.

Wenn Sie stattdessen wirklich Ergebnisse in Bezug auf den typischen Cholesterinunterschied zwischen Hochrisiko- und Niedrigrisikogruppen formulieren müssen, ist der Mann-Whitney-U-Test in Ordnung, aber Sie können auch den informativeren t- Test verwenden. Mit diesem N (und auch mit astronomischen Ausreißern, die Sie zweifellos ausschließen können) müssen Sie sich keine Sorgen machen, dass der Mangel an Normalität Ihre Ergebnisse beeinträchtigt.

— rolando2
quelle

Danke für deine Antwort. Aber wenn ich wissen muss, dass die Ausreißer eine große Verzerrung verursachen, ist es richtig, Kurtosis und Schiefe zu verwenden, um sie zu erkennen? Falls dies über den Werten für Kurtosis und Skewness zutrifft, sollte ich davon ausgehen, dass die Verteilung nicht normal ist. Vielen Dank für Ihre Antwort

— Sree Aurovindh

Ich gehe davon aus, dass Sie mit Cholesterin aufgrund begrenzter inhaltlicher Kenntnisse keine Werte haben, die um viele Größenordnungen höher sind als die anderen. Deshalb denke ich, dass Sie eine parametrische Methode wie Korrelation oder einen T-Test verwenden können. Es ist nicht so, dass ich die Verteilung für normal halte. Du brauchst es nicht, um normal zu sein. Übrigens, angesichts der Antwort von Peter: Ich habe geglaubt (und gehofft), dass Sie eine Quelle für den Status mit hohem / niedrigem Risiko hatten, die unabhängig vom Cholesterinwert war. Ich stimme zu, dass es wahrscheinlich nicht hilfreich ist, zu dichotomisieren.

— Rolando2

Darf ich vorschlagen, dass Sie Ihrer ursprünglichen Frage einen Abschnitt mit der Bezeichnung "BEARBEITEN: ..." hinzufügen, in dem dargelegt wird, welche Fragen für Sie noch offen sind, die in den Antworten und Kommentaren, die Sie bisher erhalten haben, nicht behandelt wurden.

— Rolando2

Vielen Dank für Ihren Vorschlag. Ich habe das gleiche aktualisiert. Tut mir leid für mehrdeutige Fragen an erster Stelle. Danke

— Sree Aurovindh