Nichtparametrisches Maß für die Stärke der Assoziation zwischen einer Ordnungszahl und einer kontinuierlichen Zufallsvariablen


12

Ich werfe hier das Problem, wie ich es erhalten habe.

Ich habe zwei Zufallsvariablen. Eines davon ist stetig (Y) und das andere ist diskret und wird als Ordnungszahl (X) angegangen . Ich habe unter die Handlung gesetzt, die ich zusammen mit der Anfrage erhalten habe.

Geben Sie hier die Bildbeschreibung ein

Die Person, die mir die Daten sendet, möchte die Stärke der Assoziation zwischen X und Y messen. Ich suche nach Ideen, die nicht mit Annahmen darüber beladen werden, welcher Prozess die Daten generiert hat. Beachten Sie, dass es nicht darum geht, einen nicht parametrischen Weg zu finden um die Stärke der Beziehung testen (wie im Bootstrap), sondern darum, einen nicht parametrischen Weg zu finden, um sie zu messen .

Auf der anderen Seite ist Effizienz kein Problem, da es viele Datenpunkte gibt.


1
Ist X (die diskrete Variable) ordinal oder nicht?
Peter Flom - Reinstate Monica

@ PeterFlom: Danke. Ja. Ich füge dies der Frage hinzu.
user603

Meinen Sie mit "nichtparametrisch" hier, dass keine Berechnung des Mittelwerts oder der Varianz zulässig ist?
ttnphns

Antworten:


7

Per Definition ist die Ordnungsskala das Messgerät, bei dem der wahre Abstand zwischen den Kerben 1 2 3 4unbekannt ist. Es ist, als würden Sie ein Lineal unter Drogen / Alkohol sehen. Die wahren Entfernungen können beliebig sein. Es könnte sein 1 2 3 4oder 1 2 3 4oder was auch immer. Wir können eine Statistik - wie eine Korrelation - nur berechnen, wenn wir uns für die Entfernungen entscheiden und diese korrigieren.

rrhorrhÖr

rr". Eine optimale Skalierung kann in der kategorialen Regression (CATREG) durchgeführt werden. Die kategoriale Regression erfordert jedoch, dass die andere Eingabevariable diskret (nicht unbedingt ordinal) ist. Wenn sie also kontinuierlich ist und viele eindeutige Werte aufweist, muss sie von Ihnen willkürlich gruppiert werden .

Es gibt auch andere Ansätze. Aber in irgendeiner Weise transformieren wir die Ordnungsskala monoton "um ..." (eine Annahme oder ein Ziel), weil die Ordnungsskala auf unbekannte Weise zu uns verzerrt ist. Radikal gesehen wäre eine andere Entscheidung, zuerst "nüchtern" zu werden und zu entscheiden, dass es entweder nicht verzerrt ist (dh es ist ein Intervall) oder auf bekannte Weise verzerrt ist (kein Intervall ist) oder nominal ist.

Einige asymmetrische Ansätze können die ordinale Regression der ordinalen Variablen durch die andere (Intervall / kontinuierlich) umfassen. Oder lineare Regression des letzteren durch die Ordnungszahl, wobei das Modell, bei dem der Prädiktor als Polynomkontrast verwendet wird (dh als eingegeben wird b1X + b2X^2 + b3X^3,...). Die Schwäche dieser Ansätze besteht darin, dass sie asymmetrisch sind: Eine Variable ist abhängig, die andere ist unabhängig.


Vielen Dank; Sehr gute Idee, die Ränge nur für eine der Variablen zu berechnen.
user603

6

dich=xich- -yichxichyich

rS.=1- -6ich=1ndich2n(n2- -1)

Wenn Monotonie eine zu strenge Annahme ist, frage ich mich, ob Ansätze, die auf maximalen Informationen basieren, wie die von Reshef (2011, 2013) vorgeschlagenen, die nicht einmal funktionale Beziehungen zwischen annehmenX.Y. könnte eher so sein, wie Sie es suchen?


Verweise

Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M. und Sabeti, P. (2011). Erkennung neuartiger Assoziationen in großen Datenmengen. Science , 334 (6062): 1518–1524.

Reshef, D., Reshef, Y., Mitzenmacher, M. und Sabeti, P. (2013). Gleichheitsanalyse des maximalen Informationskoeffizienten mit Vergleichen . arXiv , 14. August.


Beide sehen nach sehr guten Ideen aus. Tatsächlich ergänzen sich die beiden von Ihnen vorgeschlagenen Ansätze sogar . Ich werde die Frage noch eine Weile offen lassen.
user603
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.