Was passiert, wenn die Erklärungs- und Antwortvariablen vor der Regression unabhängig voneinander sortiert werden?


302

Angenommen, wir haben einen Datensatz mit Punkten. Wir wollen eine lineare Regression durchführen, aber zuerst sortieren wir die Werte und die Werte unabhängig voneinander und bilden einen Datensatz . Gibt es eine sinnvolle Interpretation der Regression auf den neuen Datensatz? Hat das einen Namen?n X i Y i ( X i , Y j )(Xi,Yi)nXiYi(Xi,Yj)

Ich stelle mir vor, dass dies eine dumme Frage ist, also entschuldige ich mich, ich bin nicht offiziell in Statistik ausgebildet. In meinen Augen zerstört dies unsere Daten vollständig und die Regression ist bedeutungslos. Aber mein Manager sagt, dass er "die meiste Zeit bessere Regressionen" bekommt, wenn er dies tut (hier bedeutet "besser" voraussagender). Ich habe das Gefühl, er täuscht sich.

EDIT: Vielen Dank für all Ihre netten und geduldigen Beispiele. Ich habe ihm die Beispiele von @ RUser4512 und @gung gezeigt und er bleibt standhaft. Er wird gereizt und ich werde erschöpft. Ich fühle mich niedergeschlagen. Ich werde wahrscheinlich bald nach anderen Jobs suchen.


120
Aber mein Manager sagt, dass er "die meiste Zeit bessere Regressionen" bekommt, wenn er dies tut. Oh Gott ...
Jake Westfall

56
Es gibt sicherlich keinen Grund für Sie , sich verlegen zu fühlen!
Jake Westfall

36
"Wissenschaft ist das, was wir wollen." - Dr. Leo Spaceman.
Sycorax,

52
Diese Idee muss mit einer anderen konkurrieren, auf die ich gestoßen bin: Wenn Ihre Stichprobe klein ist, mischen Sie sie einfach mit mehreren Kopien derselben Daten.
Nick Cox

47
Sie sollten Ihrem Chef sagen, dass Sie eine bessere Idee haben. Anstatt die tatsächlichen Daten zu verwenden, erstellen Sie einfach Ihre eigenen, da die Modellierung einfacher ist.
Dsaxton

Antworten:


147

Ich bin mir nicht sicher, was Ihr Chef unter "prädiktiver" versteht. Viele Menschen glauben fälschlicherweise , dass niedrigere Werte ein besseres / prädiktiveres Modell bedeuten. Das ist nicht unbedingt wahr (dies ist ein typisches Beispiel). Das unabhängige Sortieren beider Variablen im Voraus garantiert jedoch einen niedrigeren Wert. Auf der anderen Seite können wir die Vorhersagegenauigkeit eines Modells beurteilen, indem wir seine Vorhersagen mit neuen Daten vergleichen, die durch denselben Prozess generiert wurden. Ich mache das unten in einem einfachen Beispiel (mit ). pppR

options(digits=3)                       # for cleaner output
set.seed(9149)                          # this makes the example exactly reproducible

B1 = .3
N  = 50                                 # 50 data
x  = rnorm(N, mean=0, sd=1)             # standard normal X
y  = 0 + B1*x + rnorm(N, mean=0, sd=1)  # cor(x, y) = .31
sx = sort(x)                            # sorted independently
sy = sort(y)
cor(x,y)    # [1] 0.309
cor(sx,sy)  # [1] 0.993

model.u = lm(y~x)
model.s = lm(sy~sx)
summary(model.u)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.021      0.139   0.151    0.881
# x              0.340      0.151   2.251    0.029  # significant
summary(model.s)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.162     0.0168    9.68 7.37e-13
# sx             1.094     0.0183   59.86 9.31e-47  # wildly significant

u.error = vector(length=N)              # these will hold the output
s.error = vector(length=N)
for(i in 1:N){
  new.x      = rnorm(1, mean=0, sd=1)   # data generated in exactly the same way
  new.y      = 0 + B1*x + rnorm(N, mean=0, sd=1)
  pred.u     = predict(model.u, newdata=data.frame(x=new.x))
  pred.s     = predict(model.s, newdata=data.frame(x=new.x))
  u.error[i] = abs(pred.u-new.y)        # these are the absolute values of
  s.error[i] = abs(pred.s-new.y)        #  the predictive errors
};  rm(i, new.x, new.y, pred.u, pred.s)
u.s = u.error-s.error                   # negative values means the original
                                        # yielded more accurate predictions
mean(u.error)  # [1] 1.1
mean(s.error)  # [1] 1.98
mean(u.s<0)    # [1] 0.68


windows()
  layout(matrix(1:4, nrow=2, byrow=TRUE))
  plot(x, y,   main="Original data")
  abline(model.u, col="blue")
  plot(sx, sy, main="Sorted data")
  abline(model.s, col="red")
  h.u = hist(u.error, breaks=10, plot=FALSE)
  h.s = hist(s.error, breaks=9,  plot=FALSE)
  plot(h.u, xlim=c(0,5), ylim=c(0,11), main="Histogram of prediction errors",
       xlab="Magnitude of prediction error", col=rgb(0,0,1,1/2))
  plot(h.s, col=rgb(1,0,0,1/4), add=TRUE)
  legend("topright", legend=c("original","sorted"), pch=15, 
         col=c(rgb(0,0,1,1/2),rgb(1,0,0,1/4)))
  dotchart(u.s, color=ifelse(u.s<0, "blue", "red"), lcolor="white",
           main="Difference between predictive errors")
  abline(v=0, col="gray")
  legend("topright", legend=c("u better", "s better"), pch=1, col=c("blue","red"))

Bildbeschreibung hier eingeben

Das Diagramm oben links zeigt die Originaldaten. Es gibt eine gewisse Beziehung zwischen und (die Korrelation beträgt nämlich etwa ). Das Diagramm oben rechts zeigt, wie die Daten aussehen, nachdem beide Variablen unabhängig voneinander sortiert wurden. Sie können leicht erkennen, dass die Stärke der Korrelation erheblich zugenommen hat (sie liegt jetzt bei ). In den unteren Darstellungen sehen wir jedoch, dass die Verteilung der Vorhersagefehler für das auf den ursprünglichen (unsortierten) Daten trainierte Modell viel näher bei . Der mittlere absolute Vorhersagefehler für das Modell, das die Originaldaten verwendet hat, beträgt , während der mittlere absolute Vorhersagefehler für das auf den sortierten Daten trainierte Modell beträgty .31 .99 0 1.1 1.98 y 68 %xy.31.9901.11.98- fast doppelt so groß. Dies bedeutet, dass die Vorhersagen des sortierten Datenmodells viel weiter von den korrekten Werten entfernt sind. Das Diagramm im unteren rechten Quadranten ist ein Punktdiagramm. Es zeigt die Unterschiede zwischen dem Vorhersagefehler mit den Originaldaten und den sortierten Daten an. Auf diese Weise können Sie die beiden entsprechenden Vorhersagen für jede neue simulierte Beobachtung vergleichen. Blaue Punkte links sind Zeiten, in denen die ursprünglichen Daten näher am neuen Wert lagen , und rote Punkte rechts sind Zeiten, in denen die sortierten Daten bessere Vorhersagen lieferten. In der Fälle gab es genauere Vorhersagen aus dem Modell, die auf den ursprünglichen Daten beruhten . y68%


Inwieweit das Sortieren diese Probleme verursacht, hängt von der linearen Beziehung ab, die in Ihren Daten besteht. Wenn die Korrelation zwischen und bereits wäre, hätte die Sortierung keine Auswirkung und wäre daher nicht schädlich. Wenn andererseits die Korrelationy 1,0 - 1,0xy1.01.0würde die Sortierung die Beziehung vollständig umkehren und das Modell so ungenau wie möglich machen. Wenn die Daten ursprünglich vollständig unkorreliert wären, hätte die Sortierung eine mittlere, aber immer noch ziemlich große nachteilige Auswirkung auf die Vorhersagegenauigkeit des resultierenden Modells. Da Sie erwähnen, dass Ihre Daten normalerweise korreliert sind, habe ich den Verdacht, dass dies einen gewissen Schutz gegen die mit diesem Verfahren verbundenen Schäden bietet. Trotzdem ist es definitiv schädlich, zuerst zu sortieren. Um diese Möglichkeiten zu erkunden, können wir einfach den obigen Code mit unterschiedlichen Werten für B1(unter Verwendung des gleichen Startwerts für die Reproduzierbarkeit) erneut ausführen und die Ausgabe untersuchen:

  1. B1 = -5:

    cor(x,y)                            # [1] -0.978
    summary(model.u)$coefficients[2,4]  # [1]  1.6e-34  # (i.e., the p-value)
    summary(model.s)$coefficients[2,4]  # [1]  1.82e-42
    mean(u.error)                       # [1]  7.27
    mean(s.error)                       # [1] 15.4
    mean(u.s<0)                         # [1]  0.98
    
  2. B1 = 0:

    cor(x,y)                            # [1] 0.0385
    summary(model.u)$coefficients[2,4]  # [1] 0.791
    summary(model.s)$coefficients[2,4]  # [1] 4.42e-36
    mean(u.error)                       # [1] 0.908
    mean(s.error)                       # [1] 2.12
    mean(u.s<0)                         # [1] 0.82
    
  3. B1 = 5:

    cor(x,y)                            # [1] 0.979
    summary(model.u)$coefficients[2,4]  # [1] 7.62e-35
    summary(model.s)$coefficients[2,4]  # [1] 3e-49
    mean(u.error)                       # [1] 7.55
    mean(s.error)                       # [1] 6.33
    mean(u.s<0)                         # [1] 0.44
    

12
Ihre Antwort macht einen sehr guten Punkt, aber vielleicht nicht so klar, wie es könnte und sollte. Es ist für einen Laien (wie zum Beispiel den OP-Manager) nicht unbedingt offensichtlich, was all diese Handlungen am Ende (ohne Rücksicht auf den R-Code) tatsächlich zeigen und implizieren. IMO, Ihre Antwort könnte wirklich einen oder zwei erklärende Absätze gebrauchen.
Ilmari Karonen

3
Vielen Dank für Ihren Kommentar, @IlmariKaronen. Können Sie mir Vorschläge machen, um etwas hinzuzufügen? Ich habe versucht, den Code so selbsterklärend wie möglich zu gestalten und habe ihn ausführlich kommentiert. Aber ich bin möglicherweise nicht mehr in der Lage, diese Dinge mit den Augen von jemandem zu sehen, der mit diesen Themen nicht vertraut ist. Ich werde einen Text hinzufügen, um die Grundstücke unten zu beschreiben. Wenn Ihnen noch etwas einfällt, lassen Sie es mich bitte wissen.
gung

13
+1 Dies ist immer noch die einzige Antwort, die sich mit der vorgeschlagenen Situation befasst: Wenn zwei Variablen bereits eine positive Assoziation aufweisen, ist es dennoch ein Fehler, die unabhängig sortierten Werte zu regressieren. Alle anderen Antworten gehen davon aus, dass es keine Assoziation gibt oder dass sie tatsächlich negativ ist. Obwohl sie gute Beispiele sind, werden sie nicht überzeugen, da sie nicht zutreffen. Was uns jedoch immer noch fehlt, ist ein intuitives, reales Beispiel für Daten auf Darmebene wie die hier simulierten, bei denen die Art des Fehlers auf peinliche Weise offensichtlich ist.
whuber

8
+1 für nicht von der Orthodoxie beeinflusstes
Verhalten

@dsaxton benutze ich <-manchmal, aber mein Ziel bei CV ist es, R-Code so nahe wie möglich am Pseudocode zu schreiben, damit er für Leute, die mit R. nicht vertraut sind, besser lesbar =ist .
gung

103

Wenn Sie Ihren Chef überzeugen möchten, können Sie mit simulierten, zufälligen, unabhängigen Daten zeigen, was passiert . Mit R:x,yBildbeschreibung hier eingeben

n <- 1000

y<- runif(n)
x <- runif(n)

linearModel <- lm(y ~ x)


x_sorted <- sort(x)
y_sorted <- sort(y)

linearModel_sorted <- lm(y_sorted ~ x_sorted)

par(mfrow = c(2,1))
plot(x,y, main = "Random data")
abline(linearModel,col = "red")


plot(x_sorted,y_sorted, main = "Random, sorted data")
abline(linearModel_sorted,col = "red")

Offensichtlich bieten die sortierten Ergebnisse eine viel schönere Regression. In Anbetracht des Prozesses, mit dem die Daten generiert wurden (zwei unabhängige Stichproben), ist es jedoch absolut unwahrscheinlich, dass eine zur Vorhersage der anderen verwendet werden kann.


8
Es ist fast wie im ganzen Internet "vor vs nach" Werbung :)
Tim

Dies ist ein gutes Beispiel, aber es wird ihn nicht überzeugen, da unsere Daten vor dem Sortieren eine positive Korrelation aufweisen. Das Sortieren "verstärkt" nur die Beziehung (wenn auch eine falsche).
beliebiger Benutzer

17
@arbitraryuser: Nun, sortierte Daten zeigen immer eine positive (nun, nicht negative) Korrelation, unabhängig davon, welche Korrelation die ursprünglichen Daten hatten. Wenn Sie wissen, dass die Originaldaten ohnehin immer eine positive Korrelation haben, dann ist sie "zufällig korrekt" - aber warum sollten Sie sich überhaupt die Mühe machen, die Korrelation zu überprüfen, wenn Sie bereits wissen, dass sie sowieso vorhanden und positiv sind? Der Test, den Ihr Manager durchführt, ist ein bisschen wie ein "Luftqualitätsdetektor", der immer "atmungsaktive Luft erkannt" anzeigt - er funktioniert perfekt, solange Sie ihn nie an einem Ort einsetzen, an dem keine atmungsaktive Luft vorhanden ist.
Ilmari Karonen

2
@arbitraryuser Ein weiteres Beispiel, das Sie überzeugender finden könnten, ist x = 0: 50 und y = 0: -50, eine perfekte Linie mit Steigung -1. Wenn Sie sie sortieren, verwandelt sich die Beziehung in eine perfekte Linie mit Steigung 1. Wenn die Wahrheit ist, dass Ihre Variablen sich in perfekter Opposition unterscheiden, und Sie ein Richtlinienrezept auf der Grundlage Ihrer irrtümlichen Wahrnehmung erstellen, dass sie sich in perfekter Übereinstimmung unterscheiden, werden Sie es sein genau das Falsche tun.
John Rauser

99

Ihre Intuition ist richtig: Die unabhängig sortierten Daten haben keine verlässliche Bedeutung, da die Ein- und Ausgänge zufällig aufeinander abgebildet werden und nicht die beobachtete Beziehung.

Es besteht eine (gute) Chance, dass die Regression der sortierten Daten gut aussieht, sie ist jedoch im Kontext bedeutungslos.

Intuitives Beispiel: Nehmen Sie einen Datensatz für eine Population an. Das Diagramm der unverfälschten Daten würde wahrscheinlich eher wie eine logarithmische oder Potenzfunktion aussehen: schnellere Wachstumsraten für Kinder, die sich für spätere Jugendliche verlangsamen, und "asymptotisch" die maximale Körpergröße für junge Erwachsene und ältere erreichen.(X=age,Y=height)

Wenn wir in aufsteigender Reihenfolge sortieren , wird der Graph wahrscheinlich nahezu linear sein. Die Vorhersagefunktion ist also, dass die Menschen ihr ganzes Leben lang größer werden. Ich würde kein Geld auf diesen Vorhersagealgorithmus setzen. x,y


25
+ 1 - aber ich würde das "Wesentliche" fallen lassen und das "Bedeutungslose" erneut betonen.
whuber

12
Beachten Sie, dass sich das OP darauf bezieht, die Daten unabhängig zu sortieren , anstatt sie zu mischen . Dies ist ein subtiler, aber wichtiger Unterschied, da er sich auf die beobachtete "Beziehung" bezieht, die man nach Anwendung der gegebenen Operation sehen würde.
Kardinal

3
Das Beispiel, das Sie hinzugefügt haben, verwirrt mich. Wenn das Alter und die Größe ist, sind beide Variablen bereits geordnet: Das Alter oder die Größe von niemandem nimmt ab. Das Sortieren würde also überhaupt keine Wirkung haben. Cc an @JakeWestfall, der kommentierte, dass ihm dieses Beispiel gefallen hat. Können Sie erklären? xy
Amöbe

12
@amoeba Trivialer Datensatz: durchschnittlicher Teenager, Mitte 30 NBA-Zentrum, ältere durchschnittliche Frau. Nach dem Sortieren lautet der Vorhersagealgorithmus, dass der älteste der höchste ist.
d0rmLife

1
@amoeba Ich sehe, wie es so interpretiert werden könnte, werde ich klären.
d0rmLife

40

Lassen Sie uns das wirklich klar und einfach machen. Angenommen, ich führe ein Experiment durch, bei dem ich 1 Liter Wasser in einem standardisierten Behälter und die im Behälter verbleibende Wassermenge als Funktion der Zeit , des Wasserverlusts durch Verdunstung, betrachte:Viti

Angenommen, ich erhalte die folgenden Maße in Stunden bzw. Litern: Dies sind ganz offensichtlich perfekt korrelierte (und hypothetische) Daten. Wenn ich jedoch die Zeit- und Volumenmessungen sortieren würde, würde ich Und die Schlussfolgerung aus diesem sortierten Datensatz ist, dass mit zunehmender Zeit das Wasservolumen zunimmt und dass ab 1 Liter Wasser nach 5 Stunden Wartezeit mehr als 1 Liter Wasser anfällt. Ist das nicht bemerkenswert? Die Schlussfolgerung steht nicht nur im Gegensatz zu den ursprünglichen Daten, sondern lässt auch darauf schließen, dass wir eine neue Physik entdeckt haben! (ti,Vi)

(0,1.0),(1,0.9),(2,0.8),(3,0.7),(4,0.6),(5,0.5).
(0,0.5),(1,0.6),(2,0.7),(3,0.8),(4,0.9),(5,1.0).

5
Schönes intuitives Beispiel! Bis auf die letzte Zeile. Mit den ursprünglichen Daten würden wir nach und nach ein negatives Volumen erhalten, was genauso gut eine neue Physik ist. Eine Regression kann man nie wirklich hochrechnen.
Jongsma

22

Es ist eine echte Kunst und setzt ein echtes Verständnis der Psychologie voraus, um einige Menschen von dem Fehler ihres Weges überzeugen zu können. Neben all den hervorragenden Beispielen oben ist es manchmal eine nützliche Strategie, zu zeigen, dass der Glaube einer Person zu einer Inkonsistenz mit sich selbst führt. Oder probieren Sie diesen Ansatz. Finden Sie heraus, woran Ihr Chef fest glaubt, wie die Leistung von Personen bei Aufgabe Y in keinem Zusammenhang mit dem Wert eines Attributs X steht, das sie besitzen. Zeigen Sie, wie der eigene Ansatz Ihres Chefs zu einer starken Assoziation zwischen X und Y führen würde. Profitieren Sie von politischen, rassischen und religiösen Überzeugungen.

Gesichtsinvalidität hätte reichen sollen. Was für ein störrischer Chef. In der Zwischenzeit auf der Suche nach einem besseren Job. Viel Glück.


12

Noch ein Beispiel. Stellen Sie sich vor, Sie haben zwei Variablen, eine, die mit dem Verzehr von Schokolade zusammenhängt, und eine, die mit dem allgemeinen Wohlbefinden zusammenhängt. Sie haben zwei Beispiele und Ihre Daten sehen wie folgt aus:

chocolateno happinessno chocolatehappiness

Wie ist das Verhältnis von Schokolade und Glück auf der Grundlage Ihrer Probe? Und nun ändern Sie die Reihenfolge einer der Spalten - wie ist die Beziehung nach dieser Operation?

tNt

iXiY

Beachten Sie, dass manchmal tatsächlich interessiert wir bei der Veränderung der Reihenfolge der Fälle sind, tun wir dies in Resampling - Methoden . Zum Beispiel können wir absichtlich Beobachtungen mehrmals mischen, um etwas über die Nullverteilung unserer Daten zu lernen (wie würden unsere Daten aussehen, wenn es keine paarweisen Beziehungen gäbe), und als nächstes können wir vergleichen, ob unsere realen Daten irgendwie besser sind als die zufälligen schlurfte. Was Ihr Manager tut, ist genau das Gegenteil - er zwingt die Beobachtungen absichtlich dazu, eine künstliche Struktur zu haben, wo es keine Struktur gab, was zu falschen Korrelationen führt.


8

Ein einfaches Beispiel, das Ihr Manager vielleicht verstehen könnte:

Angenommen, Sie haben Coin Y und Coin X und Sie werfen jeweils 100 Mal um. Dann möchten Sie vorhersagen, ob das Erhalten eines Kopfes mit Coin X (IV) die Chance erhöhen kann, einen Kopf mit Coin Y (DV) zu erhalten.

Ohne Sortierung ist die Beziehung keine, da das Ergebnis von Coin X das Ergebnis von Coin Y nicht beeinflussen sollte. Mit dem Sortieren wird die Beziehung nahezu perfekt.

Wie ist es sinnvoll zu folgern, dass Sie eine gute Chance haben, einen Kopf auf einen Münzwurf zu bekommen, wenn Sie gerade einen Kopf mit einer anderen Münze geworfen haben?


1
Benötigt eine Umrechnung für eine andere Währung als die von Ihnen angenommene. (Ich weiß, dass dies ein äußerst trivialer Einwand ist, und es ist einfach, jedes Problem zu beheben, aber es lohnt sich gelegentlich zu betonen, dass dies ein internationales Forum ist.)
Nick Cox

8

Diese Technik ist wirklich erstaunlich. Ich finde alle möglichen Beziehungen, die ich nie vermutet habe. Ich hätte zum Beispiel nicht vermutet, dass die Zahlen, die in der Powerball-Lotterie auftauchen, die GEFORDERT ist, zufällig sind und tatsächlich in hohem Maße mit dem Eröffnungskurs der Apple-Aktie am selben Tag korrelieren! Leute, ich denke, wir werden bald viel Geld verdienen. :)

> powerball_last_number = scan()
1: 69 66 64 53 65 68 63 64 57 69 40 68
13: 
Read 12 items
> #Nov. 18, 14, 11, 7, 4
> #Oct. 31, 28, 24, 21, 17, 14, 10
> #These are powerball dates.  Stock opening prices 
> #are on same or preceding day.
> 
> appl_stock_open = scan()
1: 115.76  115.20 116.26  121.11  123.13 
6: 120.99  116.93  116.70  114.00  111.78
11: 111.29  110.00
13: 
Read 12 items
> hold = lm(appl_stock_open ~ powerball_last_number)
> summary(hold)


Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)           112.08555    9.45628  11.853 3.28e-07 ***
powerball_last_number   0.06451    0.15083   0.428    0.678    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.249 on 10 degrees of freedom
Multiple R-squared:  0.01796,   Adjusted R-squared:  -0.08024 
F-statistic: 0.1829 on 1 and 10 DF,  p-value: 0.6779

Hmm, scheint keine signifikante Beziehung zu haben. ABER mit der neuen, verbesserten Technik:

> 
> vastly_improved_regression = lm(sort(appl_stock_open)~sort(powerball_last_number))
> summary(vastly_improved_regression)

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 91.34418    5.36136  17.038 1.02e-08 ***
sort(powerball_last_number)  0.39815    0.08551   4.656    9e-04 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.409 on 10 degrees of freedom
Multiple R-squared:  0.6843,    Adjusted R-squared:  0.6528 
F-statistic: 21.68 on 1 and 10 DF,  p-value: 0.0008998

HINWEIS: Dies ist keine ernsthafte Analyse. Zeigen Sie Ihrem Manager einfach, dass er JEDE zwei Variablen signifikant in Beziehung setzen kann, wenn Sie beide sortieren.


6

Viele gute Gegenbeispiele hier. Lassen Sie mich nur einen Absatz über den Kern des Problems hinzufügen.

XiYiXYiiX1Y1X2Y2XYX1Y1X1Y1

Lassen Sie mich einen Absatz darüber hinzufügen, warum es auch "funktioniert".

XaXbXaXYaXzXYzYXaYaXzYzX1Y1


6

Tatsächlich testet der beschriebene Test (dh sortieren Sie die X-Werte und die Y-Werte unabhängig voneinander und regressieren Sie sie gegeneinander) etwas, vorausgesetzt, dass die (X, Y) als unabhängige Paare aus einer bivariaten Verteilung abgetastet werden. Es ist nur kein Test dessen, was Ihr Manager testen möchte. Im Wesentlichen wird die Linearität eines QQ-Diagramms überprüft, indem die Randverteilung der Xs mit der Randverteilung der Ys verglichen wird. Insbesondere werden die 'Daten' nahe einer geraden Linie liegen, wenn die Dichte der Xs (f (x)) auf diese Weise mit der Dichte der Ys (g (y)) in Beziehung gesetzt wird:

f(x)=g((ya)/b)ab>0


4

Seltsam, dass das offensichtlichste Gegenbeispiel in seiner einfachsten Form immer noch nicht unter den Antworten vorhanden ist.

Y=X

Y^X

Dies ist eine Art "direkte Umkehrung" des Musters, das Sie möglicherweise hier finden möchten.


Können Sie erklären, zu welcher Behauptung dies ein Gegenbeispiel ist?
whuber

Die Behauptung des Managers, Sie könnten "immer bessere Regressionen erzielen", indem Sie die Ein- und Ausgaben unabhängig voneinander sortieren.
KT.

R2=1

R2

1
R2Y=X

3

Du hast recht. Ihr Manager würde "gute" Ergebnisse finden! Aber sie sind bedeutungslos. Was Sie erhalten, wenn Sie sie unabhängig sortieren, ist, dass die beiden Werte ähnlich zunehmen oder abnehmen, und dies ergibt den Anschein eines guten Modells. Die beiden Variablen wurden jedoch ihrer tatsächlichen Beziehung enthoben, und das Modell ist falsch.


3

xx2xx2x

Die lineare Regression ist normalerweise weniger sinnvoll (es gibt Ausnahmen, siehe andere Antworten). Die Geometrie der Schwänze und die Verteilung der Fehler zeigen jedoch, wie weit die Verteilungen voneinander entfernt sind.


2

Ich habe eine einfache Vorstellung, warum dies eigentlich eine gute Idee ist, wenn die Funktion monoton ist :

x1,x2,,xnxi<xi+1f:yi=f(xi)+εiεi

εi=f(xi+δ)f(xi)
δ{Δ,Δ+1,Δ1,Δ}ΔNΔ=0Δ=n

f

εi

PS: Ich finde es erstaunlich, wie eine scheinbar einfache Frage zu interessanten neuen Wegen führen kann, Standards zu überdenken. Bitte danke Chef!


1
xi+δi+δ<1i+δ>n

2

Angenommen, Sie haben diese Punkte auf einem Kreis mit Radius 5. Sie berechnen die Korrelation:

import pandas as pd
s1 = [(-5, 0), (-4, -3), (-4, 3), (-3, -4), (-3, 4), (0, 5), (0, -5), (3, -4), (3, 4), (4, -3), (4, 3), (5, 0)]
df1 = pd.DataFrame(s1, columns=["x", "y"])
print(df1.corr())

   x  y
x  1  0
y  0  1

Dann sortieren Sie Ihre x- und y-Werte und führen die Korrelation erneut durch:

s2 = [(-5, -5), (-4, -4), (-4, -4), (-3, -3), (-3, -3), (0, 0), (0, 0), (3, 3), (3, 3), (4, 4), (4, 4), (5, 5)]
df2 = pd.DataFrame(s2, columns=["x", "y"])
print(df2.corr())

   x  y
x  1  1
y  1  1

Durch diese Manipulation ändern Sie einen Datensatz mit einer Korrelation von 0,0 in einen Datensatz mit einer Korrelation von 1,0. Das ist ein Problem.


1

Lassen Sie mich hier Devil's Advocate spielen. Ich denke, viele Antworten haben überzeugend gezeigt, dass das Vorgehen des Chefs grundlegend falsch ist. Gleichzeitig biete ich ein Gegenbeispiel, das zeigt, dass der Chef tatsächlich gesehen hat, wie sich die Ergebnisse durch diese fehlerhafte Transformation verbessert haben.

Ich denke, dass das Anerkennen, dass dieses Verfahren für den Chef "funktioniert" hat, ein überzeugenderes Argument sein könnte: Sicher, es hat funktioniert, aber nur unter diesen glücklichen Umständen, die normalerweise nicht funktionieren. Dann können wir - wie in der hervorragend akzeptierten Antwort - zeigen, wie schlimm es sein kann, wenn wir kein Glück haben. Welches ist die meiste Zeit. Dem Chef isoliert zu zeigen, wie schlimm es sein kann , kann ihn nicht überzeugen, weil er vielleicht einen Fall gesehen hat, in dem es die Dinge verbessert, und zu der Annahme gelangt , dass unser ausgefallenes Argument irgendwo einen Fehler haben muss.

Ich habe diese Daten online gefunden, und es scheint, dass die Regression durch die unabhängige Sortierung von X und Y verbessert wird, weil: a) die Daten in hohem Maße positiv korreliert sind und b) OLS mit extremen Werten (hoch) nicht gut zurechtkommt Ausreißer. Größe und Gewicht haben eine Korrelation von 0,19 mit dem eingeschlossenen Ausreißer, 0,77 mit dem ausgeschlossenen Ausreißer und 0,78 mit X und Y, die unabhängig voneinander sortiert sind.

x <- read.csv ("https://vincentarelbundock.github.io/Rdatasets/csv/car/Davis.csv", header=TRUE)

plot (weight ~ height, data=x)

lm1 <- lm (weight ~ height, data=x)

xx <- x
xx$weight <- sort (xx$weight)
xx$height <- sort (xx$height)

plot (weight ~ height, data=xx)

lm2 <- lm (weight ~ height, data=xx)

plot (weight ~ height, data=x)
abline (lm1)
abline (lm2, col="red")

Bildbeschreibung hier eingeben

plot (x$height, x$weight)
points (xx$height, xx$weight, col="red")

Bildbeschreibung hier eingeben

Daher scheint es mir, dass das Regressionsmodell für diesen Datensatz durch die unabhängige Sortierung (schwarze gegen rote Linie im ersten Diagramm) verbessert wird und aufgrund des jeweiligen Datensatzes eine sichtbare Beziehung besteht (schwarze gegen rote Linie im zweiten Diagramm) Hoch (positiv) korreliert und mit der richtigen Art von Ausreißern, die die Regression stärker beeinträchtigen als das Mischen, das auftritt, wenn Sie x und y unabhängig voneinander sortieren.

Auch hier macht es keinen Sinn, unabhängig zu sortieren, und es ist auch hier nicht die richtige Antwort. Nur, dass der Chef vielleicht so etwas gesehen hat, das unter den richtigen Umständen funktioniert hat.


1
Es scheint ein reiner Zufall zu sein, dass Sie zu ähnlichen Korrelationskoeffizienten gekommen sind. Dieses Beispiel scheint nichts über eine Beziehung zwischen den ursprünglichen und den unabhängig sortierten Daten zu verdeutlichen.
whuber

2
@whuber: Wie wäre es mit der zweiten Grafik? Wenn die ursprünglichen Daten stark korreliert sind, kann es sein, dass durch das Sortieren der Daten die Werte ein wenig verschoben werden, wobei im Grunde die ursprüngliche Beziehung +/- erhalten bleibt. Mit ein paar Ausreißern werden die Dinge mehr neu geordnet, aber ... Tut mir leid, dass ich nicht die mathematischen Möglichkeiten habe, um weiter zu kommen.
Wayne

1
Ich denke, die Intuition, die Sie ausdrücken, ist richtig, Wayne. Die Logik der Frage - wie ich sie interpretiere - betrifft, was Sie über die Originaldaten sagen können, die allein auf dem Streudiagramm der sortierten Variablen basieren. Die Antwort lautet: Absolut nichts, was Sie aus ihren getrennten (univariaten) Verteilungen ableiten können. Der Punkt ist, dass die roten Punkte in Ihrem zweiten Diagramm nicht nur mit den von Ihnen angezeigten Daten übereinstimmen, sondern auch mit all der astronomisch großen Anzahl anderer Permutationen dieser Daten - und Sie haben keine Möglichkeit zu wissen, welche dieser Permutationen die ist Richtige.
whuber

2
@whuber Ich denke, der Hauptunterschied hier ist, dass das OP sagte, dass es die Daten "vollständig zerstören" muss. Ihre akzeptierte Antwort zeigt im Detail, wie dies im Allgemeinen der Fall ist. Sie können nicht auf diese Weise behandelt werden und haben keine Ahnung, ob das Ergebnis Sinn macht. ABER es ist auch wahr, dass der Manager sich zuvor mit Beispielen wie meinem (Gegen-) Beispiel hätte befassen und feststellen können, dass diese fehlgeleitete Transformation die Ergebnisse tatsächlich verbessert. Wir sind uns also einig, dass der Manager sich grundlegend geirrt hat, aber auch ziemlich glücklich geworden ist - und im glücklichen Fall funktioniert es.
Wayne

@whuber: Ich habe die Einleitung zu meiner Antwort so bearbeitet, dass sie meiner Meinung nach für die Diskussion relevant ist. Ich denke, dass das Anerkennen, wie das Vorgehen des Chefs für ihn funktioniert hat, ein erster Schritt in einem überzeugenderen Argument sein könnte, das mit der Erfahrung des Chefs übereinstimmt. Für Ihre Überlegung.
Wayne

-7

Wenn er die Variablen als monoton vorausgewählt hat, ist sie tatsächlich ziemlich robust. Google "falsche lineare Modelle" und "Robin Dawes" oder "Howard Wainer". Dawes und Wainer sprechen über alternative Arten der Koeffizientenauswahl. John Cook hat eine kurze Kolumne ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ ).


4
Was Cook in diesem Blogbeitrag bespricht, ist nicht dasselbe wie x und y unabhängig voneinander zu sortieren und dann ein Regressionsmodell an die sortierten Variablen anzupassen.
gung

4
Was der OP-Chef tut, ist nicht "vorherzusagen, was durch FInverse (G (x)), wobei F und G die ecdfs von Y und X sind". Sie können die Prozedur im Code in meiner Antwort sehen.
gung

4
Können Sie 1. einen Verweis auf ein bestimmtes Papier von Dawes und / oder Wainer hinzufügen, 2. klarstellen, wie es mit dem Sortierverfahren des Chefs zusammenhängt? Oder spielt es nur eine Rolle, wenn der Wert des Koeffizienten keine Rolle spielt, solange das Vorzeichen korrekt ist und das Vorzeichen unter der Annahme korrekt ist, dass die Prozedur des Chefs seltsame Werte für die Koeffizienten liefert?
Juho Kokkala

2
1. Die Referenzen: - Dawes, RM "Die robuste Schönheit unsachgemäßer linearer Modelle bei der Entscheidungsfindung." Amer. Psychol. 34, nein. 7 (1979): 571. - Wainer, H. "Schätzen von Koeffizienten in linearen Modellen: Es macht keinen Unterschied." Psych. Stier. 83, nein. 2 (1976): 213. - Dawes, RM & Corrigan, B. "Linear Models in Decision Making". Psych. Bull., 81 95-106 (1974) 2. Sowohl Dawes als auch Wainer zeigen, dass mit realen Daten und realen Vorhersageproblemen die Vorhersage des zukünftigen Y von X mit Abweichungen von ihren Mitteln oder durch Übereinstimmungen recht gut funktioniert, und dass dies eher der Fall ist unempfindlich gegen die Neigung.
Bill Raynor

2
Diese Verweise und Erklärungen sind in Ihrer Antwort besser als in Kommentaren.
Scortchi

-8

Ich habe darüber nachgedacht und dachte, dass es hier eine Struktur gibt, die auf Auftragsstatistiken basiert. Ich habe nachgesehen und es scheint, als sei Manager's Mo nicht so verrückt, wie es sich anhört

Ordnungsstatistik-Korrelationskoeffizient als neuartige Assoziationsmessung mit Anwendungen für die Biosignalanalyse

http://www.researchgate.net/profile/Weichao_Xu/publication/3320558_Order_Statistics_Correlation_Coefficient_as_a_Novel_Association_Measurement_With_Applications_to_Biosignal_Analysis/links/0912f507ed6f94a3c6000000.pdf

Wir schlagen einen neuen Korrelationskoeffizienten vor, der auf Ordnungsstatistik und Umlagerungsungleichheit basiert. Der vorgeschlagene Koeffizient stellt einen Kompromiss zwischen dem linearen Koeffizienten von Pearson und den beiden rangbasierten Koeffizienten dar, nämlich Spearmans Rho und Kendalls Tau. Theoretische Ableitungen zeigen, dass unser Koeffizient die gleichen grundlegenden Eigenschaften wie die drei klassischen Koeffizienten besitzt. Experimentelle Studien, die auf vier Modellen und sechs Biosignalen basieren, zeigen, dass unser Koeffizient bei der Messung linearer Assoziationen besser abschneidet als die beiden rangbasierten Koeffizienten. wohingegen es gut in der Lage ist, monotone nichtlineare Assoziationen wie die beiden rangbasierten Koeffizienten zu erkennen. Ausgiebige statistische Analysen legen auch nahe, dass unser neuer Koeffizient eine überlegene Robustheit gegen Rauschen und eine geringe Verzerrung aufweist.


14
Dies ist nicht das, was die Frage beschreibt. Wenn die Daten durch , um Statistiken ersetzt werden, die Paare sind von Daten immer noch verbunden , wie sie immer waren. Die Frage beschreibt eine Operation, die diese Verbindungen zerstört und alle Informationen über ihre gemeinsame Verteilung auslöscht.
whuber

Nicht unbedingt. Es ist möglich, Datensätze zu erstellen (oder darauf aufzubauen), bei denen die unabhängige Sortierung nicht alle Informationen über die gemeinsame Wahrscheinlichkeit zerstört.
Daniel

5
Nennen Sie uns bitte ein explizites Beispiel für Ihre Behauptung, denn es ist schwierig zu erkennen, wie so etwas in der Mathematik überhaupt möglich ist, und in der Praxis noch viel weniger.
whuber

@whuber: Bitte sehen Sie sich meine neue Antwort an, die einen echten Datensatz enthält, der Ihre Frage erfüllt ... denke ich.
Wayne
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.