Passen Sie das Regressionsmodell aus einer fächerförmigen Beziehung in R an

Ich erhalte ein fächerförmiges Streudiagramm der Beziehung zwischen zwei verschiedenen quantitativen Variablen:

Geben Sie hier die Bildbeschreibung ein

Ich versuche, ein lineares Modell für diese Beziehung anzupassen. Ich denke, ich sollte eine Art Transformation auf die Variablen anwenden, um die Aufstiegsvarianz in der Beziehung zu vereinheitlichen, bevor ich ein lineares Regressionsmodell anpasse, aber ich kann den Weg dazu nicht finden. Oder vielleicht gibt es in diesen Fällen ein besseres Modell, ich kann es auch nicht finden.

Ich habe es versucht rlm, aber die Residuen haben immer noch Heteroskedastizität. Ich habe auch versucht, ein SD-Verhältnis anzuwenden, das aus allen y jedes x und anderen ähnlichen unberechenbaren Ansätzen berechnet wird.

Meine Fragen:

Gibt es eine typische Möglichkeit, ein Modell für eine fächerförmige Beziehung oder ein typisches Modell für diese Fälle anzupassen?
Gibt es eine typische Transformation, die auf die Variablen angewendet werden könnte, um deren Varianz zu verringern?

r regression heteroscedasticity scatterplot

— Leeodelion
quelle

Das sieht verdächtig aus. Ich denke, es gibt eine wichtige Kovariate, die in Ihrem Modell nicht berücksichtigt wird, oder Sie haben sogar wiederholte Messungen. Ich sehe auch, dass Ihre Antwortvariable im Intervall [0, 1] liegt. Ist es zufällig eine Wahrscheinlichkeit? Möglicherweise benötigen Sie ein verallgemeinertes lineares Modell. Auf glsjeden Fall ermöglicht die Funktion im Paket nlme die Angabe einer Heteroskedastizitätsstruktur.

— Roland

Können Sie noch etwas zu den Daten sagen? Die funktionelle Beziehung scheint im Durchschnitt ungefähr gleich zu sein, und die Heteroskedastizität verzerrt nur die Standardfehler. Gibt es eine funktionale Abhängigkeit für die beiden Variablen? Gibt es eine potenziell ausgelassene Variable, die mit der Variablen der X-Achse interagiert?

— Andy W

Vielen Dank! @AndyW Es ist die Beziehung zwischen zwei Arten, das Medienpublikum zu messen. @ Roland Die Variablen sind [0,1], weil ich sie skaliert habe, um es einfacher zu zeigen, aber beide sind quantitative Variablen. Ich versuche, ein Modell für Vorhersagezwecke anzupassen. Ich habe Gewichte mit ausprobiert lm, aber ich weiß nicht, wie ich sie ausnutzen soll. Ich werde es auch versuchen gls, danke @Roland. Die Beziehung ist für höhere Werte des Prädiktors schwächer, aber ich weiß nicht, wie ich die Heteroskedastizitätsstruktur herausfinden soll, um sie auf weightsdie Daten anzuwenden oder sie vorab zu transformieren. Ich bin wirklich verloren damit.

— Leeodelion

Vgl. auch Ihr Beitrag unter stats.stackexchange.com/questions/156661/… Es sind nicht die gleichen Daten, aber ist es im Wesentlichen die gleiche Frage?

— Nick Cox

@ Nick Ja, mein Fehler. Ich werde versuchen, das zu entfernen, sorry.

— Leeodelion

Hier sind zwei fächerförmige Diagramme, die mit verschiedenen Methoden erstellt wurden:

Geben Sie hier die Bildbeschreibung ein

(Klicken Sie hier für eine größere Version.)

Diese wiederum schlagen zwei verschiedene Ansätze zur Modellierung von Daten vor, die mehr oder weniger so aussehen:

Nehmen Sie Protokolle und passen Sie ein lineares Modell mit einem auf 1 beschränkten Koeffizienten an (auch als Versatz bezeichnet).
Teilen Sie durch und passen Sie dann ein Nur-Konstanten-Modell an. $y$ $x$

Es wird andere Möglichkeiten geben, solche Daten zu generieren, und andere Möglichkeiten, solche Daten anzupassen. Einige andere Möglichkeiten sind zum Beispiel:

Passen Sie ein Gamma-Glm mit Identitätsverknüpfung an (und möglicherweise ohne Unterbrechung).
da die Varianz proportional zu ist $x^2$ Verwenden Sie diese Tatsache, um eine gewichtete Regression unter Verwendung von Gewichten zu konstruieren, die proportional zu sind $1/x^2$ . [Für eine einfache gerade Linie durch den Ursprung sollte dies das gleiche Ergebnis wie 2 ergeben.]

- -

[ AndyWs Kommentar zu einer möglichen fehlenden Kovariate ist wichtig. Ich werde mich jedoch nur mit der Frage der Modellierung fächerförmiger Beziehungen befassen, da dies für sich genommen ein interessantes Thema ist. In der Praxis möchten Sie seinen Vorschlag untersuchen, dass möglicherweise auch potenzielle Kovariaten fehlen. ]]

— Glen_b -State Monica
quelle

+1 - Der Grund, warum ich in einem Kommentar eine fehlende Kovariate erwähnt habe, ist der sichtbare Strahl am oberen Rand der Punktwolke, der sich von der Hauptwolke in der Umgebung trennt x = 0.3- was für mich so aussieht, als wäre es eine separate Mischung. Erinnert mich ein wenig an das Streudiagramm in meinem Projekt .

— Andy W

@AndyW Es ist sicherlich eine Möglichkeit, obwohl es auch möglich ist, einen oder mehrere Strahlen ohne eine fehlende Kovariate zu erhalten; Zum Beispiel so:x2 = sqrt(runif(5000)); y2 = x2*(6-sqrt(rpois(5000,3))); plot(x2,y2,cex=.5,pch=21)

— Glen_b - Monica am

@Glen_b In diesen wenigen Zeilen gibt es viele nützliche Informationen. Ich versuche alles zu verstehen und zu testen und bin mit dem Ergebnis zurück. Vielen Dank!

— Leeodelion

@AndyW Ja, hier gibt es eine Mischung, die ich auch analysieren muss. Der Link zu Ihrem Projekt scheint ebenfalls sehr nützlich zu sein, und ich werde später noch etwas Zeit darauf verwenden. Vielen Dank!

— Leeodelion