Gutes Datenbeispiel für Kovariaten, die von Behandlungen betroffen sind

19

Ich habe mir viele R-Datensätze, Postings in DASL und anderswo angesehen und finde nicht sehr viele gute Beispiele für interessante Datensätze, die die Analyse der Kovarianz für experimentelle Daten veranschaulichen. Es gibt zahlreiche "Spielzeug" -Datensätze mit erfundenen Daten in statistischen Lehrbüchern.

Ich hätte gerne ein Beispiel, wo:

Die Daten sind real, mit einer interessanten Geschichte
Es gibt mindestens einen Behandlungsfaktor und zwei Kovariaten
Mindestens eine Kovariate ist von einem oder mehreren der Behandlungsfaktoren betroffen, und eine Kovariate ist von Behandlungen nicht betroffen.
Vorzugsweise eher experimentell als beobachtend

Hintergrund

Mein eigentliches Ziel ist es, ein gutes Beispiel für die Vignette meines R-Pakets zu finden. Ein größeres Ziel ist jedoch, dass die Menschen gute Beispiele sehen müssen, um einige wichtige Bedenken in der Kovarianzanalyse zu veranschaulichen. Stellen Sie sich das folgende erfundene Szenario vor (und verstehen Sie bitte, dass meine Kenntnisse der Landwirtschaft bestenfalls oberflächlich sind).

Wir machen ein Experiment, bei dem Dünger nach dem Zufallsprinzip in Parzellen aufgeteilt und eine Ernte gepflanzt wird. Nach einer geeigneten Wachstumsperiode ernten wir die Ernte und messen einige Qualitätsmerkmale - das ist die Reaktionsvariable. Wir erfassen aber auch den Gesamtniederschlag während der Vegetationsperiode und den Säuregrad des Bodens zum Zeitpunkt der Ernte - und natürlich, welcher Dünger verwendet wurde. Wir haben also zwei Kovariaten und eine Behandlung.

Der übliche Weg, die resultierenden Daten zu analysieren, besteht darin, ein lineares Modell mit der Behandlung als Faktor und additiven Effekten für die Kovariaten abzugleichen. Um die Ergebnisse zusammenzufassen, berechnet man das "bereinigte Mittel" (AKA Least-Squares-Mittel), die Vorhersagen aus dem Modell für jeden Dünger sind, für den durchschnittlichen Niederschlag und den durchschnittlichen Säuregrad des Bodens. Dies stellt alles auf die gleiche Grundlage, denn wenn wir diese Ergebnisse vergleichen, halten wir Niederschlag und Säure konstant.

Dies ist jedoch wahrscheinlich die falsche Vorgehensweise, da der Dünger wahrscheinlich sowohl den Säuregehalt des Bodens als auch die Reaktion beeinflusst. Dies macht das eingestellte Mittel irreführend, da der Behandlungseffekt dessen Wirkung auf den Säuregehalt einschließt. Eine Möglichkeit, damit umzugehen, wäre, dem Modell die Säure zu entziehen. Dann würden die regenbereinigten Mittel einen fairen Vergleich liefern. Wenn es jedoch auf den Säuregehalt ankommt, ist diese Fairness mit einem hohen Preis verbunden, da die verbleibenden Schwankungen zunehmen.

Es gibt Möglichkeiten, dies zu umgehen, indem anstelle der ursprünglichen Werte eine angepasste Version des Säuregehalts im Modell verwendet wird. Das bevorstehende Update meines R-Pakets lsmeans wird dies ausgesprochen einfach machen. Aber ich möchte ein gutes Beispiel haben, um es zu veranschaulichen. Ich werde allen sehr dankbar sein und dies gebührend anerkennen, die mich auf einige gute illustrative Datensätze hinweisen können.

dataset ancova predictor

— rvl
quelle

1

Dies ist zwar kein Zweifel , ist sowohl eine wichtige und interessante Frage, so scheint es , als ob es über Foul der Regeln fallen könnte , was zum Thema : „ Fragen über bestimmte Datensätze zu erhalten sind Wegthema (auch sie spezialisiert sind). “

— Glen_b -Reinstate Monica

3

Die Meta-Frage: Keine bestimmte Datensatzanfrage - immer noch nicht koscher?

— Nick Stauner

1

Mein Eindruck von den bisherigen Antworten ist, dass wir uns davor hüten, anderen Fragen wie diesen einen Blankoscheck zu geben, indem wir entschieden dafür sind, aber dass wir meistens für diese bestimmte Frage sind und sogar ein wenig gespannt, was passiert Arten von Antworten, die Sie vielleicht bekommen (vielleicht bin das nur ich). Was wir nicht wollen, sind schlecht geschriebene Nachahmungen dieser Frage, die nach Datensätzen fragen, mit denen Punkte mit Statistiken belegt werden können, aber nicht mit Statistiken. Dh es ist eine Sache, um Hilfe bei der Demonstration eines statistischen Prinzips zu bitten, aber es wäre eine andere, um domänenspezifische Datensätze zu bitten ...

— Nick Stauner

3

OK, hört sich nach einer guten Idee an. Ich habe viel schlimmere Dinge in der Vergangenheit getan haben meinen Ruf zu senken ...

— RVL

2

@SteveS Ich stimme zu, dass es ein guter Kandidat für ein Kopfgeld ist. in der Tat bin ich nur hergekommen, um mir selbst eine zu machen , nur um zu entdecken, dass Russ das schon getan hatte. Wenn es in einer Woche keine guten Antworten gibt, könnte ich überlegen, ein zweites Kopfgeld darauf zu setzen. Russ: Kopfgelder auf interessante Fragen ziehen so viel Aufmerksamkeit auf sich, dass die daraus resultierenden Gegenstimmen sie oft sowieso fast bezahlen, sodass der Reputationsverlust oft viel weniger steil ist, als es auf den ersten Blick scheint.

— Glen_b

6

Möglicherweise möchten Sie das mediationR-Paket überprüfen . Es enthält experimentelle Daten wie jobsund framingwo die Behandlungsvariable sowohl eine Antwortvariable als auch Kovariaten (dh Mediatoren des Behandlungseffekts) beeinflusst, zusammen mit Kovariaten, die nicht von der Behandlung betroffen sind.

Ich habe mich in der Mediationsliteratur umgesehen, weil Sie genau eine Mediationsstudie beschrieben haben: Der Düngeeffekt auf die Erntequalität wird durch den Einfluss auf den Säuregehalt des Bodens vermittelt. Auch wenn die Datensätze in der mediationPackung Sie nicht zufrieden stellen, finden Sie möglicherweise einen, wenn Sie in die Mediationsliteratur schauen.

— Masato Nakazawa
quelle

Vielen Dank. Ich habe das Paket installiert und werde es mir ansehen. Und eine Gelegenheit, etwas Neues zu lernen.

— Rvl

Interessant, dass die

— Jobdaten

1

Nun, ich wünschte, ich könnte das Kopfgeld irgendwie aufteilen. Aber dieses Paket hat fertige Datensätze, die sehr gut zu dem passen, was ich gefragt habe, also bekommt @MasatoNakazawa das Kopfgeld. Vielen Dank. Unter Verwendung der framingDaten unterscheiden sich die Interaktionsdiagramme von LSMeans (basierend auf einem logistischen Modell), wenn die Mediationsvariable festgehalten wird, dramatisch von denen, bei denen sie auf Werte gesetzt wird, die von Behandlungen und anderen Kovariaten vorhergesagt werden, und zeigen somit, wie wichtig es ist, die Mediation einzuleiten variabel in Rechnung zu stellen.

— Rvl

1

Vielen Dank, Dr. Lenth. Eigentlich habe ich Ihre Artikel in meiner Dissertation zitiert. Ich fühle mich geehrt, dass ich einem etablierten Statistiker wie Ihnen in irgendeiner Weise helfen konnte.

— Masato Nakazawa

4

Ich dachte, ich würde zeigen, wie eine Analyse mit einem der Datensätze im Mediationspaket herauskommt . Es framingwird ein Experiment durchgeführt, bei dem die Probanden die Möglichkeit haben, dem Kongress eine Mitteilung zur Einwanderung zu übermitteln. Allerdings wurde einigen Probanden ( treat=1) zuerst eine Nachricht gezeigt, die Latinos negativ darstellt. Neben der binären Antwort (unabhängig davon, ob eine Nachricht gesendet wurde oder nicht) wurde auch empder emotionale Zustand der Probanden nach der Anwendung der Behandlung gemessen . Es gibt auch verschiedene demografische Variablen.

Laden Sie zunächst die benötigten Pakete in R und ändern Sie die Bezeichnungen für educkürzere Zeichenfolgen.

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

Passen Sie nun ein logistisches Regressionsmodell an

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

Hier ist eine Darstellung der herkömmlichen Mittel eingestellt, wo Vorhersagen gemacht werden mit den Kovarianten age, incomeund emosetzen bei ihren Mittelwert:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(Interaktionsdiagramm herkömmlicher "angepasster Mittelwerte", transformiert in die Antwortskala)

Dies ist ein merkwürdiges Ergebnis, da die angezeigten Behandlungseffekte für Frauen und Männer umgekehrt sind und der Effekt der Erziehung nicht wie erwartet monoton ist.

Beachten Sie jedoch, dass emoes sich um eine Nachbehandlungsmessung handelt. Dies bedeutet, dass die Behandlung sie beeinflusst haben könnte, dh emoeine vermittelnde Kovariate ist; und so ist es möglicherweise nicht sinnvoll, Vorhersagen der Antwortvariablen zu vergleichen, während sie emokonstant gehalten werden. Stattdessen lassen Sie uns Blick auf die Prognosen , wo emoseine vorhergesagten Werte angegeben gesetzt ist treatund die demographischen Variablen.

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(Interaktionsdiagramm von Vorhersagen unter Berücksichtigung von Vermittlungseffekten)

Dieses Ergebnis ist ganz anders, was darauf hindeutet, dass es emoeine starke vermittelnde Rolle spielt. (Das Vermittlungspaket hat Funktionen zum Abschätzen der Stärke dieser Effekte.) Die obigen Vorhersagen legen nahe, dass männliche Probanden, die der negativen Nachricht ausgesetzt sind, unter Berücksichtigung der emotionalen Reaktion die Nachricht mit größerer Wahrscheinlichkeit senden als weibliche Personen oder Personen, die die Nachricht nicht sehen negative Nachricht. Auch die Wirkung von educist (fast) monoton.

Nochmals vielen Dank an @MasatoNakagawa, der mich auf dieses interessante Beispiel hingewiesen und mich auf einige neuere Forschungen zur Kausalität eingestimmt hat.

— rvl
quelle

3

Gen-Umwelt-Interaktion nachschlagen GWAS-Studien. Die statistische Analyse, die sie im Wesentlichen durchführen, ist das, was Sie beschrieben haben. Die Frage ist, ob Ihre Umgebung für einen Phänotyp von Bedeutung ist (beobachtbares Merkmal). Eine Denkschule ignoriert im Allgemeinen alle Umweltinformationen und sagt, dass Ihr Erbgut Ihren Phänotyp beschreibt. Dies steht im völligen Gegensatz zu ökologischen Studien, bei denen die Geschichte von der Umwelt handelt und die Gene ignoriert werden. Da beide Parteien versuchen, dasselbe Problem zu verstehen, hat es in letzter Zeit Versuche gegeben, die beiden zu vereinen.

Angenommen, wir studieren BMI. Wir nehmen die ersten Hauptkomponenten der genetischen Matrix als fixe Effekte aufgrund von Genen. Wir passen Bildung mit einem Index 1 für gut ausgebildet und 0 für schlecht ausgebildet als fester Effekt an. Es besteht eine einigermaßen starke Korrelation zwischen dem Bildungsindex und dem Wohlstand der Gemeinde, aus der die Person stammt. Man würde also argumentieren, dass die einkommensschwachen Gemeinden eher Fast-Food-Restaurants haben. Das Fast Food wirkt wie ein fettleibiger Auslöser. "Löst etwas in Ihrem genetischen Setup aus, das die Fettakkumulation fördert", sodass es in irgendeiner Form im genetischen Make-up auftaucht.

Das Simulieren solcher Daten ist kein Problem. Schau hoch

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

Auf diese Weise können Sie GWAS-Daten (stellen Sie sich dies als genetische Einheiten vor) simulieren, die für ein Symptom verantwortlich sind. Wenn nicht anders angegeben, werden 1000 mit dem Symptom und 1000 Kontrollen generiert. Die Norm in diesen Simulationen, die ich verwende, ist, dass 9990 SNPs nicht das Symptom verursachen und 10 SNPs es tun. Lesen Sie die Anweisungen, wie diese simuliert werden.

Die Ausgabe ist 1, wenn die Person übergewichtig ist, und 0, wenn sie nicht übergewichtig ist. Simulieren Sie Bildungsfaktoren (abgeschlossene Hochschulausbildung / nicht abgeschlossene Hochschulausbildung) auf der Grundlage einer angemessenen Korrelation mit der Adipositas.

Hoffe das hilft!!!

— Sid
quelle

Vielen Dank. Ich bin mir nicht sicher, was eine GWAS-Studie ist. DUH, habe ich über den Link herausgefunden.

— rvl

Auch wenn ich das Kopfgeld einem anderen Befragten überlassen habe, schätze ich diesen Vorschlag und beabsichtige, ihn weiterzuverfolgen. Vielen Dank.

— Rvl

1

Ich würde empfehlen, Freakonomics zu lesen und die Dokumente zu finden, auf denen ihre Arbeit basiert, und zu prüfen, ob Sie diese Daten abrufen können. Sie haben einige wirklich interessante Arbeiten an wirklich interessanten Datensätzen, und in einigen Fällen finden sie sehr clevere Möglichkeiten, um Hypothesen trotz Einschränkungen in den Daten zu testen.

— Nir Friedman
quelle