Ich habe mir viele R-Datensätze, Postings in DASL und anderswo angesehen und finde nicht sehr viele gute Beispiele für interessante Datensätze, die die Analyse der Kovarianz für experimentelle Daten veranschaulichen. Es gibt zahlreiche "Spielzeug" -Datensätze mit erfundenen Daten in statistischen Lehrbüchern.
Ich hätte gerne ein Beispiel, wo:
- Die Daten sind real, mit einer interessanten Geschichte
- Es gibt mindestens einen Behandlungsfaktor und zwei Kovariaten
- Mindestens eine Kovariate ist von einem oder mehreren der Behandlungsfaktoren betroffen, und eine Kovariate ist von Behandlungen nicht betroffen.
- Vorzugsweise eher experimentell als beobachtend
Hintergrund
Mein eigentliches Ziel ist es, ein gutes Beispiel für die Vignette meines R-Pakets zu finden. Ein größeres Ziel ist jedoch, dass die Menschen gute Beispiele sehen müssen, um einige wichtige Bedenken in der Kovarianzanalyse zu veranschaulichen. Stellen Sie sich das folgende erfundene Szenario vor (und verstehen Sie bitte, dass meine Kenntnisse der Landwirtschaft bestenfalls oberflächlich sind).
- Wir machen ein Experiment, bei dem Dünger nach dem Zufallsprinzip in Parzellen aufgeteilt und eine Ernte gepflanzt wird. Nach einer geeigneten Wachstumsperiode ernten wir die Ernte und messen einige Qualitätsmerkmale - das ist die Reaktionsvariable. Wir erfassen aber auch den Gesamtniederschlag während der Vegetationsperiode und den Säuregrad des Bodens zum Zeitpunkt der Ernte - und natürlich, welcher Dünger verwendet wurde. Wir haben also zwei Kovariaten und eine Behandlung.
Der übliche Weg, die resultierenden Daten zu analysieren, besteht darin, ein lineares Modell mit der Behandlung als Faktor und additiven Effekten für die Kovariaten abzugleichen. Um die Ergebnisse zusammenzufassen, berechnet man das "bereinigte Mittel" (AKA Least-Squares-Mittel), die Vorhersagen aus dem Modell für jeden Dünger sind, für den durchschnittlichen Niederschlag und den durchschnittlichen Säuregrad des Bodens. Dies stellt alles auf die gleiche Grundlage, denn wenn wir diese Ergebnisse vergleichen, halten wir Niederschlag und Säure konstant.
Dies ist jedoch wahrscheinlich die falsche Vorgehensweise, da der Dünger wahrscheinlich sowohl den Säuregehalt des Bodens als auch die Reaktion beeinflusst. Dies macht das eingestellte Mittel irreführend, da der Behandlungseffekt dessen Wirkung auf den Säuregehalt einschließt. Eine Möglichkeit, damit umzugehen, wäre, dem Modell die Säure zu entziehen. Dann würden die regenbereinigten Mittel einen fairen Vergleich liefern. Wenn es jedoch auf den Säuregehalt ankommt, ist diese Fairness mit einem hohen Preis verbunden, da die verbleibenden Schwankungen zunehmen.
Es gibt Möglichkeiten, dies zu umgehen, indem anstelle der ursprünglichen Werte eine angepasste Version des Säuregehalts im Modell verwendet wird. Das bevorstehende Update meines R-Pakets lsmeans wird dies ausgesprochen einfach machen. Aber ich möchte ein gutes Beispiel haben, um es zu veranschaulichen. Ich werde allen sehr dankbar sein und dies gebührend anerkennen, die mich auf einige gute illustrative Datensätze hinweisen können.