Vergleich zweier linearer Regressionsmodelle

11

Ich möchte zwei lineare Regressionsmodelle vergleichen, die die Abbauraten einer mRNA über die Zeit unter zwei verschiedenen Bedingungen darstellen. Die Daten für jedes Modell werden unabhängig gesammelt.

Hier ist der Datensatz.

Zeit (Stunden) Protokoll (Behandlung A) Protokoll (Behandlung B)
0 2,02 1,97
0 2,04 2,06
0 1,93 1,96
2 2,02 1,91
2 2,00 1,95
2 2,07 1,82
4 1,96 1,97
4 2,02 1,99
4 2,02 1,99
6 1,94 1,90
6 1,94 1,97
6 1,86 1,88
8 1,93 1,97
8 2.12 1.99
8 2,06 1,93
12 1,71 1,70
12 1,96 1,73
12 1,71 1,76
24 1,70 1,46
24 1,83 1,41
24 1,62 1,42

Das sind meine Modelle:

Exp1.A.lm<-lm(Exp1$Time~Exp1$(Treatment A))
Exp1.B.lm<-lm(Exp1$Time~Exp1$(Treatment B))

Anruf:
lm (Formel = Exp1 $ Zeit ~ Exp1 $ (Behandlung A))

Rückstände:
    Min 1Q Median 3Q Max 
-6,8950 -1,2322 0,2862 1,2494 5,2494 

Koeffizienten:
                   Schätzung Std. Fehler t Wert Pr (> | t |)    
(Intercept) 74,68 6,27 11,91 2,94e-10 ***
Exp1 $ (Behandlung A) -36,14 3,38 -10,69 1,77e-09 ***
--- ---.
Signif. Codes: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1

Reststandardfehler: 2,97 bei 19 Freiheitsgraden
Mehrfaches R-Quadrat: 0,8575, angepasstes R-Quadrat: 0,85 
F-Statistik: 114,3 auf 1 und 19 DF, p-Wert: 1,772e-09

Anruf:
lm (Formel = Exp1 $ Zeit ~ Exp1 $ (Behandlung B))

Rückstände:
   Min 1Q Median 3Q Max 
-7,861 -3,278 -1,444 3,222 11,972 

Koeffizienten:
                      Schätzung Std. Fehler t Wert Pr (> | t |)    
(Intercept) 88.281 16.114 5.478 2.76e-05 ***
Exp1 $ (Behandlung B) -41,668 8,343 -4,994 8,05e-05 ***
--- ---.
Signif. Codes: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1

Reststandardfehler: 5,173 bei 19 Freiheitsgraden
Mehrfaches R-Quadrat: 0,5676, angepasstes R-Quadrat: 0,5449 
F-Statistik: 24,94 auf 1 und 19 DF, p-Wert: 8,052e-05

Um diese beiden Modelle zu vergleichen, habe ich den folgenden Code verwendet.

anova(Exp1.A.lm,Exp1.B.lm)

Varianzanalyse-Tabelle

Modell 1: Exp1 $ Zeit ~ Exp1 $ Exp1 $ (Behandlung A)
Modell 2: Exp1 $ Zeit ~ Exp1 $ Exp1 $ (Behandlung B)
  Res.Df RSS Df Summe von Sq F Pr (> F)
1 19 167,60                      
2 19 508.48 0 -340.88

Meine Frage ist, warum die ANOVA-Analyse keine F-Statistik und kein p.val zeigt. Ich entschuldige mich, wenn dies eine naive Frage ist.

Aufgrund unterschiedlicher Steigungen ist die Abbaurate in diesen beiden Modellen unterschiedlich, aber ich würde gerne wissen, wie statistisch signifikant dieser Unterschied ist. Ich hoffe, dass dies Sinn macht.

regression model-comparison

— Rooz
quelle

2

Möglicherweise stellen Sie fest, dass in der ANOVA-Tabelle die mit der Analyse verbundenen Freiheitsgrade als 0 aufgeführt sind . Sie haben in beiden Modellen die gleiche Anzahl von Variablen. Aus diesem Grund können keine F- oder p-Werte berechnet werden.

— Gung - Reinstate Monica

5

Ich würde diese Modelle erst vergleichen, nachdem ich ihre Passgenauigkeit überprüft habe. Ich denke, Sie werden im zweiten feststellen, dass weder die Antwort noch ihr Logarithmus lineare Funktionen der Zeit sind. Dies stellt (ernsthaft) jeden Vergleich der Steigungsschätzungen in Frage.

— whuber

10

Wenn Sie die Daten in einer langen Spalte mit A und B als neuer Spalte einrichten, können Sie Ihr Regressionsmodell als GLM mit einer kontinuierlichen Zeitvariablen und einer nominalen "Experiment" -Variablen (A, B) ausführen. Die Ausgabe der ANOVA gibt Ihnen die Bedeutung des Unterschieds zwischen den Parametern. "Achsenabschnitt" ist der gemeinsame Achsenabschnitt und der Faktor "Experiment" spiegelt Unterschiede zwischen den Abschnitten (tatsächlich Gesamtmittel) zwischen den Experimenten wider. Der Faktor "Zeit" ist die gemeinsame Steigung, und die Wechselwirkung ist der Unterschied zwischen den Experimenten in Bezug auf zum Hang.

Ich muss zugeben, dass ich betrüge (?) Und die Modelle zuerst separat ausführe, um die beiden Parametersätze und ihre Fehler zu erhalten, und dann das kombinierte Modell ausführe, um die Unterschiede zwischen den Behandlungen zu ermitteln (in Ihrem Fall A und B) ...

— user24187
quelle

3

Dies ist ein kluger Ansatz. Überprüfen Sie beim "Betrügen", ob die Fehlervarianzen in jedem Modell ungefähr gleich sind? Und wenn sie wesentlich anders aussehen, wie wirkt sich das auf Ihre Empfehlungen aus?

— whuber

Das GLM ist ein guter Ansatz, und um die Daten zu untersuchen, ist die Anpassung separater Modelle eine gute Möglichkeit, die Fehlervarianz zwischen Experimenten zu beurteilen. Wenn man wirklich besorgt wäre, könnte man das GLM-Modell um gruppenspezifische Fehlervarianzen erweitern, anstatt die implizite Annahme einer gemeinsamen Fehlervarianz für alle experimentellen Daten.

— prince_of_pears

Eine andere Sache, die in den Sinn kommt, ist, ob OP daran interessiert ist zu handeln, ob sich die Verschlechterungsraten zwischen Experimenten einfach voneinander unterscheiden (wobei die absolute Rate ignoriert wird) oder ob sich diese Raten auch statistisch (oder praktisch) von Null unterscheiden. Der erste ist ein Test der Hypothese, dass der Wechselwirkungskoeffizient zwischen Behandlung und Zeit gleich Null ist. Die zweite besteht darin, entweder zwei separate Tests (oder einen gemeinsamen Hypothesentest) durchzuführen, bei denen sich jede Rate von Null unterscheidet. Ich könnte mehr daran interessiert sein, die zweite vor der ersten zu testen.

— prince_of_pears

5

Die ANOVA-Analyse zeigt keine F-Statistik und keinen p.-Wert, da beide Modelle die gleichen Restfreiheitsgrade haben (dh 19). Wenn Sie die Differenz nehmen, wäre sie Null! Nach Durchführung des Unterschieds sollte mindestens ein Freiheitsgrad vorhanden sein, um den F-Test durchzuführen.

— Stat
quelle

Ich bin mir nicht sicher, ob ich Ihre Antwort verstehe. Gibt es einen Grund dafür, dass die verbleibenden Freiheitsgrade gleich sind? Irgendwelche Vorschläge für einen alternativen Ansatz zum Vergleich der Pisten?

— Rooz

n = 21

$n=21$

(T r e a t m e n t A) o r E x p 1

$(Treatment A) or Exp1$

d f_{T} = n - 1 = 20

$df_{T}=n-1=20$

d f_{T} = d f_{e r r o r} + d f_{r e g r e s s o r s}

$df_{T}=df_{error}+df_{regressors}$

d f_{e r r o r} = 19

$df_{error}=19$

Es gibt viele andere Möglichkeiten, sie zu vergleichen als den F-Test. Am einfachsten ist es, wie in den Zusammenfassungen mehrere R-Quadrate und angepasste R-Quadrate zu verwenden. Das Modell mit höheren R-Quadraten oder angepassten R-Quadraten ist besser. Hier scheint das bessere Modell das mit Exp1 $ (Behandlung A) zu sein. Denken Sie jedoch daran, dass Sie die Residuen Ihres Modells überprüfen sollten, um die Angemessenheit des angepassten Modells zu überprüfen. Ich persönlich empfehle nicht, sich nur auf R-Quadrat-Kriterien zu verlassen, und Sie sollten auch andere Annahmen im linearen Modell überprüfen. Überprüfen Sie insbesondere, ob die Residuen autokorreliert sind oder nicht.

— Stat