Was Sie getan haben, ist die logistische Regression . Dies kann grundsätzlich in jeder statistischen Software erfolgen, und die Ausgabe ist ähnlich (zumindest inhaltlich, auch wenn die Darstellung unterschiedlich sein kann). Es gibt einen Leitfaden zur logistischen Regression mit R auf der Hilfe-Website der UCLA für exzellente Statistiken. Wenn Sie damit nicht vertraut sind, kann meine Antwort hier: Unterschied zwischen logit- und probit-Modellen Ihnen helfen, zu verstehen, worum es bei LR geht (obwohl es in einem anderen Kontext geschrieben ist).
Sie scheinen zwei Modelle vorgestellt zu haben, ich werde mich in erster Linie auf das oberste konzentrieren. Darüber hinaus scheint es ein Fehler beim Kopieren und Einfügen des Modells oder ausgegeben zu haben, so dass ich tauschen werde leaves.presence
mit Area
in der Ausgabe mit dem Modell konsistent zu machen. Hier ist das Modell, auf das ich mich beziehe (beachten Sie, dass ich hinzugefügt habe (link="logit")
, was impliziert wird family=binomial
; siehe ? Glm und ? Family ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
Lassen Sie uns diese Ausgabe durchgehen (beachten Sie, dass ich den Namen der Variablen in der zweiten Zeile darunter geändert habe Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Ebenso wie es Residuen in der linearen (OLS) Regression gibt, kann es auch Residuen in der logistischen Regression und anderen verallgemeinerten linearen Modellen geben. Sie sind jedoch komplizierter, wenn die Antwortvariable nicht kontinuierlich ist. GLiMs können fünf verschiedene Arten von Residuen haben, aber was als Standard aufgeführt wird, sind die Abweichungs-Residuen. ( Abweichungen und Abweichungsreste sind weiter fortgeschritten, daher werde ich mich hier kurz fassen. Wenn diese Diskussion etwas schwierig zu verfolgen ist, würde ich mir keine Sorgen machen. Sie können sie überspringen.)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Für jeden in Ihrem Modell verwendeten Datenpunkt wird die mit diesem Punkt verknüpfte Abweichung berechnet. Nachdem Sie dies für jeden Punkt getan haben, haben Sie eine Reihe solcher Residuen, und die obige Ausgabe ist einfach eine nicht parametrische Beschreibung ihrer Verteilung.
Als nächstes sehen wir die Informationen über die Kovariaten, woran die Leute normalerweise hauptsächlich interessiert sind:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Für ein einfaches logistisches Regressionsmodell wie dieses gibt es nur eine Kovariate ( Area
hier) und den Achsenabschnitt (manchmal auch als "Konstante" bezeichnet). Wenn Sie eine mehrfache logistische Regression hätten, würden unter diesen zusätzliche Kovariaten aufgeführt, aber die Interpretation der Ausgabe wäre dieselbe. Unter Estimate
in der zweiten Zeile steht der Koeffizient, der der links aufgelisteten Variablen zugeordnet ist. Dies ist der geschätzte Betrag, um den sich die Log-Quote leaves.presence
erhöhen würde, wenn Area
eine Einheit höher wäre. Die Log-Quote von leaves.presence
wann Area
ist ist knapp über der ersten Zeile. (Wenn Sie mit Log Odds nicht ausreichend vertraut sind, können Sie meine Antwort hier lesen: Interpretation einfacher Vorhersagen zu Odds Ratios in der logistischen Regression0.) In der nächsten Spalte sehen wir den mit diesen Schätzungen verbundenen Standardfehler . Das heißt, sie sind eine Schätzung, wie viel diese Schätzungen im Durchschnitt herumspringen würden, wenn die Studie identisch, aber mit immer neuen Daten wiederholt würde. (Wenn Sie mit der Idee eines Standardfehlers nicht sehr vertraut sind, kann es hilfreich sein, hier meine Antwort zu lesen: Wie interpretiere ich Koeffizienten-Standardfehler in linearer Regression? ) Wenn wir die Schätzung durch den Standardfehler dividieren würden, würden wir erhalten Sie einen Quotienten, von dem angenommen wird, dass er normal mit ausreichend großen Stichproben verteilt ist. Dieser Wert ist unter aufgeführt z value
. Nachfolgend Pr(>|z|)
sind die zweiseitigen p-Werte aufgeführtdie diesen z-Werten in einer Standardnormalverteilung entsprechen. Schließlich gibt es die traditionellen Bedeutungssterne (und beachten Sie den Schlüssel unter der Koeffiziententabelle).
Die Dispersion
Zeile wird standardmäßig mit GLiMs gedruckt, fügt hier jedoch nicht viele Informationen hinzu (dies ist bei Zählmodellen wichtiger). Das können wir ignorieren.
Zuletzt erhalten wir Informationen über das Modell und seine Passgenauigkeit:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Die Zeile über missingness
fehlt oft. Es zeigt sich hier, weil Sie für die entweder 314 Beobachtungen hatte leaves.presence
, Area
oder beide fehlten. Diese Teilbeobachtungen wurden nicht zur Anpassung des Modells herangezogen.
Dies Residual deviance
ist ein Maß für die Nichtanpassung Ihres Modells als Ganzes, wohingegen dies Null deviance
ein Maß für ein reduziertes Modell ist, das nur den Achsenabschnitt enthält. Beachten Sie, dass sich die mit diesen beiden verbundenen Freiheitsgrade nur um einen unterscheiden. Da Ihr Modell nur eine Kovariate hat, wurde nur ein zusätzlicher Parameter geschätzt (der Estimate
für Area
), und daher wurde nur ein zusätzlicher Freiheitsgrad verbraucht. Diese beiden Werte können verwendet werden, um einen Test des gesamten Modells durchzuführen, der analog zum globalen Test ist, der mit einem multiplen linearen Regressionsmodell geliefert wird. Da Sie nur eine Kovariate haben, wäre ein solcher Test in diesem Fall uninteressant. F
Der AIC ist ein weiteres Maß für die Anpassungsgüte, das die Fähigkeit des Modells berücksichtigt, die Daten anzupassen. Dies ist sehr nützlich, wenn zwei Modelle verglichen werden, bei denen eines möglicherweise besser passt, aber möglicherweise nur, weil sie flexibler sind und daher besser in der Lage sind, Daten aufzunehmen. Da Sie nur ein Modell haben, ist dies nicht aussagekräftig.
Der Verweis auf Fisher scoring iterations
hat damit zu tun, wie das Modell geschätzt wurde. Ein lineares Modell kann durch Lösen geschlossener Formgleichungen angepasst werden. Leider ist dies mit den meisten GLiMs einschließlich logistischer Regression nicht möglich. Stattdessen wird ein iterativer Ansatz ( standardmäßig der Newton-Raphson-Algorithmus ) verwendet. Das Modell ist locker passend, basierend auf einer Schätzung, wie hoch die Schätzungen sein könnten. Der Algorithmus prüft dann, ob sich die Anpassung verbessern lässt, indem stattdessen andere Schätzungen verwendet werden. In diesem Fall bewegt es sich in diese Richtung (z. B. mit einem höheren Wert für die Schätzung) und passt das Modell dann erneut an. Der Algorithmus stoppt, wenn er nicht wahrnimmt, dass eine erneute Bewegung zu einer weiteren Verbesserung führen würde. Diese Zeile gibt an, wie viele Iterationen vor dem Anhalten des Prozesses stattgefunden haben, und gibt die Ergebnisse aus.
In Bezug auf das zweite Modell und die Ausgabe, die Sie auflisten, ist dies nur eine andere Art der Anzeige von Ergebnissen. Insbesondere diese
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
Es handelt sich um die gleiche Art von Schätzungen, die oben erörtert wurden (allerdings aus einem anderen Modell und mit weniger ergänzenden Informationen).