Dies ist mein erster Beitrag in StackExchange, aber ich verwende ihn seit einiger Zeit als Ressource. Ich werde mein Bestes tun, um das entsprechende Format zu verwenden und die entsprechenden Änderungen vorzunehmen. Auch dies ist eine mehrteilige Frage. Ich war mir nicht sicher, ob ich die Frage in mehrere oder nur einen Beitrag aufteilen sollte. Da die Fragen alle aus einem Abschnitt im selben Text stammen, hielt ich es für relevanter, als eine Frage zu posten.
Ich erforsche die Lebensraumnutzung einer großen Säugetierart für eine Masterarbeit. Ziel dieses Projekts ist es, Forstverwaltern (die wahrscheinlich keine Statistiker sind) einen praktischen Rahmen für die Beurteilung der Lebensraumqualität auf den von ihnen bewirtschafteten Flächen in Bezug auf diese Art zu bieten. Dieses Tier ist relativ schwer zu fassen, ein Spezialist für Lebensräume und befindet sich normalerweise in abgelegenen Gebieten. Es wurden relativ wenige Studien zur Verbreitung der Arten durchgeführt, insbesondere in Bezug auf die Jahreszeit. Mehrere Tiere wurden für einen Zeitraum von einem Jahr mit GPS-Halsbändern ausgestattet. Einhundert Orte (50 Sommer und 50 Winter) wurden zufällig aus den GPS-Halsbanddaten jedes Tieres ausgewählt. Zusätzlich wurden zufällig 50 Punkte innerhalb des Heimatbereichs jedes Tieres generiert, um als "verfügbare" oder "Pseudo-Abwesenheits" -Stellen zu dienen.
Für jeden Standort wurden mehrere Lebensraumvariablen auf dem Feld erfasst (Baumdurchmesser, horizontale Bedeckung, grobe Holzabfälle usw.) und mehrere wurden aus der Ferne über das GIS erfasst (Höhe, Entfernung zur Straße, Robustheit usw.). Die Variablen sind größtenteils kontinuierlich, mit Ausnahme von 1 kategorialen Variablen mit 7 Ebenen.
Mein Ziel ist es, mithilfe der Regressionsmodellierung Ressourcenauswahlfunktionen (RSF) zu erstellen, um die relative Nutzungswahrscheinlichkeit von Ressourceneinheiten zu modellieren. Ich möchte einen saisonalen RSF (Winter und Sommer) für die Tierpopulation (Designtyp I) sowie für jedes einzelne Tier (Designtyp III) erstellen.
Ich benutze R, um die statistische Analyse durchzuführen.
Der primäre Text, den ich verwendet habe, ist ...
- "Hosmer, DW, Lemeshow, S. & Sturdivant, RX 2013. Angewandte logistische Regression. Wiley, Chicester".
Die Mehrzahl der Beispiele in Hosmer et al. benutze STATA, ich habe auch die folgenden 2 Texte als Referenz mit R verwendet .
- "Crawley, MJ 2005. Statistik: Eine Einführung mit RJ Wiley, Chichester, West Sussex, England."
- "Plant, RE 2012. Geodatenanalyse in Ökologie und Landwirtschaft mit R. CRC Press, London, GBR."
Ich folge derzeit den Schritten in Kapitel 4 von Hosmer et al. für die "gezielte Auswahl von Covariaten" und haben ein paar Fragen zum Verfahren. Ich habe die ersten Schritte im folgenden Text umrissen, um meine Fragen zu beantworten.
- Schritt 1: Eine univariable Analyse jeder unabhängigen Variablen (ich habe eine univariable logistische Regression verwendet). Jede Variable, deren univariabler Test einen p-Wert von weniger als 0,25 hat, sollte in das erste multivariable Modell aufgenommen werden.
- Schritt 2: Passen Sie ein multivariables Modell an, das alle in Schritt 1 identifizierten Kovariaten für die Aufnahme enthält, und bewerten Sie die Wichtigkeit jeder Kovariate anhand des p-Werts ihrer Wald-Statistik. Variablen, die auf traditionellen Signifikanzniveaus keinen Beitrag leisten, sollten eliminiert und ein neues Modell angepasst werden. Das neuere, kleinere Modell sollte mit dem Partial-Likelihood-Ratio-Test mit dem alten, größeren Modell verglichen werden.
- Schritt 3: Vergleichen Sie die Werte der geschätzten Koeffizienten im kleineren Modell mit ihren jeweiligen Werten aus dem großen Modell. Jede Variable, deren Koeffizient sich in der Größe merklich geändert hat, sollte wieder in das Modell aufgenommen werden, da dies wichtig ist, um die Auswirkungen der im Modell verbleibenden Variablen anzupassen. Durchlaufen Sie die Schritte 2 und 3, bis alle wichtigen Variablen im Modell enthalten sind und die ausgeschlossenen klinisch und / oder statistisch unwichtig sind. Hosmer et al. Verwenden Sie das " Delta-Beta-Hat-Prozent " als Maß für die Änderung der Größe der Koeffizienten. Sie deuten auf eine signifikante Veränderung als Delta-Beta-Hat-Prozent von> 20% hin. Hosmer et al. Definieren Sie den Delta-Beta-Hat-Prozentsatz als . Wobei der Koeffizient aus dem kleineren Modell und der Koeffizient aus dem größeren Modell ist.
- Schritt 4: Fügen Sie jede Variable, die in Schritt 1 nicht ausgewählt wurde, einzeln zum Modell hinzu, das am Ende von Schritt 3 erhalten wurde, und überprüfen Sie ihre Signifikanz entweder durch den Wald-statistischen p-Wert oder durch den Partial Likelihood Ratio-Test, wenn es sich um eine Kategorie handelt variabel mit mehr als 2 Ebenen. Dieser Schritt ist von entscheidender Bedeutung für die Identifizierung von Variablen, die für sich genommen keinen wesentlichen Einfluss auf das Ergebnis haben, aber bei Vorhandensein anderer Variablen einen wichtigen Beitrag leisten. Wir bezeichnen das Modell am Ende von Schritt 4 als vorläufiges Haupteffektmodell .
- Schritte 5-7: Ich bin noch nicht so weit fortgeschritten, daher lasse ich diese Schritte zunächst aus oder speichere sie für eine andere Frage.
Meine Fragen:
- Was wäre in Schritt 2 als traditionelles Signifikanzniveau angemessen, ein p-Wert von <0,05, der etwas größer ist als <0,25?
- Wieder in Schritt 2 möchte ich sicherstellen, dass der R-Code, den ich für den Teilwahrscheinlichkeitstest verwendet habe, korrekt ist, und ich möchte sicherstellen, dass ich die Ergebnisse richtig interpretiere. Folgendes habe ich getan:
anova(smallmodel,largemodel,test='Chisq')
Wenn der p-Wert signifikant ist (<0,05), füge ich die Variable wieder zum Modell hinzu. Wenn er nicht signifikant ist, fahre ich mit dem Löschen fort. - In Schritt 3 habe ich eine Frage bezüglich des Delta-Beta-Hat-Prozentsatzes und wann es angebracht ist, eine ausgeschlossene Variable wieder zum Modell hinzuzufügen. Zum Beispiel schließe ich eine Variable aus dem Modell aus und sie ändert das für eine andere Variable um> 20%. Die Variable mit der Änderung von> 20% in scheint jedoch unbedeutend zu sein und sieht so aus, als würde sie in den nächsten Zyklen der Schritte 2 und 3 aus dem Modell ausgeschlossen. Wie kann ich Festlegen, ob beide Variablen in das Modell einbezogen oder aus ihm ausgeschlossen werden sollen? Da ich fortfahre, indem ich jeweils 1 Variable ausschließe, indem ich zuerst die am wenigsten signifikanten Variablen lösche, zögere ich, eine Variable aus der Reihenfolge auszuschließen.
Schließlich möchte ich sicherstellen, dass der Code, den ich zur Berechnung von korrekt ist. Ich habe den folgenden Code verwendet. Wenn es ein Paket gibt, das dies für mich oder einen einfacheren Weg tut, bin ich offen für Vorschläge.
100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])