Verteilung für prozentuale Daten

11

Ich habe eine Frage zur richtigen Verteilung, die zum Erstellen eines Modells mit meinen Daten verwendet werden soll. Ich führte eine Waldinventur mit 50 Parzellen durch, wobei jede Parzelle 20 m × 50 m misst. Für jedes Grundstück schätzte ich den Prozentsatz der Baumkronen, die den Boden beschatten. Jedes Grundstück hat einen Wert in Prozent für die Überdachung. Die Prozentsätze reichen von 0 bis 0,95. Ich mache ein Modell der prozentualen Baumkronenbedeckung ( Y- Variable) mit einer Matrix unabhängiger X- Variablen, die auf Satellitenbildern und Umgebungsdaten basieren.

Ich bin mir nicht sicher, ob ich eine Binomialverteilung verwenden soll, da eine Binomial-Zufallsvariable die Summe von n unabhängigen Versuchen ist (dh Bernoulli-Zufallsvariablen). Die Prozentwerte sind nicht die Summe der Versuche. Sie sind die tatsächlichen Prozentsätze. Sollte ich Gamma verwenden, obwohl es keine Obergrenze gibt? Sollte ich Prozentsätze in Ganzzahlen umwandeln und Poisson als Anzahl verwenden? Soll ich einfach bei Gauß bleiben? Ich habe nicht viele Beispiele in der Literatur oder in Lehrbüchern gefunden, die versuchen, Prozentsätze auf diese Weise zu modellieren. Hinweise oder Erkenntnisse sind willkommen.

Danke für deine Antworten. Tatsächlich ist die Beta-Distribution genau das, was ich brauche und wird in diesem Artikel ausführlich besprochen:

BN Eskelson, L. Madsen, JC Hagar & H. Temesgen (2011). Schätzung der Vegetationsbedeckung der Ufer mit Beta-Regressions- und Copula-Modellen. Forest Science, 57 (3), 212 & ndash; 221.

Diese Autoren verwenden das Betareg-Paket in R von Cribari-Neto und Zeileis.

Der folgende Artikel beschreibt eine gute Möglichkeit, eine Beta-verteilte Antwortvariable zu transformieren, wenn sie echte Nullen und / oder Einsen im Prozentbereich enthält:

Smithson, M. und J. Verkuilen, 2006. Eine bessere Zitronenpresse? Maximum-Likelihood-Regression mit Beta-verteilten abhängigen Variablen , Psychological Methods, 11 (1): 54–71.

distributions binomial gamma-distribution

— Ron
quelle

2

Haben Sie darüber nachgedacht, ein gebrochenes Logit oder ein Beta ohne Inflation zu verwenden ?

— Dimitriy V. Masterov

2

Danke für deine Antworten. Tatsächlich ist die Beta-Verteilung genau das, was ich brauche und wird in diesem Artikel ausführlich besprochen: Eskelson, BN, Madsen, L., Hagar, JC und Temesgen, H. (2011). Schätzung der Vegetationsbedeckung der Ufer mit Beta-Regressions- und Copula-Modellen. Forest Science, 57 (3), 212 & ndash; 221. Diese Autoren verwenden das Betareg-Paket in R von Cribari-Neto und Zeileis. Der folgende Artikel beschreibt einen guten Weg, um eine Beta-verteilte Antwortvariable zu transformieren, wenn sie echte Nullen und / oder Einsen im Prozentbereich enthält: Smithson, M. und J. Verkuilen, 2006. Ein besserer Zitronenquadrat

7

Sie haben Recht, dass die Binomialverteilung für diskrete Anteile gilt, die sich aus der Anzahl der "Erfolge" aus einer endlichen Anzahl von Bernoulli-Versuchen ergeben, und dass dies die Verteilung für Ihre Daten ungeeignet macht. Sie sollten die Gamma-Verteilung geteilt durch die Summe dieses Gammas plus eines anderen Gammas verwenden. Das heißt, Sie sollten die Beta-Verteilung verwenden , um kontinuierliche Proportionen zu modellieren.

Ich habe ein Beispiel für Beta - Regression in meiner Antwort hier: Remove Wirkung des Faktors auf dem kontinuierlichen Anteil Daten in R mit Regression .

$0$ $(0,\ 1)$

— gung - Monica wieder einsetzen
quelle

3

Kann die Beta-Distribution mit den Nullen umgehen?

— Dimitriy V. Masterov

1

Prozentwerte repräsentieren Raten unabhängig von der Anzahl der Proben. Sie möchten diese Prozentsätze als abhängige Variable und Satellitenbilder als erklärende Variable verwenden. Ich denke jedoch, dass nicht alle 50 Parzellen im Inventar eine ähnliche Anzahl von Proben hatten. Ein geeignetes Modell, das diese Prozentsätze mit anderen Variablen in Beziehung setzt, sollte diese Unsicherheit bei der Messung berücksichtigen und den Parzellen mit hohen Stichproben mehr Gewicht verleihen.

Darüber hinaus ist die Fehlerverteilung bei Ihren Daten eindeutig binomisch. Die Fehlervarianz ist an Grenzen am geringsten, dies wird durch eine Binomialverteilung erfasst.

Dies alles scheint mir das archetypische Beispiel für die Verwendung eines GLM mit Binomialfehlermodell zu sein.

"Statistik: Eine Einführung mit R", Kapitel 14 von Crawley, beschreibt genau dieses Thema und wie man es mit R analysiert.

— Bonobo
quelle

4

Die Binomialverteilung ist die Verteilung der Anzahl der Erfolge aus einer bekannten Anzahl von Bernoulli-Versuchen. Ihr Kommentar, dass "die Tatsache, dass Bernoulli-Versuche auch durch eine Binomialverteilung beschrieben werden, nicht bedeutet, dass alles, was durch eine Binomialverteilung beschrieben wird, mit der Bernoulli-Struktur übereinstimmen muss", ist nicht korrekt. Die Binomialverteilung ist für kontinuierliche Proportionen nicht geeignet. Außerdem habe ich nicht die Gamma-Verteilung vorgeschlagen, sondern die Beta-Verteilung.

— Gung - Reinstate Monica

1

Ja, du hast vollkommen recht.

— Bonobo