Konvertieren Sie die Poisson-Verteilung in die Normalverteilung


10

Ich habe hauptsächlich einen Informatik-Hintergrund, aber jetzt versuche ich, mir grundlegende Statistiken beizubringen. Ich habe einige Daten, von denen ich denke, dass sie eine Poisson-Verteilung haben

Geben Sie hier die Bildbeschreibung ein

Ich habe zwei Fragen:

  1. Ist das eine Poisson-Distribution?
  2. Zweitens ist es möglich, dies in eine Normalverteilung umzuwandeln?

Jede Hilfe wäre dankbar. Vielen Dank


3
1. Nein, eine Poisson-Verteilung hat im Allgemeinen einen Modus in der Nähe ihres Parameters, und dies mit einer Poisson-Verteilung abzugleichen, würde einen sehr kleinen Wert für den Parameter bedeuten. 2. Ja und nein. Was möchten Sie mit einer Normalverteilung machen?
Dilip Sarwate

Ich versuche, diese Daten in eine logistische Regression einzuspeisen. Ich wurde zu der Überzeugung gebracht, dass normalverteilte Daten viel bessere Ergebnisse liefern
Abhi

Antworten:


11

1) Was abgebildet ist, scheinen (gruppierte) kontinuierliche Daten zu sein, die als Balkendiagramm gezeichnet sind.

Sie können ziemlich sicher schließen, dass es sich nicht um eine Poisson-Distribution handelt.

Eine Poisson-Zufallsvariable nimmt die Werte 0, 1, 2, ... an und hat nur dann den höchsten Peak bei 0, wenn der Mittelwert kleiner als 1 ist. Sie wird für Zähldaten verwendet. Wenn Sie ein ähnliches Diagramm mit Poisson-Daten gezeichnet haben, könnte dies wie folgt aussehen:

Geben Sie hier die Bildbeschreibung ein

Der erste ist ein Poisson, der eine ähnliche Schiefe wie Sie aufweist. Sie können sehen, dass der Mittelwert ziemlich klein ist (um 0,6).

Der zweite ist ein Poisson, dessen Bedeutung (bei einer sehr groben Vermutung) Ihrer ähnlich ist. Wie Sie sehen, sieht es ziemlich symmetrisch aus.

Sie können die Schiefe oder den großen Mittelwert haben, aber nicht beide gleichzeitig.

2) (i) Sie können diskrete Daten nicht normalisieren -

Mit den gruppierten Daten verschieben Sie mithilfe einer monoton ansteigenden Transformation alle Werte in einer Gruppe an dieselbe Stelle, sodass die niedrigste Gruppe immer noch den höchsten Peak aufweist - siehe Abbildung unten. Im ersten Diagramm verschieben wir die Positionen der x-Werte so, dass sie genau mit einem normalen cdf übereinstimmen:

Geben Sie hier die Bildbeschreibung ein

Im zweiten Diagramm sehen wir die Wahrscheinlichkeitsfunktion nach der Transformation. Wir können so etwas wie Normalität nicht wirklich erreichen, weil es sowohl diskret als auch schief ist. Der große Sprung der ersten Gruppe bleibt ein großer Sprung, egal ob Sie ihn nach links oder rechts schieben.

(ii) Kontinuierlich verzerrte Daten können so transformiert werden, dass sie einigermaßen normal aussehen. Wenn Sie rohe (nicht gruppierte) Werte haben und diese nicht stark diskret sind, können Sie möglicherweise etwas tun, aber selbst dann, wenn Menschen versuchen, ihre Daten zu transformieren, ist dies entweder unnötig oder das zugrunde liegende Problem kann auf eine andere (im Allgemeinen bessere) Weise gelöst werden . Manchmal ist Transformation eine gute Wahl, aber normalerweise aus nicht sehr guten Gründen.

Also ... warum willst du es transformieren?


Vielen Dank, Glen, für die sehr detaillierte Antwort. Es erklärt viele Konzepte. Ich versuche, diese Daten in ein logistisches Regressionsmodell einzuspeisen. Ich dachte (ich bin mir jetzt nicht so sicher), dass normalverteilte Daten viel bessere Ergebnisse liefern. Was empfehlen Sie?
Abhi

1
Dies ist die unabhängige Variable (eine Variable)? Was meinen Sie in diesem Zusammenhang mit "besseren Ergebnissen"? x
Glen_b -State Monica

@Glen_b Vielen Dank für die wundervolle Antwort. Ich komme auch aus der Informatik und habe mich mit dieser Frage beschäftigt: stats.stackexchange.com/questions/408232/… Bitte teilen Sie mir Ihre Gedanken dazu mit. Ich freue mich darauf, von dir zu hören.
Nochmals

Bitte verwenden Sie keine Kommentare, um Personen für die Beantwortung Ihrer Fragen zu gewinnen. Ich habe deine Frage schon gesehen.
Glen_b -Rate State Monica

0

Weitere lustige Informationen für die Nachwelt veröffentlichen.

Es gibt einen älteren Beitrag, in dem ein ähnliches Problem hinsichtlich der Verwendung von Zähldaten als unabhängige Variable für logistische Regressionen erörtert wird.

Hier ist es:

Verstößt die Verwendung von Zähldaten als unabhängige Variable gegen eine der GLM-Annahmen?

Wie Glen bereits erwähnt hat, können Sie die nicht transformierten Zähldaten möglicherweise als direkten Bestandteil Ihres logistischen Regressionsmodells verwenden, wenn Sie lediglich versuchen, ein dichotomes Ergebnis vorherzusagen. Ein Hinweis zur Vorsicht: Wenn eine unabhängige Variable (IV) sowohl poissonverteilt als auch über viele Größenordnungen unter Verwendung der Rohwerte reicht, kann dies zu sehr einflussreichen Punkten führen, die wiederum Ihr Modell beeinflussen können. In diesem Fall kann es hilfreich sein, eine Transformation zu Ihren IVs durchzuführen, um ein robusteres Modell zu erhalten.

Transformationen wie die Quadratwurzel oder das Protokoll können die Beziehung zwischen der IV und dem Odds Ratio verbessern. Wenn beispielsweise Änderungen von X um drei ganze Größenordnungen (vom mittleren X-Wert entfernt) einer Änderung der Wahrscheinlichkeit des Auftretens von Y von 0,1 (von 0,5 weg) entsprachen, ist es ziemlich sicher anzunehmen, dass Modellabweichungen auftreten führen zu erheblichen Verzerrungen aufgrund der extremen Hebelwirkung von Ausreißer-X-Werten.

Stellen Sie sich zur weiteren Veranschaulichung vor, wir wollten die Scoville-Bewertung verschiedener Chilischoten (Domäne [X] = {0, 3,2 Millionen}) verwenden, um die Wahrscheinlichkeit vorherzusagen, dass eine Person den Pfeffer als "unangenehm scharf" einstuft (Bereich [Y] = {1 = ja, 0 = nein}) nach dem Verzehr eines Pfeffers der entsprechenden Bewertung X.

https://en.wikipedia.org/wiki/Scoville_scale

Wenn Sie sich das Diagramm der Scoville-Bewertungen ansehen, können Sie sehen, dass eine logarithmische Transformation der rohen Scoville-Bewertungen eine nähere Annäherung an die subjektiven (1-10) Bewertungen jedes Chilis ergibt.

Wenn wir also in diesem Fall ein robusteres Modell erstellen möchten, das die wahre Beziehung zwischen den Scoville-Rohbewertungen und der subjektiven Wärmebewertung erfasst, könnten wir eine logarithmische Transformation für X-Werte durchführen. Auf diese Weise reduzieren wir den Einfluss der übermäßig großen X-Domäne, indem wir den Abstand zwischen Werten, die sich um Größenordnungen unterscheiden, effektiv "verkleinern" und folglich das Gewicht von X-Ausreißern (z. B. Capsaicin-intoleranten und / oder verrückten Gewürzfeinden) reduzieren! !!) haben auf unsere Vorhersagen.

Hoffe, dies fügt einen lustigen Kontext hinzu!

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.