Gilt eine normale, aber stark verzerrte Verteilung als Gauß'sch?

12

Ich habe folgende Frage: Wie sieht deiner Meinung nach die Verteilung der auf YouTube verbrachten Zeit pro Tag aus?

Meine Antwort ist, dass es wahrscheinlich normal verteilt und stark nach links geneigt ist. Ich gehe davon aus, dass es einen Modus gibt, in dem die meisten Benutzer durchschnittlich viel Zeit und dann einen langen rechten Schwanz verbringen, da einige Benutzer Power-User überfordern.

Ist das eine faire Antwort? Gibt es ein besseres Wort für diese Verteilung?

— Cauder
quelle

4

Wie einige Antworten erwähnen, aber nicht betonen, wird die Schiefe informell für den längeren Schwanz benannt, wenn es einen gibt, so dass sie bei einem längeren rechten Schwanz rechtsschief ist. Links und rechts, wie in diesem Zusammenhang verwendet, setzen beide eine Anzeige nach einer Konvention voraus, dass die Größe auf der hoirizontalen Achse angezeigt wird. Wenn dies zu offensichtlich klingt, ziehen Sie Anzeigen in den Geo- und Umweltwissenschaften in Betracht, bei denen die Größe Höhe oder Tiefe ist und vertikal angezeigt wird. Kleingedrucktes: Einige Maßeinheiten für den Versatz können Null sein, selbst wenn eine Verteilung geometrisch versetzt ist.

— Nick Cox

1

Gesamtzeit pro Tag für alle Benutzer? oder Zeit pro Tag pro Person? Wenn letzteres der Fall ist, dann gibt es mit Sicherheit eine mäßig große Spitze bei 0, und in diesem Fall benötigen Sie wahrscheinlich eine Verteilung nach Art von Spitze und Platte mit einem Dirac-Delta bei 0.

— unnisfree

6

"Normal" ist synonym mit "Gauß", und Gauß-Verteilungen, auch Normalverteilungen genannt, sind nicht verzerrt.

— Michael Hardy

Ich finde die Frage im Titel sehr verschieden von der Frage im Haupttext. Zumindest ist der Titel sehr verwirrend. Keine Distribution ist "normal, aber stark verzerrt", das ist ein Widerspruch. Auch die Gaußsche Verteilung ist sehr gut definiert

und überhaupt nicht wie die Verteilung der Zeit pro Tag auf YouTube. Die Antwort auf die Frage im Titel ist also ein großes Nein.

f (x) = \frac{1}{\sqrt{2 π σ^{2}}} exp (- \frac{(x - μ)^{2}}{2 σ^{2}})

$f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \text{exp}\left( - \frac{(x-\mu)^2}{2\sigma^2}\right)$

— Sextus Empiricus

2

auch die frage am ende: gibt es ein besseres wort für diese verteilung? ist sehr vage oder breit. Die Information scheint nur "ein Modus" und "ein langer rechter Schwanz" zu sein (der Teil "wahrscheinlich normal verteilt" macht keinen Sinn). Es kann viele Distributionen geben, die diese Bedingungen erfüllen. Es ist erstaunlich, dass diese Frage mehr als zehn Antworten und mindestens ebenso viele Vorschläge für die alternative Verteilung enthält, bevor wir tatsächlich versuchen, die Frage zu klären (es gibt nicht einmal Daten).

— Sextus Empiricus

14

Ein Bruchteil pro Tag ist sicherlich nicht negativ. Dies schließt die Normalverteilung aus, die eine Wahrscheinlichkeitsmasse über die gesamte reale Achse - insbesondere über die negative Hälfte - hat.

Potenzgesetzverteilungen werden oft verwendet, um Dinge wie Einkommensverteilungen, Stadtgrößen usw. zu modellieren. Sie sind nichtnegativ und typischerweise stark verzerrt. Dies wäre das erste Mal, dass ich versuche, Zeit für das Anschauen von YouTube zu modellieren. (Oder CrossValidated-Fragen überwachen.)

Weitere Informationen zu Potenzgesetzen finden Sie hier oder hier oder in unserem Potenzgesetz - Tag.

— Stephan Kolassa
quelle

16

Sie haben völlig Recht damit, dass Normalverteilungen die reale Leitung unterstützen. Und doch ... sind sie kein schlechtes Modell für einige streng positive Eigenschaften, wie Größe oder Gewicht von Erwachsenen, bei denen der Mittelwert und die Varianz so sind, dass die negativen Werte unter dem Modell sehr unwahrscheinlich sind.

— Matt Krause

2

@MattKrause Das ist eigentlich eine gute Frage - gibt es die gleiche Wahrscheinlichkeit, dass ich "10 cm über oder unter der mittleren Höhe" oder "10 Prozent über oder unter der mittleren Höhe" sein werde? Nur der erste Fall könnte eine Normalverteilung rechtfertigen.

— Tomáš Kafka

1

@MattKrause: Ganz allgemein stimme ich dem zu. In der vorliegenden Frage geht es jedoch um den Anteil der täglichen Zeit, die Sie mit dem Anschauen von YouTube verbringen. Wir haben keine Daten, aber ich wäre sehr überrascht, wenn die Verteilung auch nur annähernd symmetrisch wäre.

— Stephan Kolassa

43

Eine normale Verteilung ist nicht stark verzerrt. Das ist ein Widerspruch. Normalverteilte Variablen haben einen Versatz von 0.

— Peter Flom - Setzen Sie Monica wieder ein
quelle

1

Wie lässt sich die Verteilung besser beschreiben? Gibt es ein Wort für diese Art der Verteilung, bei der es sich um einen Modus handelt und der dann einen langen Schwanz hat?

— Cauder

13

Unimodal und schief ist so nah wie ich kommen kann ...

— Jbowman

9

Abgesehen davon ist es einfach unglaublich, dass die Leute ihre Zeit geben, um anderen Leuten zu helfen, dieses Zeug besser zu machen. Ich weiß, es versteht sich von selbst, aber es ist so cool, was ihr beide macht!

— Cauder

6

Ja, aber es ist klärenswert, dass sich diese Aussage auf die normalverteilte Bevölkerung bezieht. Eine Stichprobe aus dieser Population kann sehr verzerrt sein.

— gung - Wiedereinsetzung von Monica

Wenn der Versatzwert klein ist ("klein", was von den Personen entschieden wird, die mit den fraglichen Statistiken befasst sind), können Sie die Population dennoch als normal behandeln, wenn auch mit geringfügigen Fehlern.

— Carl Witthoft

19

Wenn es einen langen rechten Schwanz hat, dann ist es richtig schief.

Es kann keine Normalverteilung sein, da der Versatz! = 0 ist, es ist vielleicht eine unimodale Versatznormalverteilung:

https://en.wikipedia.org/wiki/Skew_normal_distribution

— erblicken
quelle

13

Es könnte sich um eine logarithmische Normalverteilung handeln. Wie hier erwähnt :

Die Verweilzeit der Benutzer bei Online-Artikeln (Witze, Nachrichten usw.) folgt einer logarithmischen Normalverteilung.

Die angegebene Referenz ist: Yin, Peifeng; Luo, Ping; Lee, Wang-Chien; Wang, Min. (2013). Schweigen ist auch ein Beweis: Interpretation der Verweilzeit zur Empfehlung aus psychologischer Sicht. ACM Internationale Konferenz zu KDD.

— Graf Iblis
quelle

7

"Gibt es ein besseres Wort für diese Verteilung?"

Es gibt hier einen sinnvollen Unterschied zwischen der Verwendung von Wörtern zur Beschreibung der Eigenschaften der Verteilung und dem Versuch, einen "Namen" für die Verteilung zu finden, damit Sie sie als (ungefähr) Instanz einer bestimmten Standardverteilung identifizieren können: eine, für die eine Formel gilt Für die Verteilungsfunktion sind möglicherweise statistische Tabellen vorhanden, für die Sie die Parameter schätzen können. In letzterem Fall verwenden Sie wahrscheinlich die genannte Verteilung, z. B. "normal / Gauß" (die beiden Begriffe sind im Allgemeinen synonym), als Modell , das einige der Hauptmerkmale Ihrer Daten erfasst, anstatt die Grundgesamtheit Ihrer Daten anzugeben gezeichnet von genau folgt , dass die theoretische Verteilung. George Box leicht falsch zitieren,Alle Modelle sind "falsch", aber einige sind nützlich. Wenn Sie über den Modellierungsansatz nachdenken, sollten Sie sich überlegen, welche Funktionen Sie integrieren möchten und wie kompliziert oder sparsam Ihr Modell sein soll.

Als positiv verzerrt ist ein Beispiel eine Eigenschaft beschreibt , dass die Verteilung, aber nicht annähernd zu spezifizieren , welche off-the-shelf Verteilung ist „das“ geeignete Modell. Es schließt einige Kandidaten aus, z. B. hat die Gaußsche (dh normale) Verteilung einen Versatz von Null und ist daher nicht geeignet, Ihre Daten zu modellieren, wenn der Versatz ein wichtiges Merkmal ist. Möglicherweise sind auch andere Eigenschaften der Daten für Sie wichtig, z. B. die unimodale (nur einen Peak haben) oder zwischen 0 und 24 Stunden liegen (oder zwischen 0 und 1, wenn Sie sie als Bruch schreiben) des Tages), oder dass es eine auf Null konzentrierte Wahrscheinlichkeitsmasse gibt (da es Leute gibt, die an einem bestimmten Tag überhaupt kein YouTube schauen). selbst wenn Ihre Verteilung eine "Buckel" - oder "Glockenkurven" -Form und einen Versatz von Null oder nahe Null aufwies, sich daraus nicht automatisch ergibt, dass die Normalverteilung für sie "korrekt" ist!Kurtosis . Und es ist zu bedenken, dassandererseits die Population, aus der Ihre Daten stammen, aufgrund von Stichprobenfehlern genau einer bestimmten Verteilung entsprachIhr Datensatz kann es nicht ganz ähneln. Kleine Datensätze sind wahrscheinlich "verrauscht", und es kann unklar sein, ob bestimmte Merkmale, die Sie sehen können, z. B. zusätzliche kleine Buckel oder asymmetrische Schwänze, Eigenschaften der zugrunde liegenden Grundgesamtheit sind, aus der die Daten stammen (und die daher möglicherweise einbezogen werden sollten) in Ihrem Modell) oder ob es sich nur um Artefakte aus Ihrem speziellen Beispiel handelt (und zu Modellierungszwecken ignoriert werden sollte). Wenn Sie einen kleinen Datensatz haben und der Versatz nahe Null ist, ist es sogar plausibel, dass die zugrunde liegende Verteilung tatsächlich symmetrisch ist. Je größer Ihr Datensatz und je größer die Schiefe, desto weniger plausibel wird dies. Sie können jedoch einen Signifikanztest durchführen, um festzustellen, wie überzeugend die Beweise für die Schiefe in der Grundgesamtheit sind, aus der Ihre Daten stammen , könnte der Punkt fehlen, ob eine normale Verteilung (oder eine andere Verteilung ohne Schiefe) als Modell geeignet ist . .

Welche Eigenschaften der Daten sind für die Zwecke, für die Sie sie modellieren möchten, wirklich von Bedeutung? Beachten Sie, dass, wenn der Versatz einigermaßen klein ist und Sie sich nicht sehr darum kümmern, auch wenn die zugrunde liegende Grundgesamtheit tatsächlich versetzt ist , Sie die Normalverteilung möglicherweise immer noch als nützliches Modell zur Annäherung an diese tatsächliche Verteilung der Beobachtungszeiten ansehen. Sie sollten jedoch sicherstellen, dass dies nicht zu dummen Vorhersagen führt. Da eine Normalverteilung keinen höchstmöglichen oder niedrigstmöglichen Wert hat, werden Sie, obwohl extrem hohe oder niedrige Werte zunehmend unwahrscheinlich werden, immer feststellen, dass Ihr Modell davon ausgeht, dass es einige gibtWahrscheinlichkeit für eine negative Anzahl von Stunden pro Tag oder mehr als 24 Stunden zu beobachten. Dies wird für Sie problematischer, wenn die vorhergesagte Wahrscheinlichkeit solcher unmöglichen Ereignisse hoch wird. Eine symmetrische Verteilung wie die normale sagt voraus, dass so viele Menschen für längere Zeit mehr als z. B. 50% über dem Mittelwert und weniger als 50% unter dem Mittelwert beobachten werden. Wenn die Beobachtungszeiten sehr verzerrt sind, kann diese Art der Vorhersage auch so unplausibel sein, dass Sie irreführende Ergebnisse erhalten, wenn Sie die Ergebnisse Ihres Modells als Eingaben für einen anderen Zweck verwenden (z. B. für Sie) führen eine Simulation der Sendezeiten durch, um die optimale Werbeplanung zu berechnen). Wenn die Schräglage so bemerkenswert ist, dass Sie sie als Teil Ihres Modells erfassen möchten, klicken Sie auf die SchaltflächeEine Normalverteilung mit Versatz kann geeigneter sein. Wenn Sie sowohl die Schiefe als auch die Kurtosis erfassen möchten, sollten Sie das schiefe t berücksichtigen . Wenn Sie die physikalisch möglichen oberen und unteren Grenzen einbeziehen möchten, sollten Sie die abgeschnittenen Versionen dieser Verteilungen verwenden. Es gibt viele andere Wahrscheinlichkeitsverteilungen, die verzerrt und unimodal sein können (für geeignete Parameterauswahl), wie z. B. die F- oder Gamma- Verteilungen, und Sie können diese auch abschneiden, damit sie keine unglaublich hohen Beobachtungszeiten vorhersagen. Eine Beta-DistributionDies kann eine gute Wahl sein, wenn Sie den Bruchteil des Tages modellieren, den Sie mit dem Anschauen verbracht haben, da dieser immer zwischen 0 und 1 liegt, ohne dass ein weiteres Abschneiden erforderlich ist. Wenn Sie die Konzentration der Wahrscheinlichkeit bei genau Null aufgrund nicht-Beobachter zu übernehmen wollen, dann betrachtet in einem Gebäude Hürde Modell .

Aber an dem Punkt, an dem Sie versuchen, alle Funktionen, die Sie anhand Ihrer Daten identifizieren können, einzubeziehen und ein immer ausgefeilteres Modell zu erstellen, sollten Sie sich vielleicht fragen, warum Sie dies tun. Wäre ein einfacheres Modell von Vorteil, wenn es beispielsweise einfacher wäre, mit Mathematik zu arbeiten, oder wenn weniger Parameter geschätzt werden müssten? Wenn Sie befürchten, dass Sie aufgrund einer solchen Vereinfachung nicht alle für Sie interessanten Eigenschaften erfassen können, kann es durchaus sein, dass keine Standarddistribution genau das tut, was Sie möchten. Wir sind jedoch nicht auf die Arbeit mit benannten Distributionen beschränkt, deren mathematische Eigenschaften bereits erläutert wurden. Verwenden Sie stattdessen Ihre Daten, um eine empirische Verteilungsfunktion zu erstellen. Dadurch wird das gesamte Verhalten erfasst, das in Ihren Daten vorhanden war. Sie können ihm jedoch weder einen Namen wie "normal" oder "gamma" zuweisen noch mathematische Eigenschaften anwenden, die sich nur auf eine bestimmte Verteilung beziehen. Die Regel "95% der Daten liegen innerhalb von 1,96 Standardabweichungen vom Mittelwert" gilt beispielsweise für normal verteilte Daten und gilt möglicherweise nicht für Ihre Verteilung. obwohl zur Kenntnis , dass einige gelten Regeln für alle Distributionen, zB Tschebyscheff-Ungleichung Garantien zumindest75% Ihrer Daten müssen unabhängig von der Abweichung innerhalb von zwei Standardabweichungen vom Mittelwert liegen. Leider erbt die empirische Verteilung auch alle Eigenschaften Ihres Datensatzes, die nur durch Stichprobenfehler entstehen, nicht nur die der zugrunde liegenden Population, sodass Sie möglicherweise feststellen, dass ein Histogramm Ihrer empirischen Verteilung einige Buckel und Einbrüche aufweist, die die Population selbst nicht aufweist . Möglicherweise möchten Sie geglättete empirische Verteilungsfunktionen untersuchen oder, noch besser, Ihre Stichprobengröße erhöhen.

Zusammenfassend lässt sich sagen, dass die Normalverteilung zwar keine Abweichung aufweist, die Tatsache, dass Ihre Daten jedoch eine Abweichung aufweisen, die Normalverteilung jedoch nicht als nützliches Modell ausschließt, obwohl dies darauf hindeutet, dass eine andere Verteilung möglicherweise geeigneter ist. Sie sollten bei der Auswahl Ihres Modells neben dem Versatz auch andere Eigenschaften der Daten berücksichtigen und auch die Zwecke berücksichtigen, für die Sie das Modell verwenden möchten. Man kann mit Sicherheit sagen, dass Ihre wahre Population von Beobachtungszeiten nicht genau einer bekannten, benannten Verteilung folgt, aber dies bedeutet nicht, dass eine solche Verteilung als Modell zum Scheitern verurteilt ist. Für einige Zwecke können Sie jedoch die empirische Verteilung selbst verwenden, anstatt zu versuchen, eine Standardverteilung an diese anzupassen.

— Silberfisch
quelle

6

Die Gamma-Verteilung könnte ein guter Kandidat sein, um diese Art der Verteilung über nicht negative, rechtsseitige Daten zu beschreiben. Die grüne Linie im Bild sehen Sie hier: https://en.m.wikipedia.org/wiki/Gamma_distribution

— maurice
quelle

4

"Normal" und "Gauß" bedeuten genau dasselbe. Wie andere Antworten erklären, ist die Verteilung, über die Sie sprechen, nicht normal / Gaußsch, da diese Verteilung jedem Wert in der reellen Zeile Wahrscheinlichkeiten zuweist, während Ihre Verteilung nur zwischen existiert $0$ und $24$ .

— David Richerby
quelle

3

Im vorliegenden Fall ist da die pro Tag aufgewendete Zeit ab gebunden $0$ zu $1$ (Wenn als Bruchteil des Tages quantifiziert), funktionieren Verteilungen, die oben nicht begrenzt sind (z. B. Pareto, Skew-Normal, Gamma, Log-Normal), nicht, aber Beta.

— JG
quelle

2

Wie wäre es mit einem Hürdenmodell?

Ein Hürdenmodell besteht aus zwei Teilen. Das erste ist ein Bernoulli-Experiment, das bestimmt, ob Sie YouTube überhaupt verwenden. Wenn Sie dies nicht tun, ist Ihre Nutzungszeit offensichtlich null und Sie sind fertig. Wenn Sie dies tun, "bestehen Sie diese Hürde", dann ergibt sich die Nutzungsdauer aus einer anderen streng positiven Verteilung.

Ein eng verwandtes Konzept sind Modelle mit Null-Inflation. Diese sollen sich mit einer Situation befassen, in der wir eine Reihe von Nullen beobachten, aber nicht zwischen immer Nullen und manchmal Nullen unterscheiden können. Betrachten Sie beispielsweise die Anzahl der Zigaretten, die eine Person täglich raucht. Für Nichtraucher ist diese Zahl immer Null, aber manche Raucher rauchen möglicherweise an einem bestimmten Tag nicht (keine Zigaretten mehr? Auf einem langen Flug?). Im Gegensatz zum Hürdenmodell sollte die "Raucher" -Verteilung hier Null enthalten, aber diese Zählungen werden auch durch den Nichtraucherbeitrag "aufgeblasen".

— Matt Krause
quelle

0

Wenn die Verteilung tatsächlich eine Teilmenge der Normalverteilung ist, sollten Sie ein abgeschnittenes Modell berücksichtigen. Weit verbreitet ist in diesem Zusammenhang die Familie der TOBIT-Modelle.
Sie schlagen im Wesentlichen ein PDF mit einer (positiven) Wahrscheinlichkeitsmasse bei 0 und dann einen „Teilschnitt der Normalverteilung“ für positive Werte vor.
Ich verzichte hier auf die Eingabe der Formel und verweise eher auf den Wikipedia-Artikel: https://en.wikipedia.org/wiki/Tobit_model

— Lucas
quelle

-4

Normalverteilungen sind per Definition nicht verzerrt, sodass Sie nicht beide Dinge haben können. Wenn die Verteilung nach links verschoben ist, kann sie nicht Gaußsch sein. Sie müssen sich einen anderen aussuchen! Das Nächste, was mir zu Ihrer Anfrage einfällt, ist folgendes:

https://en.wikipedia.org/wiki/Skew_normal_distribution

— David
quelle

5

Ich bin damit einverstanden, mit der Ausnahme, dass das OP, wie bereits erwähnt, die linke und rechte Schiefe verwechselt. Und @behold hat bereits in einer Antwort die schiefnormale vorgeschlagen. Daher kann ich nicht erkennen, dass dies zu vorhandenen Antworten beiträgt.

— Nick Cox

Es fasst viele von ihnen in einer einfachen dreizeiligen Antwort zusammen

— David

4

Entschuldigung, aber das ist immer noch Wiederholung.

— Nick Cox

OK ... wen interessiert das?

— David

4

Nun, das tue ich. und wer auch immer +1 zu meinen Kommentaren hinzugefügt hat (eindeutig nicht ich) und wer auch immer Ihre Antwort abgelehnt hat (nicht ich, wie es passiert). Dieser Thread ist bereits lang und wiederholt sich; Noch redundantere Kommentare verbessern es für zukünftige Leser nicht.

— Nick Cox