"Gibt es ein besseres Wort für diese Verteilung?"
Es gibt hier einen sinnvollen Unterschied zwischen der Verwendung von Wörtern zur Beschreibung der Eigenschaften der Verteilung und dem Versuch, einen "Namen" für die Verteilung zu finden, damit Sie sie als (ungefähr) Instanz einer bestimmten Standardverteilung identifizieren können: eine, für die eine Formel gilt Für die Verteilungsfunktion sind möglicherweise statistische Tabellen vorhanden, für die Sie die Parameter schätzen können. In letzterem Fall verwenden Sie wahrscheinlich die genannte Verteilung, z. B. "normal / Gauß" (die beiden Begriffe sind im Allgemeinen synonym), als Modell , das einige der Hauptmerkmale Ihrer Daten erfasst, anstatt die Grundgesamtheit Ihrer Daten anzugeben gezeichnet von genau folgt , dass die theoretische Verteilung. George Box leicht falsch zitieren,Alle Modelle sind "falsch", aber einige sind nützlich. Wenn Sie über den Modellierungsansatz nachdenken, sollten Sie sich überlegen, welche Funktionen Sie integrieren möchten und wie kompliziert oder sparsam Ihr Modell sein soll.
Als positiv verzerrt ist ein Beispiel eine Eigenschaft beschreibt , dass die Verteilung, aber nicht annähernd zu spezifizieren , welche off-the-shelf Verteilung ist „das“ geeignete Modell. Es schließt einige Kandidaten aus, z. B. hat die Gaußsche (dh normale) Verteilung einen Versatz von Null und ist daher nicht geeignet, Ihre Daten zu modellieren, wenn der Versatz ein wichtiges Merkmal ist. Möglicherweise sind auch andere Eigenschaften der Daten für Sie wichtig, z. B. die unimodale (nur einen Peak haben) oder zwischen 0 und 24 Stunden liegen (oder zwischen 0 und 1, wenn Sie sie als Bruch schreiben) des Tages), oder dass es eine auf Null konzentrierte Wahrscheinlichkeitsmasse gibt (da es Leute gibt, die an einem bestimmten Tag überhaupt kein YouTube schauen). selbst wenn Ihre Verteilung eine "Buckel" - oder "Glockenkurven" -Form und einen Versatz von Null oder nahe Null aufwies, sich daraus nicht automatisch ergibt, dass die Normalverteilung für sie "korrekt" ist!Kurtosis . Und es ist zu bedenken, dassandererseits die Population, aus der Ihre Daten stammen, aufgrund von Stichprobenfehlern genau einer bestimmten Verteilung entsprachIhr Datensatz kann es nicht ganz ähneln. Kleine Datensätze sind wahrscheinlich "verrauscht", und es kann unklar sein, ob bestimmte Merkmale, die Sie sehen können, z. B. zusätzliche kleine Buckel oder asymmetrische Schwänze, Eigenschaften der zugrunde liegenden Grundgesamtheit sind, aus der die Daten stammen (und die daher möglicherweise einbezogen werden sollten) in Ihrem Modell) oder ob es sich nur um Artefakte aus Ihrem speziellen Beispiel handelt (und zu Modellierungszwecken ignoriert werden sollte). Wenn Sie einen kleinen Datensatz haben und der Versatz nahe Null ist, ist es sogar plausibel, dass die zugrunde liegende Verteilung tatsächlich symmetrisch ist. Je größer Ihr Datensatz und je größer die Schiefe, desto weniger plausibel wird dies. Sie können jedoch einen Signifikanztest durchführen, um festzustellen, wie überzeugend die Beweise für die Schiefe in der Grundgesamtheit sind, aus der Ihre Daten stammen , könnte der Punkt fehlen, ob eine normale Verteilung (oder eine andere Verteilung ohne Schiefe) als Modell geeignet ist . .
Welche Eigenschaften der Daten sind für die Zwecke, für die Sie sie modellieren möchten, wirklich von Bedeutung? Beachten Sie, dass, wenn der Versatz einigermaßen klein ist und Sie sich nicht sehr darum kümmern, auch wenn die zugrunde liegende Grundgesamtheit tatsächlich versetzt ist , Sie die Normalverteilung möglicherweise immer noch als nützliches Modell zur Annäherung an diese tatsächliche Verteilung der Beobachtungszeiten ansehen. Sie sollten jedoch sicherstellen, dass dies nicht zu dummen Vorhersagen führt. Da eine Normalverteilung keinen höchstmöglichen oder niedrigstmöglichen Wert hat, werden Sie, obwohl extrem hohe oder niedrige Werte zunehmend unwahrscheinlich werden, immer feststellen, dass Ihr Modell davon ausgeht, dass es einige gibtWahrscheinlichkeit für eine negative Anzahl von Stunden pro Tag oder mehr als 24 Stunden zu beobachten. Dies wird für Sie problematischer, wenn die vorhergesagte Wahrscheinlichkeit solcher unmöglichen Ereignisse hoch wird. Eine symmetrische Verteilung wie die normale sagt voraus, dass so viele Menschen für längere Zeit mehr als z. B. 50% über dem Mittelwert und weniger als 50% unter dem Mittelwert beobachten werden. Wenn die Beobachtungszeiten sehr verzerrt sind, kann diese Art der Vorhersage auch so unplausibel sein, dass Sie irreführende Ergebnisse erhalten, wenn Sie die Ergebnisse Ihres Modells als Eingaben für einen anderen Zweck verwenden (z. B. für Sie) führen eine Simulation der Sendezeiten durch, um die optimale Werbeplanung zu berechnen). Wenn die Schräglage so bemerkenswert ist, dass Sie sie als Teil Ihres Modells erfassen möchten, klicken Sie auf die SchaltflächeEine Normalverteilung mit Versatz kann geeigneter sein. Wenn Sie sowohl die Schiefe als auch die Kurtosis erfassen möchten, sollten Sie das schiefe t berücksichtigen . Wenn Sie die physikalisch möglichen oberen und unteren Grenzen einbeziehen möchten, sollten Sie die abgeschnittenen Versionen dieser Verteilungen verwenden. Es gibt viele andere Wahrscheinlichkeitsverteilungen, die verzerrt und unimodal sein können (für geeignete Parameterauswahl), wie z. B. die F- oder Gamma- Verteilungen, und Sie können diese auch abschneiden, damit sie keine unglaublich hohen Beobachtungszeiten vorhersagen. Eine Beta-DistributionDies kann eine gute Wahl sein, wenn Sie den Bruchteil des Tages modellieren, den Sie mit dem Anschauen verbracht haben, da dieser immer zwischen 0 und 1 liegt, ohne dass ein weiteres Abschneiden erforderlich ist. Wenn Sie die Konzentration der Wahrscheinlichkeit bei genau Null aufgrund nicht-Beobachter zu übernehmen wollen, dann betrachtet in einem Gebäude Hürde Modell .
Aber an dem Punkt, an dem Sie versuchen, alle Funktionen, die Sie anhand Ihrer Daten identifizieren können, einzubeziehen und ein immer ausgefeilteres Modell zu erstellen, sollten Sie sich vielleicht fragen, warum Sie dies tun. Wäre ein einfacheres Modell von Vorteil, wenn es beispielsweise einfacher wäre, mit Mathematik zu arbeiten, oder wenn weniger Parameter geschätzt werden müssten? Wenn Sie befürchten, dass Sie aufgrund einer solchen Vereinfachung nicht alle für Sie interessanten Eigenschaften erfassen können, kann es durchaus sein, dass keine Standarddistribution genau das tut, was Sie möchten. Wir sind jedoch nicht auf die Arbeit mit benannten Distributionen beschränkt, deren mathematische Eigenschaften bereits erläutert wurden. Verwenden Sie stattdessen Ihre Daten, um eine empirische Verteilungsfunktion zu erstellen. Dadurch wird das gesamte Verhalten erfasst, das in Ihren Daten vorhanden war. Sie können ihm jedoch weder einen Namen wie "normal" oder "gamma" zuweisen noch mathematische Eigenschaften anwenden, die sich nur auf eine bestimmte Verteilung beziehen. Die Regel "95% der Daten liegen innerhalb von 1,96 Standardabweichungen vom Mittelwert" gilt beispielsweise für normal verteilte Daten und gilt möglicherweise nicht für Ihre Verteilung. obwohl zur Kenntnis , dass einige gelten Regeln für alle Distributionen, zB Tschebyscheff-Ungleichung Garantien zumindest75% Ihrer Daten müssen unabhängig von der Abweichung innerhalb von zwei Standardabweichungen vom Mittelwert liegen. Leider erbt die empirische Verteilung auch alle Eigenschaften Ihres Datensatzes, die nur durch Stichprobenfehler entstehen, nicht nur die der zugrunde liegenden Population, sodass Sie möglicherweise feststellen, dass ein Histogramm Ihrer empirischen Verteilung einige Buckel und Einbrüche aufweist, die die Population selbst nicht aufweist . Möglicherweise möchten Sie geglättete empirische Verteilungsfunktionen untersuchen oder, noch besser, Ihre Stichprobengröße erhöhen.
Zusammenfassend lässt sich sagen, dass die Normalverteilung zwar keine Abweichung aufweist, die Tatsache, dass Ihre Daten jedoch eine Abweichung aufweisen, die Normalverteilung jedoch nicht als nützliches Modell ausschließt, obwohl dies darauf hindeutet, dass eine andere Verteilung möglicherweise geeigneter ist. Sie sollten bei der Auswahl Ihres Modells neben dem Versatz auch andere Eigenschaften der Daten berücksichtigen und auch die Zwecke berücksichtigen, für die Sie das Modell verwenden möchten. Man kann mit Sicherheit sagen, dass Ihre wahre Population von Beobachtungszeiten nicht genau einer bekannten, benannten Verteilung folgt, aber dies bedeutet nicht, dass eine solche Verteilung als Modell zum Scheitern verurteilt ist. Für einige Zwecke können Sie jedoch die empirische Verteilung selbst verwenden, anstatt zu versuchen, eine Standardverteilung an diese anzupassen.