Wahrscheinlichkeit, an einem Schalttag geboren zu werden?


31

Kennt jemand angesichts der Tatsache, dass heute ein Schalttag ist, die Wahrscheinlichkeit, an einem Schalttag geboren zu werden?


30
Beachten Sie, dass Geburten nicht gleichmäßig über das ganze Jahr verteilt sind, sodass die Wahrscheinlichkeit, dass ein zufällig ausgewählter Tag ein Schalttag ist, nicht mit der Wahrscheinlichkeit identisch ist, dass sie an einem einzigen Tag geboren werden.
Ben Millwood

17
Von wem geboren? Alle Menschen in der Geschichte? Heute? Alle Menschen am Leben? Vorausschauend in die Zukunft? Wahrscheinlichkeiten sind bedeutungslos, es sei denn, die Ereignisse, auf die sie sich beziehen, sind genau definiert.
Whuber

15
100% der heute geborenen Menschen werden es sein. Hilft das?
Aslum

8
Viele Eltern wollen nicht, dass ihre Kinder am Schalttag geboren werden. Mit dem Anstieg der geplanten Kaiserschnitte ist die Wahrscheinlichkeit geringer als an einem zufälligen Tag. fivethirtyeight.com/features/…
James Lawruk

3
Ich stimme mit @whuber überein, dass die Frage schlecht definiert ist. Ohne die richtige Definition des Wahrscheinlichkeitsraums kann die Frage nicht beantwortet werden. Daher die Gegenstimme.
mpiktas

Antworten:


24

Sicher. Eine ausführlichere Erklärung finden Sie hier: http://www.public.iastate.edu/~mlamias/LeapYear.pdf .

Der Autor kommt jedoch zu dem Schluss: "In 2 Jahrtausenden gibt es 485 Schaltjahre. In 2 Jahrtausenden gibt es also . Von diesen Tagen liegt der 29. Februar bei 485 von ihnen (den Schaltjahren), so ist die Wahrscheinlichkeit , 485 / 730.485 = 0,0006639424 "485(366)+(2000485)(365)=730485485/730485=0.0006639424


9
Warum kann es nicht als 1 / (Anzahl der Tage in 4 Jahren) = 1/1461 = 0,00068 berechnet werden ?
Siddhesh

21
@ Siddhesh Es gibt eine Regel in Bezug auf die Jahrhunderte. So ist zB 2100 kein Schaltjahr
Rentrop

8
@Siddhesh, leider ist es nicht ganz so einfach. Schaltjahre etwas komplexer. Eine durchschnittliche Jahreslänge beträgt im Durchschnitt 365,2425 Tage, nicht 365,25. Wie auf der Wikipedia-Seite "Schaltjahr" geschrieben, werden im gregorianischen Kalender alle 400 Jahre drei Schalttage entfernt. Dies entspricht der Länge des Schaltzyklus. Dazu wird der 29. Februar in den drei Jahrhunderten entfernt (ein Vielfaches von 100). das kann nicht genau durch 400 geteilt werden. [3] Die Jahre 2000 und 2400 sind Schaltjahre, während 1800, 1900, 2100, 2200, 2300 und 2500 gemeinsame Jahre sind. "
StatsStudent

10
Ich verstehe nicht, warum Sie über 2000 Jahre nachdenken müssen. Schaltjahre haben einen Zyklus von 400 Jahren. Warum also nicht einfach auf "Es gibt 97 Schaltjahre in 400 Jahren" reduzieren?
Philip Kendall

7
Warum sollten wir solche geringfügigen Einflüsse wie "abgesagte" Schalttage in Jahrhundertjahren nicht als Vielfaches von 400 betrachten, aber andererseits äußere Einflüsse, wie fast alle Geburten, die vor dem 29. Februar zurückliegen oder eingeführt werden, nicht berücksichtigen, nur um zu sparen? das Kind von der Unannehmlichkeit (oder anderen Gründen)? - Zumindest hier in Deutschland ist die Wahrscheinlichkeit für eine Geburt am 29. Februar (geschätzt) gleich Null.
Ich bin mit Monica

23

Um diese Wahrscheinlichkeit mithilfe von Statistiken genau vorhersagen zu können, wäre es hilfreich zu wissen, wo die Geburt stattgefunden hat.

Diese Seite http://chmullig.com/2012/06/births-by-day-of-year/ enthält ein Diagramm, in dem eine Teilmenge der Anzahl der Geburten pro Tag (Multiplikation des 29. mit 4, was falsch und unerwünscht ist) dargestellt ist Für diese Frage verlinkt es aber auch auf die Originaldaten und gibt einen groben Hinweis darauf, was Sie in den USA erwarten können. Ich würde annehmen, dass diese Kurve für andere Länder und insbesondere für andere Kontinente nicht gilt. Insbesondere die südliche Hemisphäre und die Äquatorregion können von diesen Ergebnissen erheblich abweichen - vorausgesetzt, das Klima ist ein bestimmender Faktor.

Darüber hinaus gibt es das Thema "Wahlgeburt" (angesprochen von den Autoren von http://bmjopen.bmj.com/content/3/8/e002920.full ) - in ärmeren Regionen der Welt würde ich ein anderes erwarten Verteilung der Geburten, einfach weil (nicht notfall-) Kaiserschnitte oder induzierte Geburten seltener sind als in entwickelten Ländern. Dies verzerrt die endgültige Verteilung der Geburten.

Unter der Annahme von ~ 71 Millionen Geburten (grob grafisch dargestellter Mittelwert * 366) und 46.000 Geburten am 29. Februar, die die Verteilung der Schaltjahre in den Daten nicht berichtigen, erreiche ich eine Wahrscheinlichkeit von, da der genaue Zeitraum nicht angegeben ist um ~ 0,000648. Dies liegt etwas unter dem Wert, den man bei einer flachen Verteilung der Geburten erwarten würde, und entspricht damit dem allgemeinen Eindruck, den die Grafik vermittelt.

Ich überlasse einem motivierten Leser einen Signifikanztest dieser groben Schätzung. Angesichts der Tatsache, dass der 29. (obwohl unkorrigiert - das Jahr 2000 führt zu einer unterdurchschnittlichen Verzerrung der Daten) auch für die ohnehin schon niedrigen Februar-Standards niedrige Werte aufweist, gehe ich von einem relativ hohen Vertrauen aus, dass die Null-Hypthose der Gleichverteilung verworfen werden kann.


1
Der Datensatz hat das Geburtsdatum 30. und 31. Februar. Das ist lustig. Es muss vor der Analyse gründlich aufgeräumt werden, aber es enthält viele großartige Daten.
Aksakal

22

Ich denke, die Antwort auf diese Frage kann nur empirisch sein. Jede theoretische Antwort wäre fehlerhaft, ohne das Phänomen der Geburtstagsauswahl, der Saisonabhängigkeit usw. zu berücksichtigen. Diese Dinge sind theoretisch unmöglich zu behandeln.

Die Geburtstagsdaten sind aus Datenschutzgründen in den USA schwer zu finden. Es gibt einen anonymen Datensatz hier . Es ist von Versicherungsanträgen in den USA. Der Unterschied zu anderen Berichten, wie zum Beispiel einem populären, oft zitierten NYT-Artikel , besteht darin, dass die Häufigkeit von Geburten nach Datum aufgelistet wird, anstatt die einfache Rangfolge der Tage in einem Jahr. Die Schwachstelle ist natürlich die Stichprobenverzerrung, da sie von der Versicherung herrührt: Nichtversicherte sind nicht eingeschlossen usw.

Nach den Daten gab es 325 Geburten im 29. Februar von insgesamt 481040. Nach Angaben von Roy Murphy erstreckt sich die Stichprobe von 1981 bis 1994. Sie umfasst 3 Schaltjahre von insgesamt 14 Jahren. Ohne Anpassungen die Wahrscheinlichkeit zwischen 1981 und 1994 am 29. Februar geboren zu werden, bei 0,0675% liegen.

Sie können Buchhaltung für die Häufigkeit der Schaltjahre , die Wahrscheinlichkeit einstellen, die zu 1/4 der Nähe ist ( nicht gerade obwohl ), zB durch diese Zahl multipliziert mit zu 0,079% Schätzung zu gelangen. Hier wird die bedingte Wahrscheinlichkeit p von am 29. Februar in einem Schaltjahr ist mit der beobachteten Häufigkeit verknüpft geboren F o = 325 durch die Frequenz f L = 3 : Schaltjahr in einer Probe F o = f L / N F p , wobei N = 14 ist14/12pFo=325fL=3

Fo=fL/NFp,
N=14ist die Anzahl der Jahre in einer Stichprobe und ist die Gesamthäufigkeit der Geburten.F=481040

Normalerweise ist die Wahrscheinlichkeit der Schaltjahre ist , damit die langfristige durchschnittliche Wahrscheinlichkeit P L ist geboren werden am 29. Februar: P L = P Lp p LNpL1/4PL

PL=pLppLNfLFoF0.079%

Sie könnten in der bedingten Wahrscheinlichkeit interessiert seine von am 29. Februar gegeben geboren ist , dass Sie auf Schaltjahr geboren wurden: p = Np

p=NfLFoF0.32%

PLp

Natürlich war diese Diskussion auf die USA ausgerichtet. Wer weiß, wie es in anderen Ländern aussieht.

UPDATE: Wir haben automatisch angenommen, dass OP der Gregorianische Kalender ist. Noch interessanter wird es, wenn Sie verschiedene Kalender wie den Mondkalender Hijri in Betracht ziehen , bei dem die Schaltjahre etwa alle 30 Jahre liegen.

UPDATE 2:

pFp=1,527Amitabh Chandra, Harvard University

Nun, wie wahrscheinlich ist es, dass diese ganz besonderen Tage im gregorianischen Kalender: der 1. Januar, der 25. Dezember und Deb 29 zufällig als die beliebtesten Geburtstage erscheinen? Ich sage, es ist höchst unwahrscheinlich, dass es zufällig auftritt. Umso interessanter ist es zu sehen, was in anderen Kalendern wie Hijri los ist.

UPDATE 3:

PL,p

p^1/3660,27
P^Lp3663654+10,068

UPDATE 4:

χ2

14365+3

d=[0101 1482
...
1231 1352];
%%
tc = sum(d(:,2)); % total obs

idL = 60; % index of Feb 29

% theor frequency, assuming uniform
ny = 1994 - 1981 + 1; % num of years
nL = 3; % # of leap years: 1984, 1988, 1992
nd = 365*ny + nL; % total # of days

fc = tc/nd; % expected freq for calendar date in sample
td = ones(366,1)*fc*ny; % roll the dates into day of year
td(idL) = fc*nL;

fprintf(1,'non-leap day expected freq: %f\n',td(end))
fprintf(1,'leap day expected freq: %f\n',td(idL))
fprintf(1,'non-leap day average freq: %f\n',mean(d([1:idL-1 idL+1:end],2)))
fprintf(1,'non-leap day freq std dev: %f\n',std(d([1:idL-1 idL+1:end],2)))
fprintf(1,'leap day observed freq: %f\n',d(idL,2))

% plots
bar(d(:,2))
hold on
plot(td,'r')
legend('empirical','theoretical')
title('Distribution of birth dates 1981-1994')
set(gca,'XTick',1:30:366)
set(gca,'XTickLabels',[num2str(floor(d(1:30:366,1)/100)) repmat('/',13,1) num2str(rem(d(1:30:366,1),100))])
grid on

% chi^2 test
[h p]=chi2gof(d(:,2),'Expected',td)

AUSGABE:

non-leap day expected freq: 1317.144534
leap day expected freq: 282.245257
non-leap day average freq: 1317.027397
non-leap day freq std dev: 69.960227
leap day observed freq: 325.000000

h =

     1


p =

     0

Bildbeschreibung hier eingeben


3
Es ist eine nützliche Analyse (+1). Ich frage mich, ob es einen Zusammenhang zwischen den von Ihnen analysierten Frequenzen und der in der Frage geforderten (vage definierten) Wahrscheinlichkeit gibt .
Whuber

1
@whuber, die Wahrscheinlichkeiten in meiner Antwort beziehen sich auf Fälle wie die Analyse von Versicherungsanträgen oder einige Benutzerdaten. Sie haben beispielsweise eine Website und möchten problematische Benutzerdaten kennzeichnen. Sie können die Häufigkeit der Geburtstage am 29. Februar mit meinen Wahrscheinlichkeiten vergleichen. Wenn Sie jedoch eine Familie planen und diese Frage stellen, sind meine Zahlen so ziemlich nutzlos. Der Grund ist, dass sie keine Faktoren berücksichtigen, wie zum Beispiel, wann genau das Paar tatsächlich kopuliert, oder Fruchtbarkeits- und Periodenmuster von Paaren, die die Hauptdeterminante für das Geburtsdatum sind.
Aksakal

Gut zu sehen, dass Sie nicht mit der Mathematik begonnen haben, bevor Sie andere Faktoren außer den reinen Statistiken in
Betracht gezogen haben

8

Der Umschlag meines Lieblingsbuchs liefert jemals einen hochrelevanten Beweis gegen die Annahme einer einheitlichen Zuordnung von Geburten zu Daten. Insbesondere, dass Geburten in den USA seit 1970 mehrere Trends aufweisen, die sich überlagern: ein langer, mehrdekadiger Trend, ein nicht periodischer Trend, Wochentagstrends, Tag-des-Jahres-Trends, Urlaubstrends (weil Verfahren wie Kaiserschnitt) Abschnitt ermöglicht es einem, das Geburtsdatum effektiv zu planen, und Ärzte tun dies häufig nicht an Feiertagen. Das Ergebnis ist, dass die Wahrscheinlichkeit, an einem zufällig ausgewählten Tag in einem Jahr geboren zu werden, nicht einheitlich ist. Da die Geburtenrate zwischen den Jahren variiert, sind auch nicht alle Jahre gleich wahrscheinlich.

Dies zeigt auch, dass die Lösung von Asksal zwar ein sehr starker Konkurrent, aber auch unvollständig ist. Eine kleine Anzahl von Schalttagen wird von allen von den Auswirkungen hier im Spiel „kontaminiert“ werden, so Asksal Schätzung wird auch (ganz zufällig) die Erfassung der Wirkung von Tag-of-Woche und langfristigen Trends zusammen mit dem 29. Februar bewirken. Welche Effekte zu berücksichtigen sind und welche nicht, ist in Ihrer Frage nicht klar definiert.

Und diese Analyse hat nur Auswirkungen auf die USA, die demografische Trends aufweisen, die sich möglicherweise von denen anderer Nationen oder Bevölkerungsgruppen unterscheiden. Japans Geburtenrate ist zum Beispiel seit Jahrzehnten rückläufig. Chinas Geburtenrate wird vom Staat reguliert, mit einigen Konsequenzen für die Geschlechtszusammensetzung seiner Nation und damit für die Geburtenraten in den nachfolgenden Generationen.

Ebenso beschreibt Gelmans Analyse nur einige der letzten Jahrzehnte, und es ist nicht unbedingt klar, dass dies sogar die Ära ist, die für Ihre Frage von Interesse ist.

Bildbeschreibung hier eingeben

Für diejenigen, die sich für so etwas begeistern, wird das Material im Cover im Kapitel über Gaußsche Prozesse ausführlich besprochen.


2
Eine kurze Beschreibung des verwendeten Modells finden Sie auch im Blog-Beitrag hier: andrewgelman.com/2012/06/19/…
Sakari Cajanus

3

Der 29. Februar ist ein Datum, das jedes Jahr ein Vielfaches von 4 ist .

Jedoch werden Jahre, die ein Vielfaches von 100 sind, aber keines von 400, nicht als Schaltjahre betrachtet (Beispiel: 1900 ist kein Schaltjahr, während 2000 oder 1600 es sind). Daher ist es heutzutage alle 400 Jahre dasselbe Muster.

Lassen Sie uns also mit einem Intervall von [0; 400 [ rechnen:

In einem Zeitraum von 400 Jahren gibt es genau 4 x 25 = 100 Jahre, die ein Vielfaches von 4 sind . Aber wir müssen 3 (Jahre Vielfaches von 100, aber nicht von 400) von 100 subtrahieren , und wir bekommen 100 - 3 = 97 Jahre.

Jetzt müssen wir 97 mit 366 multiplizieren, 97 x 366 = 35502 (Anzahl der Tage in einem Schaltjahr in einem Zeitraum von 400 Jahren), es bleibt (365 x (400-97)) = 110 595 (Anzahl der Tage, die nicht t in einem Schaltjahr in einem Zeitraum von 400 Jahren).

Dann müssen wir nur diese beiden Zahlen addieren, um die Gesamtzahl der Tage in einem Zeitraum von 400 Jahren zu ermitteln: 110 595 + 35502 = 146 097 .

Zum Schluss ist unsere Wahrscheinlichkeit der 29. Februar in einem Zeitraum von 400 Jahren, also 97, vorausgesetzt, es gibt 97 Schaltjahre geteilt durch die Gesamtzahl der Tage unseres Intervalls:

p = 97/146097 ≤ 0,0006639424492

Hoffe das ist richtig und klar.


7
Dies ist eine gute Analyse der Wahrscheinlichkeit, dass ein zufällig ausgewähltes Datum der 29. Februar ist. Ich glaube, der größte Teil der Diskussion in diesem Thread konzentriert sich auf die Tatsache, dass hiermit keine Fragen zu Geburtenchancen beantwortet werden, die sich nicht wirklich wie zufällige Ziehungen aus der Menge der möglichen Tage verhalten.
Whuber

1
Ein viel einfacherer Weg ist zu sagen, dass es 97 Schaltjahre pro 400 Jahre gibt, wie Sie es bereits erarbeitet haben. Berechnen Sie die Anzahl der Tage in 400 normalen Jahren. 400 * 365 = 146000. Dann müssen Sie die 97 Schalttage addieren, die 146097 ergeben.
CJ Dennis

2

Ich glaube, dass hier zwei Fragen verwechselt werden. Die eine lautet "Wie groß ist die Wahrscheinlichkeit, dass ein bestimmter Tag der 29. Februar ist?". Der zweite ist (und der, der tatsächlich gefragt wurde): "Wie hoch ist die Wahrscheinlichkeit, an einem Schalttag geboren zu werden?"

Der Ansatz, einfach Tage zu zählen, scheint irreführend zu sein, wie Aksakal darauf hinweist. Das Zählen der Tage und das Berechnen der Häufigkeit des Auftretens am 29. Februar beschäftigt sich mit der Frage: "Wie groß ist die Wahrscheinlichkeit, dass ein bestimmter Tag ein 29. Februar ist?" (Stellen Sie sich vor, Sie wachen nach einem Koma auf, ohne eine Ahnung zu haben, an welchem ​​Tag es ist. Die Wahrscheinlichkeit, dass es sich um einen 29. Februar handelt, ist wie oben angegebenp=971460970,00066394).

Nach der Antwort von Aksakal kann die Wahrscheinlichkeit nur auf empirischen Studien zur Verteilung der Geburten über die Tage des Jahres beruhen. Unterschiedliche Datensätze werden zu unterschiedlichen Schlussfolgerungen führen (z. B. aufgrund von Saisonalitätseffekten, langfristigen Trends bei den Geburtenraten und kulturellen Unterschieden). Aksakal wies auf eine Studie hin (Ein Kommentar: um das nicht repräsentative Auftreten eines Schaltjahres in den genannten Daten zu erklären (d. H314) im Vergleich zur langfristigen Häufigkeit von Schaltjahren (d. h 97400) müssten Sie die Häufigkeit der Geburt am 29. Februar aus der Stichprobe mit multiplizieren 97400143=6796001,131667).

Schließlich gibt es eine dritte mögliche Interpretation der Frage, die meines Erachtens jedoch nicht beabsichtigt war: "Wie groß ist die Wahrscheinlichkeit, dass eine bestimmte Person an einem Schalttag geboren wird?" Nun, für jeden, der schon geboren ist, ist das einfach. Es ist entweder0 oder 1. Für alle, die nicht geboren sind, aber bereits schwanger wurden, kann dies auch anhand empirischer Studien zur Schwangerschaftsdauer geschätzt werden (siehe Wikipedia für eine Übersicht ). Für alle, die noch nicht schwanger sind, siehe oben.


2
Ähm, ich war bereit, das abzustimmen, und dann kam ich zu Naja, für jeden, der schon geboren wurde, ist das einfach. Es ist entweder 0 oder 1. Nr.
mattdm

Ich denke, das hängt ein bisschen von der Interpretation der Wahrscheinlichkeiten ab. Angenommen, ich habe eine Münze geworfen. Ich habe es angeschaut und kenne das Ergebnis (zB Köpfe). Sie stehen neben mir, haben aber das Ergebnis nicht gesehen. Wie groß ist die Wahrscheinlichkeit, dass die Münze Köpfe zeigt (für Sie, für mich, "objektiv")? Im obigen Beispiel: Für die gegebene (geborene) Person ist die Wahrscheinlichkeit entweder 0 oder 1 (vorausgesetzt, sie weiß, an welchem ​​Datum sie geboren wurde). Wenn Sie eine Person zufällig auswählen und ihren Geburtstag erraten mussten, ist die Wahrscheinlichkeit, dass es sich um einen 29. Februar handelt, eine empirische Frage.
data_enthusiast

1

Mir ist aufgefallen, dass die meisten der obigen Antworten dies durch Berechnen der Anzahl der Schalttage in einem bestimmten Zeitraum klären. Es gibt einen einfacheren Weg, die Antwort per Definition zu 100% genau zu erhalten:

Wir verwenden Schaltjahre, um den regulären Kalender (365 Tage) auf das mittlere tropische Jahr (auch bekannt als mittleres Sonnenjahr) einzustellen. Das mittlere tropische Jahr "ist die Zeit, die die Sonne benötigt, um im Wechsel der Jahreszeiten von der Erde aus gesehen zu derselben Position zurückzukehren" (Wikipedia). Das tropische Jahr variiert leicht, aber das mittlere (durchschnittliche) tropische Jahr liegt bei etwa 365,24667.

Wenn die Schalttage korrekt sind, ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter Tag ein Schalttag ist, ((tropisches Jahr) - (Nichtschaltjahr)) / tropisches Jahr

Wenn wir die ungefähre Zahl eingeben, die wir haben, ist dies (365.24667-365) /365.24667 oder 0,24667 / 365.24667 oder 675 pro Million (0,0675%).

Dies gilt jedoch für einen zufällig ausgewählten Tag. Ich stelle mir vor, dass dies von Eltern, die ihren Kindern lieber nicht erklären möchten, "Ihr tatsächlicher Geburtstag kommt nur einmal alle 4 Jahre", erheblich verzerrt ist.


3
Ich glaube nicht, dass dies die gestellte Frage beantwortet, da der Schalttag, der 29. Februar, nur in bestimmten Kalendersystemen existiert. Diese Kalendersysteme wurden in den letzten historischen Epochen nur in bestimmten Gesellschaften verwendet. Zum Beispiel ist diese Frage nicht für jemanden verständlich, der die Zeit nach dem hebräischen Kalender berechnet, der überhaupt kein "Februar" hat! Selbst wenn wir von einem Kalender mit einem Schalttag ausgehen, kann die Unbestimmtheit der Wahrscheinlichkeitsverteilung von Geburten auf Tage nicht aufgelöst werden.
Sycorax sagt Reinstate Monica

@ user777, das ist irrelevant. Wenn Sie einer Kultur angehören, die den Schalttag nicht kennt, gibt es immer noch Individuen, die an unserem Schalttag geboren werden.
Octopus

1
@Octopus Nicht, wenn sie vor Oktober 1582 geboren wurden, dem Monat, in dem der Gregorianische Kalender eingeführt wurde. Die Frage ist nicht spezifisch genug, um zu erkennen, welche Populationen in Betracht gezogen werden, weshalb mein Kommentar von entscheidender Bedeutung ist.
Sycorax sagt Reinstate Monica

@ user777, Sie teilen sich die Haare. Der Gregorianische Kalender existiert heute und kann verwendet werden, um jeden einzelnen Tag in der Geschichte zu platzieren, unabhängig davon, ob er zu dieser Zeit beobachtet wurde oder nicht.
Octopus

1
@ Octopus Woher weißt du, dass das der Punkt ist?
Sycorax sagt Reinstate Monica

-4

Ich fragte meine Schwester, deren Geburtstag der 29. Februar ist, und sie sagte: "Das Ergebnis meiner eigenen empirischen Studie war, dass es offensichtlich 1,00 ist."


Nun, es scheint, dass das nicht gewürdigt wurde. Zur Kenntnis genommen.
John Smith
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.