Wahrscheinlichkeit, dass fünf Kinder derselben Klasse denselben Vornamen haben

In Baby-Namensforen wiederholen potenzielle Eltern ständig eine Version ihrer Angst vor Jennifer: "Ich möchte nicht, dass mein Kind mit seinem Namen eines von fünf in seiner Klasse ist." Die Sache ist, dass kein Name mehr dieser Popularität nahe kommt, und selbst auf dem Höhepunkt des Jennifer-Wahnsinns haben Sie nicht fünf davon in einer Klasse bekommen. Ich hätte gerne eine Antwort für diese Eltern, wie unwahrscheinlich ein solches Zusammentreffen von Namenswiederholungen wäre.

Kann mir jemand anhand der umfangreichen Babynamen-Daten der Social Security Administration ( https://www.ssa.gov/oact/babynames/limits.html ) sagen, wie ich die Chancen einer Grundschulklasse in den USA mit fünf Kindern herausfinden kann gleichnamige Kinder? (Der Einfachheit halber meine ich mit "gleicher Name" die gleiche Schreibweise und mit "Schulklasse" meine ich, dass alle Kinder im selben Jahr geboren wurden.) Ich gebe keine Klassengröße an, aber sie sollte definitiv größer als 4 sein . :-)

probability combinatorics

— JPmiaou
quelle

Beiträge über Babynamen sind ein wiederkehrendes Thema in Andrew Gelmans Blog. In keinem der Beiträge, die ich auf seiner Website gefunden habe, erörtert er Ihre spezifische Frage. Er verlinkt auf einen "Babynamen-Blog", in dem Sie möglicherweise mehr Glück haben, eine Antwort zu erhalten. andrewgelman.com/2005/09/07/baby_name_blog

— Mike Hunter

Ich glaube , Sie String etwas zusammen kann die Multinomialverteilung mit Erfolgswahrscheinlichkeiten von etwa unter Verwendung der ersten zwanzig Namen von Volkszählungsdaten wie extrahiert diese .

— Antoni Parellada

Liefert die SSA Daten über die Anzahl der mit einem Namen geborenen Kinder? Ich finde nur Informationen über Ränge, die offensichtlich einige nützliche Informationen verwerfen.

— Sycorax sagt Reinstate Monica

@AntoniParellada Ich denke, die Realität ist noch subtiler: Da das US-Schulsystem stark nach Einkommen und Rasse getrennt ist, denke ich, dass die nationalen Statistiken eine schlechte Übereinstimmung mit den tatsächlichen Klassenzimmern aufweisen werden.

— Sycorax sagt Reinstate Monica

Als ich Schüler einer (kleinen) Grundschule war, hatten wir drei Johns in einer sehr kleinen Klasse (ich denke, Jungen und Mädchen zusammen waren nur ungefähr 14). Ein Jahr haben wir uns mit dem obigen Jahr zu einer Klasse in voller Größe zusammengeschlossen ... und einen vierten John bekommen. Jetzt John war ziemlich üblich , dann aber nicht alle , dass gemeinsam. (In Bezug auf die ursprüngliche Ausgabe wären drei fast so ärgerlich wie fünf). Die Wahrscheinlichkeit, dass ein bestimmter Name mehrmals dupliziert wird, ist sehr gering, aber die Wahrscheinlichkeit, dass ein Name mehrmals vorkommt, ist weitaus höher.

— Glen_b -State Monica

Antworten:

Alle Daten finden Sie hier . Jeder Wert in der Tabelle stellt die Wahrscheinlichkeit dar, dass bei einer Stichprobe von 25 Personen von diesem Ort und Geburtsjahr 5 von ihnen einen Namen teilen.

Methode : Ich habe das Binomial-PDF für jeden Namen verwendet, um die Wahrscheinlichkeit zu ermitteln, dass eine bestimmte Klasse mit 25 Personen 5 Personen hat, die einen Namen gemeinsam haben:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

P_{n} (5 + k i d s s h a r e n a m e) = \sum_{\forall n a m e s} \sum_{k = 5}^{n} (\binom{n}{k}) p_{i}^{k} (1 - p_{i})^{n - k}

$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k}$

Wenn beispielsweise insgesamt 4.000.000 Kinder und 21.393 Emily vorhanden sind, beträgt die Wahrscheinlichkeit, dass in einer bestimmten Klasse mit 25 Schülern 5 Emily vorhanden sind, Binomial (25, 5, 0,0053) = 0,0000002. Das Summieren aller Namen gibt keine genaue Antwort, da wir nach dem Einschluss- / Ausschlussprinzip auch die Möglichkeit berücksichtigen müssen, mehrere Gruppen von 5 Personen zu haben, die Namen teilen. Da diese Wahrscheinlichkeiten für alle praktischen Zwecke nahezu Null sind, habe ich angenommen, dass sie vernachlässigbar sind und somit . $P(\bigcup A_i) \approx \sum P(A_i)$

Update: Wie viele Leute betonten, gibt es im Laufe der Zeit und zwischen den Staaten erhebliche Unterschiede. Also habe ich das gleiche Programm auf STATE BY STATE-Basis und im Laufe der Zeit ausgeführt. Hier sind die Ergebnisse (landesweite Wahrscheinlichkeit ist rot, einzelne Staaten sind schwarz):

Interessanterweise war Vermont (mein Heimatstaat) in den letzten Jahrzehnten durchweg einer der wahrscheinlichsten Orte dafür.

— David C.
quelle

Könnten Sie vielleicht erklären, wie Sie zu diesen Zahlen gekommen sind? Sie müssen es nicht viel dumm machen - ich habe einen Bachelor-Abschluss in Mathematik und weiß, wo ich nachschlagen muss -, aber ich würde wirklich gerne wissen, welche Art von Argumentation tatsächlich zu Wahrscheinlichkeiten führt (stattdessen) von entmutigten Seufzern).

— JPmiaou

Dies setzt voraus, dass Namen zufällig mit den gleichen Wahrscheinlichkeiten vergeben werden , was einfach nicht stimmt . Auch die Praxis zeigt, dass es viel mehr Klassen mit gleichnamigen Kindern gibt als 1 zu 200!

— Tim

Ich bekomme etwas andere Ergebnisse, aber sie sind nah. Dies ist jedoch keine Diskussion wert, da die geografischen und zeitlichen Unterschiede in den Ergebnissen sehr groß sind. Die Antwort hat sich seit 1910 um zwei Größenordnungen geändert und variiert zwischen den Staaten um eine Größenordnung. Da fast keine Grundschulklasse aus den gesamten USA stammt, ist das Modell der zufälligen Auswahl aus der Liste der nationalen Namen unangemessen.

— whuber

(1) Sehen Sie sich die anderen Jahre in der von Ihnen heruntergeladenen nationalen Datei an. (2) Sehen Sie sich die Statusdateien an, die auf derselben Site verfügbar sind.

— whuber

Ja, das Diagramm der Wahrscheinlichkeiten im Zeitverlauf ist dramatisch: Es begann 1980 ein starker Rückgang. Aber die staatlichen Unterschiede sind in der Tat sehr groß, wie zu erwarten ist: Die Namen variieren geografisch und sie gruppieren sich stark nach ethnischer Zugehörigkeit, Einkommen und anderen demografischen Faktoren. (+1 für Ihre erweiterte Untersuchung der Zustands- und

— Zeitvariation, übrigens

Bitte beachten Sie das folgende Python-Skript für Python2.

Die Antwort ist von der Antwort von David C inspiriert.

Meine endgültige Antwort wäre, die Wahrscheinlichkeit, mindestens fünf Jacobs in einer Klasse zu finden, wobei Jacob nach den Daten von https://www.ssa.gov/oact/babynames/limits.html "National Data" der wahrscheinlichste Name ist "ab 2006.

Die Wahrscheinlichkeit wird nach einer Binomialverteilung berechnet, wobei die Jacob-Wahrscheinlichkeit die Erfolgswahrscheinlichkeit ist.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Max. Wahrscheinlichkeit für mindestens fünf gleichnamige Kinder von 25: 4.7e-07 für den Namen Jacob

Max. Wahrscheinlichkeit für mindestens fünf gleichnamige Kinder von 50: 1.6e-05 für den Namen Jacob natürlich.

Max. Wahrscheinlichkeit für mindestens fünf gleichnamige Kinder von 100: 0,00045 für den Namen Jacob natürlich.

Um den Faktor 10 das gleiche Ergebnis wie bei David C. Vielen Dank. (Meine Antwort summiert nicht alle Namen, sollte besprochen werden)

— feinmann
quelle

Diese Antwort scheint nicht die Frage zu beantworten, ob ein Name in einem Klassenzimmer fünf oder mehr Mal vorkommt.

— whuber

@feinmann Ich halte es für angemessen, die Summe aller Namen zu übernehmen, da die Wahrscheinlichkeit, zwei oder mehr Gruppen von 5 Personen mit demselben Namen in einer Klasse zu haben, nahezu Null beträgt und für alle praktischen Zwecke vernachlässigbar ist. Das heißt, nach dem Einschluss- / Ausschlussprinzip , wenn wir diese Möglichkeit außer Acht lassen, dann

P (⋃ A_{i}) \approx \sum P (A_{i})

$P(\bigcup A_i) \approx \sum P(A_i)$

— David C

Nein, Sie haben die Frage nicht beantwortet, als Sie sie gerade formuliert haben. Die Wahrscheinlichkeit, dass ein Name fünf oder mehr Mal vorkommt, ist viel größer als die maximale Wahrscheinlichkeit, dass ein bestimmter Name fünf oder mehr Mal vorkommt.

— whuber

Wie @whuber hervorhebt, ist "5 Jacobs" ein schwächeres Argument als "5 eines Namens", aber es kann trotzdem in Diskussionen über Babynamen nützlich sein: "Hier ist die Wahrscheinlichkeit von fünf Kindern mit dem beliebtesten Namen. Sie sind es nicht Verwenden Sie den beliebtesten Namen, damit Ihre Wahrscheinlichkeit noch geringer ist. "

— JPmiaou

Es ist nicht genau so , weil sich die Möglichkeiten nicht gegenseitig ausschließen: Sie könnten 5 oder mehr Thomasen und 5 oder mehr Richards ( und vielleicht sogar 5 oder mehr Henrys) in einer einzigen Klasse haben. Es ist also eine Obergrenze. @DavidC argumentiert in einem Kommentar hier, dass solche Ereignisse eine vernachlässigbare Wahrscheinlichkeit haben.

— Scortchi - Monica wieder einsetzen