Wie wahrscheinlich ist es, dass ich von einer bestimmten Person abstamme, die im Jahr 1300 geboren wurde?


26

Mit anderen Worten, basierend auf dem Folgenden, was ist p?

Um dies zu einem mathematischen Problem und nicht zu einem anthropologischen oder sozialwissenschaftlichen Problem zu machen und um das Problem zu vereinfachen, nehmen wir an, dass Partner mit der gleichen Wahrscheinlichkeit in der gesamten Bevölkerung ausgewählt werden, mit der Ausnahme, dass Geschwister und erste Cousins ​​sich niemals paaren und Partner immer aus denselben ausgewählt werden Generation.

  • n1 - Grundgesamtheit
  • g - die Zahlengenerationen.
  • c - die durchschnittliche Anzahl von Kindern pro Paar. (Falls für die Antwort erforderlich, nehmen Sie an, dass jedes Paar genau die gleiche Anzahl von Kindern hat.)
  • z - Der Prozentsatz der Personen, die keine Kinder haben und nicht zu einem Paar gehören.
  • n2 - Bevölkerung in der letzten Generation. (Entweder oder sollte angegeben werden, und (ich denke) der andere kann berechnet werden.)n2z
  • p - Wahrscheinlichkeit, dass jemand in der letzten Generation ein Nachkomme einer bestimmten Person in der ersten Generation ist.

Diese Variablen können natürlich geändert, weggelassen oder ergänzt werden. Der Einfachheit halber gehe ich davon aus, dass sich und im Laufe der Zeit nicht ändern. Mir ist klar, dass dies eine sehr grobe Schätzung sein wird, aber es ist ein Ausgangspunkt.zcz

Teil 2 (Vorschlag für weitere Forschung):

Wie können Sie berücksichtigen, dass Partner nicht mit einer global einheitlichen Wahrscheinlichkeit ausgewählt werden? In Wirklichkeit haben Partner mit größerer Wahrscheinlichkeit dasselbe geografische Gebiet, denselben sozioökonomischen Hintergrund, dieselbe Rasse und denselben religiösen Hintergrund. Wie würden Variablen für diese Faktoren ins Spiel kommen, ohne die tatsächlichen Wahrscheinlichkeiten dafür zu erforschen? Wie wichtig wäre das?


2
ist das eine hausaufgabe frage Ansonsten, was ist der Kontext?
David LeBauer

1
@ John: Danke für deine Bearbeitung. Ich glaube, der vorherrschende Konsens (auf dieser Website und anderen) ist, dass wir Fragen nicht bearbeiten, um einfach das homeworkTag hinzuzufügen . Es ist besser für alle Beteiligten, dies dem OP zu überlassen. Sie könnten an diesem Meta-Thread interessiert sein, wenn Sie ihn noch nicht gesehen haben.
Kardinal

Ich bin nur neugierig. Ich bin kein Student und dies sind keine Hausaufgaben von irgendjemandem. Ich scherzte nur über die zusätzliche Gutschrift, obwohl ich sehen kann, wie es Hausaufgaben bedeuten würde.
Xpda

3
Um einen ersten Eindruck von den Antworten zu bekommen, betrachten Sie den Bruchteil der Bevölkerung, der nach Herkunft nicht mit einem bestimmten Vorfahren verwandt ist. Anfangs ist f = ( n - 1 ) / n für eine Population von n . Mit gelegentlichem Mischen, f wird quadriert nach jeder Generation. Bei einer Anfangspopulation von n = 10 8 bedeutet dies, dass f nach 32 Generationen (ca. 600 - 800 Jahre) mit ziemlicher Sicherheit 0 ist . ff=(n-1)/nnfn=108f032600800
whuber

1
Ich glaube, es gibt einige akademische Untersuchungen über die Wahrscheinlichkeit, dass ein eindeutiger Familienname aussterben könnte. Obwohl nicht identisch mit dem gestellten Problem, könnte dies einige interessante Erkenntnisse liefern (aber ich kann mich leider nicht erinnern, woher es stammt). Seltsamerweise, glaube ich, haben diese Studien zu einigen Erkenntnissen über die Verbreitung von Infektionskrankheiten geführt ...
Michael McGowan,

Antworten:


13

Da diese Frage Antworten erhält, die von astronomisch klein bis fast 100% variieren, möchte ich eine Simulation anbieten, die als Referenz und Inspiration für verbesserte Lösungen dient.

Ich nenne diese "Flammenpläne". Jedes dokumentiert die Ausbreitung von genetischem Material innerhalb einer Population, wie es sich in diskreten Generationen fortpflanzt. Die Handlungen bestehen aus dünnen vertikalen Segmenten, die Personen darstellen. Jede Zeile steht für eine Generation, wobei die erste ganz oben steht. Die Nachkommen jeder Generation stehen in der Reihe unmittelbar darunter.

Zu Beginn wird nur eine Person in einer Population der Größe markiert und als rot dargestellt. (Es ist schwer zu sehen, aber sie sind immer rechts von der obersten Zeile eingezeichnet.) Ihre direkten Nachkommen sind ebenfalls rot gezeichnet; Sie werden in völlig zufälligen Positionen angezeigt. Andere Nachkommen sind weiß dargestellt. Da die Bevölkerungsgrößen von Generation zu Generation variieren können, wird rechts ein grauer Rand verwendet, um den leeren Raum auszufüllen.n

Hier ist eine Reihe von 20 unabhängigen Simulationsergebnissen.

Flammenpläne

In neun dieser Simulationen starb das rote genetische Material schließlich aus, und in den verbleibenden 11 (55%) blieben Überlebende zurück. (In einem Szenario unten links sieht es so aus, als wäre die gesamte Bevölkerung ausgestorben.) Wo es Überlebende gab, enthielt jedoch fast die gesamte Bevölkerung das rote Erbmaterial. Dies liefert Hinweise darauf, dass die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person der letzten Generation das rote Gen enthält, etwa 50% beträgt.

Die Simulation ermittelt zufällig eine Überlebensrate und eine mittlere Geburtenrate zu Beginn jeder Generation. Die Überlebensrate basiert auf einer Beta (6,2) -Verteilung: Sie liegt im Durchschnitt bei 75%. Diese Zahl spiegelt sowohl die Sterblichkeit vor dem Erwachsenenalter als auch die Personen ohne Kinder wider. Die Geburtenrate wird aus einer Gamma (2,8, 1) -Verteilung gezogen, dh sie beträgt durchschnittlich 2,8. Das Ergebnis ist eine brutale Geschichte mit unzureichender Fortpflanzungsfähigkeit, um die allgemein hohe Sterblichkeit auszugleichen. Es ist ein äußerst pessimistisches Modell für den schlimmsten Fall - aber (wie ich in den Kommentaren angedeutet habe) die Fähigkeit der Bevölkerung, zu wachsen, ist nicht wesentlich. Alles , was in jeder Generation zählt , ist der Anteil der Bevölkerung Rot.

Zur Modellreproduktion wird die aktuelle Population auf die Überlebenden reduziert, indem eine einfache Zufallsstichprobe der gewünschten Größe entnommen wird. Diese Überlebenden werden nach dem Zufallsprinzip gepaart (jeder einzelne Überlebende, der nach dem Pairing übrig bleibt, kann sich nicht reproduzieren). Jedes Paar erzeugt eine Anzahl von Kindern aus einer Poisson-Verteilung, deren Mittelwert die Geburtenrate der Generation ist. Wenn entweder der Eltern die rote Markierung enthält, alle die Kinder erben es: diese Modelle , um die Idee der direkten Abstieg durch beiden Elternteilen .

Dieses Beispiel beginnt mit einer Grundgesamtheit von 512 und führt die Simulation für 11 Generationen aus (12 Zeilen einschließlich des Starts). Variationen dieser Simulation, beginnend mit nur und bis zu 2 14 = 16 , 384 Personen, die unterschiedliche Beträge an Überlebensraten und Geburtenraten verwenden, weisen alle ähnliche Merkmale auf: Bis zum Ende von log 2 ( n ) Generationen (neun In diesem Fall besteht eine Wahrscheinlichkeit von 1/3, dass alle Roten ausgestorben sind. Ist dies jedoch nicht der Fall, ist die Mehrheit der Bevölkerung rot. Innerhalb von zwei oder drei weiteren Generationen ist fast die gesamte Bevölkerung rot und wird rot bleiben (oder die Bevölkerung wird insgesamt aussterben).n=8214=16,384log2(n)

Ein Überleben von 75% oder weniger in einer Generation ist übrigens nicht phantastisch. Ende 1347 begaben sich die mit Beulenpest befallenen Ratten zunächst von Asien nach Europa; In den nächsten drei Jahren starben zwischen 10% und 50% der europäischen Bevölkerung. Die Seuche trat danach über Hunderte von Jahren fast einmal pro Generation auf (jedoch normalerweise nicht mit der gleichen extremen Sterblichkeit).


Code

Die Simulation wurde mit Mathematica 8 erstellt:

randomPairs[s_List] := Partition[s[[Ordering[RandomReal[{0, 1}, Length[s]]]]], 2];

next[s_List, survive_, nKids_] := Flatten[ConstantArray[Max[#], 
   RandomVariate[PoissonDistribution[nKids]]] & /@ 
   randomPairs[RandomSample[s, Ceiling[survive Length[s]]]]] 

Partition[Table[
   With[{n = 6}, ArrayPlot[NestList[next[#, RandomVariate[BetaDistribution[6, 2]], 
        RandomVariate[GammaDistribution[3.2, 1]]] &, 
        Join[ConstantArray[0, 2^n - 1], ConstantArray[1, 1]], n + 2], 
     AspectRatio -> 2^(n/3)/(2 n), 
     ColorRules -> {1 -> RGBColor[.6, .1, .1]},  
     Background -> RGBColor[.9, .9, .9]]
    ], {i, 1, 20}
   ], 4] // TableForm

1
Ich denke, Modellierung wie diese könnte der beste Ansatz sein. Es ist viel einfacher und macht (für mich) mehr Spaß als die Mathematik, und es sollte viel einfacher sein, Faktoren einzuführen, die die Partnerauswahl einschränken. Haben Sie Empfehlungen, Vorbehalte oder andere Ratschläge, bevor ich darauf eingehe?
xpda

3
@xpda Mathematische Lösungen geben Aufschluss darüber, worauf es ankommt und was nicht. Sie werden zum Beispiel zeigen, dass Sie nicht unbedingt große Populationen modellieren müssen. Sie zeigen auch die Rolle der Variabilität auf, die analytisch schwieriger zu handhaben ist und in einer Simulation zum Tragen kommt.
whuber

1
@whuber Hast du die Simulation in Mathematica ausgeführt? Würde es Ihnen etwas ausmachen, die Postleitzahl zu veröffentlichen?
Angenommen, normal

1
@Max Der Code ist jetzt verfügbar. Ich entschuldige mich für den Mangel an Kommentaren. Wenn Sie jeden läuft randomPairsund nextauf Testdaten, sollten ihre Funktionen hervor. Beachten Sie die Verwendung von NestList, um zu iterieren next, um mehrere Generationen zu erzeugen.
Whuber

3

Was passiert, wenn Sie versuchen, Vorfahren zu zählen?

n2n2528

Dies ist der richtige Baseballstadion, aber mit dieser Berechnung stimmt etwas nicht, da sich die Erdbevölkerung im Jahr 1300 nicht gleichmäßig vermischt hat und wir die Mischehe innerhalb Ihres "Ahnenbaums" ignorieren, dh wir zählen einige Vorfahren doppelt.

228


2
Sehr bedeutsam, wenn man bedenkt, dass ein Großteil der Bevölkerung damals ziemlich isoliert war, so dass es weitaus weniger Möglichkeiten gab, Mischehen zu vermeiden.
dcl

2
Nehmen wir also an, dass das OP englischer Abstammung ist und Englands Bevölkerung um 1300 mehr als eine Million beträgt. (Sagen wir vor der großen Hungersnot). Wie würde das Ihre Analyse verändern?
Dassouki

228268

228/34

2

Je weiter Sie zurückliegen, desto wahrscheinlicher ist es, dass Sie mit einer Person verwandt sind, deren Gene in dieser Zeit erfolgreich weitergegeben wurden. Von den 1/4-Milliarden Vorfahren, die Sie im Jahr 1300 hatten, tauchten viele von ihnen hunderte (wenn nicht tausende, millionen) Mal in Ihrem Stammbaum auf. Die genetische Abweichung und die Häufigkeit, mit der wir in direkter Beziehung zu jemandem stehen, sind wahrscheinlich relevanter für die Unterschiede in unserem genetischen Code als für die Vorfahren.


0

Die Wahrscheinlichkeit ist = 1-z, jeder Nachkomme in diesem Problem ist mit den oben genannten Vorfahren verwandt. Was auch immer die anfängliche Reproduktionsrate (1-z) ist, ist Ihre Wahrscheinlichkeit, von jemandem in der anfänglichen Population abstammen zu können. Die einzige ungewisse Wahrscheinlichkeit ist, wie hoch die Wahrscheinlichkeit ist, in der endgültigen Population am Leben zu sein.

Ich stimme der Antwort von Erad zu, obwohl ich jetzt der Meinung bin, dass sie auf eine Frage antwortet, die nicht gestellt wurde - nämlich, wie hoch ist die Wahrscheinlichkeit, dass Sie bei bestimmten bekannten Einschränkungen in Bezug auf die Fortpflanzung und die Bevölkerung Ihrer Träger am Leben sind.


n1zzg

Um dies zu verdeutlichen, geht es auch darum, die Wahrscheinlichkeit zu ermitteln, dass eine bestimmte Person in der letzten Generation von einer bestimmten Person in der ersten Generation abstammt .
xpda

1
AAAA

@Wipa Descartes' cogito, ergo sum schlägt stark die Wahrscheinlichkeit , ich bin am Leben gegeben irgendwelche Einschränkungen für meine Vorfahren ist 100% :-)
whuber

@whuber, du hast recht. Ich glaube, wir sprechen über dasselbe Problem. Die Sache, die ich klarstellen wollte, ist, dass ich nicht nach der Wahrscheinlichkeit suche, dass jemand in der ersten Generation einen Nachkommen in der letzten Generation hat. Ich hatte Angst, dass Wipa dort (1-z) als Antwort gefunden hat.
Xpda

0

p>(1z)×1n1(1z)2=2n1

Antwort erklärt:
Angesichts einer bestimmten Person ist es heute sicher, dass sie ein Nachkomme von mindestens 2 Personen im Jahr 1300 sind.

Bei der Auswahl einer bestimmten Person im Jahr 1300 gibt es eine (1-z) Wahrscheinlichkeit, dass diese Person nie reproduziert wurde, und der andere Begriff gibt die Anzahl der "Elternpaare" und die Wahrscheinlichkeit an, dass die Person mit diesem Paar verwandt ist (1 / Anzahl der Paare).

p>2n1


nk+1=nk(1-z)×c2=n1(1-z)kck2k

Lässt einige Zahlen als Beispiel einstecken. Für Annahmen verwende ich:
g = 28 (25-jährige Generationen zwischen 1300 und 2011)
n = 360M (Weltbevölkerungsschätzung von 1300 aus Wikipedia)
z = 0,2, c = 2,77 = 8 (keine realen Daten, aber am Ende mit etwa 7B Personen im Jahr 2011)

Resultat:

p>2/360,000,000=5.56×10-9
oder mehr als eine in 180M.

Danke fürs Lesen, Erad


Was ist c? Und was istz?
mpiktas

Basierend auf der ursprünglichen Frage oben: c = die durchschnittliche Anzahl von Kindern pro Paar und z = der Prozentsatz von Menschen, die keine Kinder haben
Erad

2
Hm, wie kommt es, dass deine Wahrscheinlichkeit geringer ist als 1/n=1/360M10-9?
mpiktas

3
The answer given here holds for each member of the original population, no matter who they were. Summing over all members gives an upper bound for the probability that we are descended today from some person in the year 1300 of 360,000,000/(2.66×10249)1, which is obviously way wrong (unless alien clones were introduced along the way...).
whuber

1
@Erad In your comment you appear to assume that all of today's population is descended from a tiny fraction of the world in 1300. That's just not plausible. However, suppose for the sake of argument--and to examine an extreme case--that everyone today is known to have descended solely from one couple, "Adam" and "Eve", alive in 1300. Then the chance of descent is either 100% if Adam or Eve are the "particular person" of the question or else is 0%. This chance, averaged over the population in 1300, is still about 108, far higher than you compute.
whuber

0

This is a very interesting question as it is asking us to mathematically solve a fractal. Such as the famous game of life.

The % of the population which each generation related to will grow over each iteration, starting at p1=2n1 and at the limit generation will approach limkpk=(1z).

If we denote pk as the probability of someone in generation k to be related to the initial population. And for simplicity lets relax the siblings & cousins rule (can be added later). Then:

p1=2n1

As each person in the new generation has exactly 2 ancestors in the initial population.

p2=relatives×2n2+non.relatives×4n2
In this case relatives could be calculated as:
relatives=(c2)×nc(n2)=c1n1
Or in other words, the number of sibling combinations, times the number of siblings family, divided by the total mating combinations.
p3=immediate.relatives×4n3+cousins×6n3+non.relatives×8n3

With each generation, the probability to be related to someone at the initial population will undoubtedly grow, but at a decreasing pace. This is because the probability to draw "relatives" which are coming from the same or similar tree will grow.

Lets use ethnicity as an example. Lets say we know for a fact someone is 100% Caucasian. At generation 28 he is most likely related to a significant portion of the Caucasian population in 1300 (As shown by @whuber simulation). Lets say he is marrying someone who is 100% of a different ethnicity. Their offspring will be linked to approximately double the number of people they are linked to from 1300.

Another interesting thought is that given the human (homosapien) race started from ~600 people in Africa, then we are most likely a genetic permutation of all of them who successfully mated.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.