Was ist der Unterschied zwischen "Wahrscheinlichkeit" und "Wahrscheinlichkeit"?


474

Die Wikipedia-Seite behauptet, dass Wahrscheinlichkeit und Wahrscheinlichkeit unterschiedliche Konzepte sind.

Im nichttechnischen Sprachgebrauch ist "Wahrscheinlichkeit" normalerweise ein Synonym für "Wahrscheinlichkeit", im statistischen Sprachgebrauch gibt es jedoch eine klare Unterscheidung in Bezug auf die Perspektive: Die Zahl, die die Wahrscheinlichkeit einiger beobachteter Ergebnisse bei einer Reihe von Parameterwerten ist, wird als bezeichnet Wahrscheinlichkeit des Parametersatzes unter Berücksichtigung der beobachteten Ergebnisse.

Kann jemand etwas bodenständiger beschreiben, was dies bedeutet? Außerdem wären einige Beispiele dafür, wie "Wahrscheinlichkeit" und "Wahrscheinlichkeit" nicht übereinstimmen, schön.


9
Gute Frage. Ich würde dort auch "Odds" und "Chance" hinzufügen :)
Neil McGuigan

5
Ich denke, Sie sollten sich diese Frage ansehen: stats.stackexchange.com/questions/665/…, weil die Wahrscheinlichkeit statistischen Zwecken dient und die Wahrscheinlichkeit der Wahrscheinlichkeit.
Robin Girard

3
Wow, das sind einige wirklich gute Antworten. Also ein großes Dankeschön dafür! Irgendwann werde ich eine auswählen, die ich besonders mag, als "akzeptierte" Antwort (obwohl es einige gibt, von denen ich denke, dass sie gleichermaßen verdient sind).
Douglas S. Stones

1
Beachten Sie auch, dass das "Wahrscheinlichkeitsverhältnis" tatsächlich ein "Wahrscheinlichkeitsverhältnis" ist, da es eine Funktion der Beobachtungen ist.
JohnRos

Antworten:


321

Die Antwort hängt davon ab, ob es sich um diskrete oder kontinuierliche Zufallsvariablen handelt. Also werde ich meine Antwort entsprechend aufteilen. Ich gehe davon aus, dass Sie einige technische Details und nicht unbedingt eine Erklärung in einfachem Englisch wünschen.

Diskrete Zufallsvariablen

Angenommen, Sie haben einen stochastischen Prozess, bei dem diskrete Werte verwendet werden (z. B. das Ergebnis des zehnmaligen Werfens einer Münze, die Anzahl der Kunden, die in 10 Minuten in einem Geschäft eintreffen usw.). In solchen Fällen können wir die Wahrscheinlichkeit berechnen, einen bestimmten Satz von Ergebnissen zu beobachten, indem wir geeignete Annahmen über den zugrunde liegenden stochastischen Prozess treffen (z. B. ist die Wahrscheinlichkeit, dass Münzwürfe landen, und Münzwürfe unabhängig voneinander).p

Bezeichnen Sie die beobachteten Ergebnisse mit und dem Parametersatz, der den stochastischen Prozess als . Wenn wir also von Wahrscheinlichkeit sprechen, wollen wir berechnen . Mit anderen Worten, gegebene spezifische Werte für ;, ist die Wahrscheinlichkeit, dass wir die durch Ergebnisse beobachten würden .OθP(O|θ)θP(O|θ)O

Wenn wir jedoch einen wirklichen Leben stochastischer Prozess modellieren, wir wissen oft nicht . Wir beobachten einfach und das Ziel ist dann, eine Schätzung für , die angesichts der beobachteten Ergebnisse eine plausible Wahl wäre . Wir wissen , dass ein Wert von gegebenen die Wahrscheinlichkeit der Beobachtung ist . Ein 'natürlicher' Schätzprozess besteht also darin, den Wert von ; zu wählen, der die Wahrscheinlichkeit maximiert, dass wir tatsächlich beobachten würden . Mit anderen Worten, wir finden die Parameterwerte , die die folgende Funktion maximieren:θOθOθOP(O|θ)θOθ

L(θ|O)=P(O|θ)

L(θ|O) wird die Wahrscheinlichkeitsfunktion genannt. Beachten Sie, dass per Definition die Wahrscheinlichkeitsfunktion von dem beobachteten abhängig ist und dass es sich um eine Funktion der unbekannten Parameter .Oθ

Kontinuierliche Zufallsvariablen

Im kontinuierlichen Fall ist die Situation ähnlich mit einem wichtigen Unterschied. Wir können nicht mehr über die Wahrscheinlichkeit sprechen, dass wir gegebenem weil im stetigen Fall . Ohne auf technische Details einzugehen, lautet die Grundidee wie folgt:OθP(O|θ)=0

Bezeichnen Sie die Wahrscheinlichkeitsdichtefunktion (pdf), die mit den Ergebnissen assoziiert ist, als: . Im kontinuierlichen Fall schätzen wir daher gegebene beobachtete Ergebnisse durch Maximieren der folgenden Funktion:Of(O|θ)θO

L(θ|O)=f(O|θ)

In dieser Situation können wir technisch nicht behaupten, dass wir den Parameterwert finden, der die Wahrscheinlichkeit, dass wir beobachten, maximiert, während wir das mit den beobachteten Ergebnissen verbundene PDF maximieren .OO


35
Die Unterscheidung zwischen diskreten und stetigen Variablen verschwindet aus meßtheoretischer Sicht.
Whuber

24
@whuber ja, aber eine Antwort mit Measure-Theorie ist nicht für jedermann zugänglich.

16
@Srikant: Einverstanden. Die Bemerkung kam dem OP zugute, der Mathematiker (aber vielleicht auch kein Statistiker) ist, um nicht in die Irre geführt zu werden, dass an der Unterscheidung etwas Grundlegendes liegt.
whuber

6
Sie können eine kontinuierliche Dichte genauso interpretieren wie den diskreten Fall, wenn durch ersetzt wird , in dem Sinne, dass, wenn wir nach fragen (dh Wahrscheinlichkeit, dass Die Daten befinden sich in einem Infinintesimalbereich um ) und die Antwort lautet (das macht deutlich, dass wir die Fläche eines unendlich dünnen "Bins" eines Histogramms berechnen ). OP r ( O ( O ' , O ' + d O ' ) | θ ) O O ' f ( O ' | θ ) d O ' d O 'dOPr(O(O,O+dO)|θ)OOf(O|θ)dOdO
Wahrscheinlichkeitslogik

9
Ich bin über 5 Jahre zu spät zur Party, aber ich denke, dass eine sehr wichtige Folge dieser Antwort stats.stackexchange.com/questions/31238/… ist, was auf der Tatsache beruht , dass die Wahrscheinlichkeitsfunktion ist kein pdf in bezug auf . ) ist in der Tat ein PDF von Daten, wenn der Parameterwert gegeben ist, aber da eine Funktion von allein ist (wobei Daten als Konstante gehalten werden), ist es irrelevant, dass ein PDF von ist Daten angegeben . θ L ( θ L θ L ( θ ) θL(θ)θL(θLθL(θ)θ
Shobhit

135

Dies ist die Art von Frage, die fast jeder beantworten wird, und ich würde erwarten, dass alle Antworten gut sind. Aber Sie sind Mathematiker, Douglas, also lassen Sie mich eine mathematische Antwort geben.

Ein statistisches Modell muss zwei unterschiedliche konzeptionelle Entitäten verbinden: Daten , die Elemente einer Menge sind (z. B. ein Vektorraum), und ein mögliches quantitatives Modell des Datenverhaltens. Modelle werden normalerweise durch Punkte auf einer endlichen Mannigfaltigkeit, einer Mannigfaltigkeit mit Grenze oder einem Funktionsraum dargestellt (letzteres wird als "nicht parametrisches" Problem bezeichnet).xθθ

Die Daten werden mittels einer Funktion mit den möglichen Modellen . Für jedes gegebene ; soll die Wahrscheinlichkeit (oder Wahrscheinlichkeitsdichte) von . Andererseits kann für jedes gegebene als eine Funktion von und es wird üblicherweise angenommen, dass es bestimmte nette Eigenschaften aufweist, wie zum Beispiel, dass es kontinuierlich an zweiter Stelle differenzierbar ist. Die Absicht, auf diese Weise zu betrachten und diese Annahmen aufzugreifen, wird angekündigt, indem die "Wahrscheinlichkeit" genannt wird.xθΛ(x,θ)θΛ(x,θ)xxΛ(x,θ)θΛΛ

Es ist wie die Unterscheidung zwischen Variablen und Parametern in einer Differentialgleichung: Manchmal wollen wir die Lösung untersuchen (dh wir konzentrieren uns auf die Variablen als Argument) und manchmal wollen wir untersuchen, wie sich die Lösung mit den Parametern ändert. Der Hauptunterschied besteht darin, dass wir in der Statistik selten die gleichzeitige Variation beider Argumente untersuchen müssen. es gibt kein statistisches Objekt, das natürlich einer Änderung sowohl der Daten als auch der Modellparameter . Aus diesem Grund hören Sie mehr über diese Dichotomie als in analogen mathematischen Situationen.xθ


6
+1, was für eine coole Antwort. Analogie zu Differentialgleichungen scheint sehr angemessen.
mpiktas

3
Als Wirtschaftswissenschaftler hat diese Antwort zwar nicht so viel mit den von mir erlernten Konzepten zu tun wie zuvor, sie war jedoch im intuitiven Sinne die informativste. Danke vielmals.
Robson

1
Tatsächlich ist diese Aussage nicht wirklich wahr "es gibt kein statistisches Objekt, das natürlich der Änderung sowohl der Daten x als auch der Modellparameter θ entspricht." Es heißt "Glätten, Filtern und Vorhersagen", in linearen Modellen ist es der Kalman-Filter, in nichtlinearen Modellen haben sie die vollständigen nichtlinearen Filter, en.wikipedia.org/wiki/Kushner_equation etc
crow

1
Ja, tolle Antwort! So lahm das auch klingt: Indem ich anstelle der Standardnotation von wählte , konnte ich leichter erkennen, dass wir es sind Beginnen Sie mit einer gemeinsamen Wahrscheinlichkeit, die entweder als Wahrscheinlichkeit oder als bedingte Wahrscheinlichkeit definiert werden kann. Außerdem hat der Kommentar "bestimmte nette Eigenschaften" geholfen. Vielen Dank! P ( x , θ )Λ(x,θ)P(x,θ)
Mike Williamson

2
@whuber Ja, ich weiß, dass nicht die übliche Schreibweise ist. Genau deshalb hat es geholfen! Ich hörte auf zu denken, dass es eine bestimmte Bedeutung haben muss und folgte stattdessen einfach der Logik. ;-pΛ
Mike Williamson

110

Ich werde versuchen, die Mathematik in meiner Erklärung zu minimieren, da es bereits einige gute mathematische Erklärungen gibt.

Wie Robin Girand betont, hängt der Unterschied zwischen Wahrscheinlichkeit und Wahrscheinlichkeit eng mit dem Unterschied zwischen Wahrscheinlichkeit und Statistik zusammen . In gewisser Weise beschäftigen sich Wahrscheinlichkeit und Statistik mit gegensätzlichen oder gegensätzlichen Problemen.

Betrachten Sie einen Münzwurf. (Meine Antwort ist ähnlich wie in Beispiel 1 auf Wikipedia .) Wenn wir wissen, dass die Münze fair ist ( ), lautet eine typische Wahrscheinlichkeitsfrage: Wie hoch ist die Wahrscheinlichkeit, zwei Köpfe hintereinander zu bekommen? Die Antwort lautet .P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25p=0.5P(HH)=P(H)×P(H)=0.5×0.5=0.25

Eine typische statistische Frage lautet: Ist die Münze fair? Um dies zu beantworten, müssen wir fragen: Inwieweit unterstützt unsere Stichprobe unsere Hypothese, dass ?P(H)=P(T)=0.5

Der erste zu beachtende Punkt ist, dass sich die Richtung der Frage umgekehrt hat. Wahrscheinlich beginnen wir mit einem angenommenen Parameter ( ) und schätzen die Wahrscheinlichkeit einer gegebenen Stichprobe (zwei Köpfe in einer Reihe). In der Statistik beginnen wir mit der Beobachtung (zwei Köpfe hintereinander) und schließen auf unseren Parameter ( ).P(head)p=P(H)=1P(T)=1q

Beispiel 1 auf Wikipedia zeigt, dass die maximale Wahrscheinlichkeitsschätzung von nach 2 Köpfen in einer Reihe . Die Daten schließen jedoch in keiner Weise den wahren Parameterwert (lassen Sie uns im Moment nicht mit den Details befassen). Tatsächlich können nur sehr kleine Werte von und insbesondere von vernünftigerweise nach (zwei Würfe der Münze) eliminiert werden . Nach dem dritten Wurf können wir nun die Möglichkeit eliminieren, dass (dh es ist keine Münze mit zwei Köpfen), aber die meisten Werte dazwischen können vernünftigerweise von den Daten gestützt werdenP(H)pMLE=1p(H)=0.5p(H)p(H)=0n=2P(H)=1.0. (Ein genaues binomiales 95% -Konfidenzintervall für beträgt 0,094 bis 0,992.p(H)

Nach 100 Münzwürfen und (sagen wir) 70 Köpfen haben wir nun eine vernünftige Grundlage für den Verdacht, dass die Münze tatsächlich nicht fair ist. Ein exakter 95% -KI auf liegt jetzt bei 0,600 bis 0,787, und die Wahrscheinlichkeit, ein Ergebnis von 70 oder mehr Köpfen (oder Schwänzen) aus 100 Würfen mit beträgt 0,0000785.p(H)p(H)=0.5

Obwohl ich Likelihood-Berechnungen nicht explizit verwendet habe, erfasst dieses Beispiel das Konzept der Likelihood: Likelihood ist ein Maß dafür, inwieweit eine Stichprobe bestimmte Werte eines Parameters in einem parametrischen Modell unterstützt .


3
Gute Antwort! Besonders die drei letzten Absätze sind sehr nützlich. Wie würden Sie dies erweitern, um den kontinuierlichen Fall zu beschreiben?
Demetris

8
Für mich die beste Antwort. Ich habe überhaupt nichts gegen Mathe, aber für mich ist Mathe ein Werkzeug, das von dem regiert wird, was ich will (ich mag Mathe nicht um seiner selbst willen, sondern um das, was es mir hilft). Nur mit dieser Antwort kenne ich Letzteres.
Mörre

73

Ich werde Ihnen die Perspektive aus der Sicht der Wahrscheinlichkeitstheorie geben, die ihren Ursprung in Fisher hat - und die Grundlage für die statistische Definition im zitierten Wikipedia-Artikel bildet.

Angenommen, Sie haben Zufallsvariablen die sich aus einer parametrisierten Verteilung , wobei der Parameter ist, der kennzeichnet . Dann wäre die Wahrscheinlichkeit von : mit bekanntem . XF(X;θ)θFX=xP(X=x)=F(x;θ)θ

Häufiger haben Sie Daten und ist unbekannt. Bei dem angenommenen Modell ist die Wahrscheinlichkeit als die Wahrscheinlichkeit von beobachteten Daten als eine Funktion von : . Man beachte, dass bekannt ist, aber unbekannt ist; Tatsächlich besteht die Motivation zur Definition der Wahrscheinlichkeit darin, den Parameter der Verteilung zu bestimmen.XθFθL(θ)=P(θ;X=x)Xθ

Obwohl es so aussieht, als hätten wir die Wahrscheinlichkeitsfunktion einfach umgeschrieben, besteht eine wichtige Konsequenz darin, dass die Wahrscheinlichkeitsfunktion nicht den Wahrscheinlichkeitsgesetzen entspricht (z. B. ist sie nicht an das Intervall [0, 1] gebunden). Die Wahrscheinlichkeitsfunktion ist jedoch proportional zur Wahrscheinlichkeit der beobachteten Daten.

Dieses Konzept der Wahrscheinlichkeit führt tatsächlich zu einer anderen Denkrichtung, den "Wahrscheinlichkeitsforschern" (die sich von den häufig auftretenden und den bayesianischen unterscheiden), und Sie können googeln, um nach all den verschiedenen historischen Debatten zu suchen. Der Eckpfeiler ist das Likelihood-Prinzip, das im Wesentlichen besagt, dass wir direkt aus der Likelihood-Funktion schließen können (weder Bayesianer noch Frequentisten akzeptieren dies, da es sich nicht um eine wahrscheinlichkeitsbasierte Schlussfolgerung handelt). Heutzutage ist vieles, was an Schulen als "Frequentist" unterrichtet wird, eine Mischung aus häufigem Denken und Wahrscheinlichkeitsdenken.

Für einen tieferen Einblick ist Edwards ' Wahrscheinlichkeit ein guter Anfang und ein historischer Bezugspunkt . Für eine moderne Interpretation würde ich Richard Royalls wundervolle Monographie Statistical Evidence: A Likelihood Paradigm empfehlen .


3
Interessante Antwort, ich dachte tatsächlich, dass die "Wahrscheinlichkeitsschule" im Grunde die "Frequentisten waren, die keine Musterschule entwerfen", während die "Designschule" der Rest der Frequentisten war. Eigentlich fällt es mir schwer zu sagen, welche "Schule" ich bin, da ich von jeder Schule ein bisschen Wissen habe. Die Schule "Wahrscheinlichkeit als erweiterte Logik" ist meine Lieblingsschule (duh), aber ich habe nicht genug praktische Erfahrung darin, sie auf echte Probleme anzuwenden, um dogmatisch darüber zu sein.
Wahrscheinlichkeitslogik

5
+1 für "Die Wahrscheinlichkeitsfunktion entspricht nicht den Wahrscheinlichkeitsgesetzen (z. B. ist sie nicht an das Intervall [0, 1] gebunden). Die Wahrscheinlichkeitsfunktion ist jedoch proportional zur Wahrscheinlichkeit der beobachteten Daten."
Walross the Cat

10
"die Wahrscheinlichkeitsfunktion gehorcht nicht den Wahrscheinlichkeitsgesetzen" könnte eine weitere Klärung gebrauchen, zumal geschrieben wurde als θ: L (θ) = P (θ; X = x), dh gleichgesetzt mit einer Wahrscheinlichkeit!
Redcalx

Danke für deine Antwort. Könnten Sie bitte den Kommentar ansprechen, den @locster gemacht hat?
Vivek Subramanian

2
Für mich als Nicht-Mathematiker liest sich dies wie religiöse Mathematik, wobei unterschiedliche Überzeugungen zu unterschiedlichen Werten für das Eintreten von Ereignissen führen. Kannst du es so formulieren, dass es einfacher ist zu verstehen, was die verschiedenen Überzeugungen sind und warum sie alle Sinn machen, anstatt dass eine einfach falsch und die andere Schule / Überzeugung richtig ist? (Annahme, dass es einen korrekten Weg gibt , die
Eintrittswahrscheinlichkeit von

55

Lassen Sie mich angesichts der oben genannten guten technischen Antworten auf die Sprache zurückkommen: Die Wahrscheinlichkeit quantifiziert die Antizipation (des Ergebnisses), die Wahrscheinlichkeit quantifiziert das Vertrauen (im Modell).

Angenommen, jemand fordert uns zu einem „profitablen Glücksspiel“ heraus. Dann dienen uns Wahrscheinlichkeiten dazu, Dinge wie das erwartete Profil Ihrer Gewinne und Verluste zu berechnen (Mittelwert, Modus, Median, Varianz, Informationsverhältnis, Risikowert, Spielerverlust usw.). Im Gegensatz dazu dient die Wahrscheinlichkeit dazu, zu quantifizieren, ob wir diesen Wahrscheinlichkeiten überhaupt vertrauen. oder ob wir 'eine Ratte riechen'.


Übrigens - da jemand oben die Religionen der Statistik erwähnt hat - glaube ich, dass das Wahrscheinlichkeitsverhältnis ein wesentlicher Bestandteil der bayesianischen und der frequentistischen Welt ist: In der bayesianischen Welt verbindet sich die Bayes-Formel nur mit der Wahrscheinlichkeit, posterior zu produzieren.


Diese Antwort fasst es für mich zusammen. Ich musste überlegen, was es bedeutet, wenn ich lese, dass Wahrscheinlichkeit keine Wahrscheinlichkeit ist, aber der folgende Fall ist mir eingefallen. Wie hoch ist die Wahrscheinlichkeit, dass eine Münze fair ist, wenn wir vier Köpfe hintereinander sehen? Wir können hier nicht wirklich etwas über die Wahrscheinlichkeit sagen, aber das Wort "Vertrauen" scheint passend zu sein. Glauben wir, wir können der Münze vertrauen?
23.

Anfänglich war dies möglicherweise der historisch gewollte Zweck von Wahrscheinlichkeiten, aber heutzutage sind Wahrscheinlichkeiten jede Bayes'sche Berechnung, und es ist bekannt, dass Wahrscheinlichkeiten Überzeugungen und Plausibilität verschmelzen können, weshalb die Dempster-Shafer-Theorie erstellt wurde, um beide Interpretationen zu disambiguieren.
munterer

50

Angenommen, Sie haben eine Münze mit der Wahrscheinlichkeit Kopf und Schwanz zu landen. Lassen zeigen Köpfe und zeigen Schwänze. Definieren Sie wie folgtp(1p)x=1x=0f

f(x,p)=px(1p)1x

f(x,2/3) ist die Wahrscheinlichkeit von x bei , ist die Wahrscheinlichkeit von bei . Grundsätzlich gibt Likelihood vs. Probability an, welcher Dichteparameter als Variable betrachtet wirdp=2/3f(1,p)px=1


Schöne Ergänzung zu den oben verwendeten theoretischen Definitionen!
Frank Meulenaar

Cknpn(1p)knnkpx(1p)1xkx=n/k

40

Wenn ich eine faire Münze (Parameterwert) habe, beträgt die Wahrscheinlichkeit, dass sie hochkommt, 0,5. Wenn ich eine Münze 100-mal wirfe und sie 52-mal auftaucht, ist die Wahrscheinlichkeit hoch, dass sie fair ist (der numerische Wert der Wahrscheinlichkeit kann eine Reihe von Formen annehmen).


3
Dies und Zigeuner Antwort sollte oben sein! Intuition und Klarheit über trockener mathematischer Strenge, ganz zu schweigen von etwas abfälligerem.
Nemanja Radojković

24

P(x|θ)

  • xθθP(x|θ)xθP(x;θ)Pθ(x)θP(x|θ)P(xθ)/P(θ)
  • In Abhängigkeit von ; wird wie beobachtet behandelt. θxWenn Sie beispielsweise versuchen, eine bestimmte Zuweisung für , die maximiert , dann wird die maximale Wahrscheinlichkeit von wenn die Daten , manchmal geschrieben als . Der Begriff Wahrscheinlichkeit ist also nur eine Abkürzung für die Wahrscheinlichkeit für einige Daten , die sich aus der Zuweisung verschiedener Werte zu (z. B. wenn einer den Suchraum von durchquert)θ^θP(x|θ)P(x|θ^)θxL(θ^|x)P(x|θ)xθθ für eine gute Lösung). Daher wird es häufig als objektive Funktion verwendet, aber auch als Leistungsmaß, um zwei Modelle wie im Bayes'schen Modellvergleich zu vergleichen .

Oft ist dieser Ausdruck immer noch eine Funktion beider Argumente, es handelt sich also eher um eine Betonungssache.


Für den zweiten Fall dachte ich, die Leute schreiben normalerweise P (Theta | x).
Yuqian

Ursprünglich habe ich intuitiv gedacht, dass beide Wörter gleich sind, mit einem Unterschied in der Perspektive oder der natürlichen Sprachformulierung. Deshalb habe ich das Gefühl: "Was? Ich hatte die ganze Zeit Recht ?!" Aber wenn dies der Fall ist, warum ist es dann so wichtig, sie zu unterscheiden? Da Englisch nicht meine Muttersprache ist, bin ich mit nur einem Wort für scheinbar beide Begriffe aufgewachsen (oder habe ich einfach nie ein Problem bekommen, bei dem ich die Begriffe unterscheiden musste?) Und wusste nie, dass es einen Unterschied gab. Es ist erst jetzt, dass ich zwei englische Begriffe kenne, dass ich anfange, mein Verständnis dieser Dinge zu bezweifeln.
Zelphir Kaltstahl

3
Ihre Antwort scheint sehr verständlich und verständlich zu sein. Ich frage mich, warum es so wenig Gegenstimmen gab.
Julian

4
Man beachte, dass P (x | ) nur dann eine bedingte Wahrscheinlichkeit ist, wenn ; eine Zufallsvariable ist, wenn ; ein Parameter ist, dann ist es einfach die durch ; parametrisierte Wahrscheinlichkeit von x . θθθθ
Mircea Mironenco

Ich denke, dies ist die beste Antwort unter allen
Aaron

4

Für mich ist der wichtigste Unterschied, dass Wahrscheinlichkeit keine Wahrscheinlichkeit (von ) ist.θ

In einem Schätzungsproblem ist das X gegeben und die Wahrscheinlichkeit beschreibt eine Verteilung von X anstelle von . Das heißt, ist bedeutungslos, da die Wahrscheinlichkeit kein pdf von , obwohl es in gewissem Maße charakterisiert .P(X|θ)θP(X|θ)dθθθ


1
Wie die Antwort von @Lenar Hoyt zeigt, ist Wahrscheinlichkeit eine Wahrscheinlichkeit, wenn Theta eine zufällige Variable ist (die es sein kann). Die wirkliche Antwort scheint zu sein, dass die Wahrscheinlichkeit eine Wahrscheinlichkeit sein kann, aber manchmal nicht ist.
Mike Wise

@ MikeWise, ich denke, Theta könnte immer als "zufällige" Variable angesehen werden, während die Chancen stehen, dass es einfach nicht so "zufällig" ist ...
Response777

4

Kennst du den Piloten der Fernsehserie "num3ers", in der das FBI versucht, die Heimatbasis eines Serienverbrechers zu finden, der seine Opfer zufällig auszuwählen scheint?

Der mathematische Berater des FBI und der Bruder des zuständigen Agenten lösen das Problem mit einem Maximum-Likelihood-Ansatz. Zunächst übernimmt er eine „Gugelhupf förmige“ Wahrscheinlichkeit , dass die Verbrechen an Orten statt , nimmt wenn die kriminellen Leben an der Stelle . (Die Gugelhupf-Annahme ist, dass der Verbrecher weder in seiner unmittelbaren Nachbarschaft ein Verbrechen begeht noch extrem weit reist, um sein nächstes zufälliges Opfer zu wählen.) Dieses Modell beschreibt die Wahrscheinlichkeiten für verschiedene gegebenem festen . mit anderen Worten ist eine Funktion von mit einem festen Parameterp(x|θ)xθxθpθ(x)=p(x|θ)xθ.

Natürlich kennt das FBI weder das Domizil des Verbrechers noch will es den nächsten Tatort vorhersagen. (sie hoffen , zuerst die Verbrecher zu finden!) ist es umgekehrt, das FBI kennt bereits die Tatorte und will die kriminelle Domizil finden .xθ

so der brillante Bruder FBI - Agenten hat zu versuchen, die meisten finden wahrscheinlich unter allen Werten möglich, dh die , die maximieren für den tatsächlich beobachtete . deshalb betrachtet er jetzt als eine Funktion von mit einem festen Parameter . bildlich gesprochen schiebt er sein gugelhupf auf der karte herum, bis es optimal zu den bekannten verbrechensschauplätzen passt . das FBI an der Tür geht klopft dann in der Mitte des Gugelhupf.θθp(x|θ)xlx(θ)=p(x|θ)θxxθ^

um diesen Perspektivenwechsel zu betonen, wird die Wahrscheinlichkeit (Funktion) von , während die Wahrscheinlichkeit (Funktion) von . beide sind tatsächlich die gleiche Funktion aber aus verschiedenen Perspektiven gesehen, und wobei und ihre Rollen als Variable bzw. Parameter wechseln.lx(θ)θ p θ ( x ) x p ( x | θ ) x θθpθ(x)xp(x|θ)xθ

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.