Ist die Wahrscheinlichkeitstheorie das Studium nicht negativer Funktionen, die sich zu einer integrieren / summieren?


26

Dies ist wahrscheinlich eine dumme Frage, aber ist die Wahrscheinlichkeitstheorie das Studium von Funktionen, die sich zu einer integrieren / summieren?

BEARBEITEN. Ich habe die Nicht-Negativität vergessen. Ist die Wahrscheinlichkeitstheorie also das Studium nicht-negativer Funktionen, die sich zu einer integrieren / summieren?


Ja, Wahrscheinlichkeiten summieren sich immer auf eins. Wahrscheinlichkeiten hingegen haben diese Einschränkung nicht.
Mike Hunter

2
Die einzige vernünftige Antwort auf die Frage lautet: Nein, nicht zuletzt, weil es viele Funktionen , die zu 1 integriert sind, für die jedoch für einige und keine Wahrscheinlichkeiten darstellen kann . Stellen Sie sich zum Beispiel eine Funktion vor, die 1,5 zwischen 0 und 1 und -0,5 zwischen 1 und 2 und überall 0 ist. (aber es ist wohl auch aus anderen Gründen "nein")b a f ( u ) d u a bfabf(u)duab
Glen_b -Reinstate Monica


1
Es gibt ernsthafte Arbeiten zur negativen Wahrscheinlichkeit, zB Maurice S. Bartlett. doi.org/10.1017/S0305004100022398
Nick Cox

2
@dontloo, was ich dort anstrebte, wird jetzt durch das Tao-Zitat in der Antwort von Chaconne ziemlich gut abgedeckt.
Glen_b -Reinstate Monica

Antworten:


31

Auf einer rein formalen Ebene könnte man die Wahrscheinlichkeitstheorie das Studium von Maßräumen mit dem Gesamtmaß eins nennen, aber das wäre wie das Studium von endenden Ziffernfolgen mit der Bezeichnung Zahlentheorie

- von Terry Taos Themen in der Zufallsmatrixtheorie .

Ich denke, das ist das wirklich Grundlegende. Wenn wir einen Wahrscheinlichkeitsraum und eine Zufallsvariable mit Pushforward-Maß , dann der Grund eine Dichte zu eins integriert, weil . Und das ist grundlegender als pdfs vs pmfs.X : Ω R P X : = P X - 1 f = d P X(Ω,F,P)X:ΩRPX:=PX1 P(Ω)=1f=dPXdμP(Ω)=1

Hier ist der Beweis:

Rfdμ=RdPX=PX(R)=P({ωΩ:X(ω)R})=P(Ω)=1.

Dies ist fast eine Umformulierung von AdamOs Antwort (+1), da alle CDFs càdlàg sind und eine Eins-zu-Eins-Beziehung zwischen der Menge der CDFs auf und der Menge aller Wahrscheinlichkeitsmaße auf , aber da die CDF eines Wohnmobils in Bezug auf seine Verteilung definiert ist, betrachte ich Wahrscheinlichkeitsräume als den Ort, um mit dieser Art von Bestrebungen "anzufangen". ( R , B )R(R,B)


Ich aktualisiere, um auf die Korrespondenz zwischen CDFs und Wahrscheinlichkeitsmaßen einzugehen und zu erläutern, wie beides sinnvolle Antworten auf diese Frage sind.

Wir beginnen mit zwei Wahrscheinlichkeitsmaßen und analysieren die entsprechenden CDFs. Wir schließen damit, dass wir stattdessen mit einem CDF beginnen und uns das dadurch induzierte Maß ansehen.

Sei und Wahrscheinlichkeitsmaße für und sei und ihre jeweilige CDF (dh und ähnlich für ). und würden beide Pushforward-Messungen von Zufallsvariablen (dh Verteilungen) darstellen, aber es ist eigentlich egal, woher sie kommen.R ( R , B ) , F Q F R F Q ( a ) = Q ( ( - , a ] ) R Q RQR(R,B)FQFRFQ(a)=Q((,a])RQR

Die Schlüsselidee ist folgende: Wenn und sich auf eine ausreichend große Menge von Mengen einigen, dann einigen sie sich auf die von diesen Mengen erzeugte Algebra. Wenn wir intuitiv eine gut erzogene Sammlung von Ereignissen haben, die durch eine zählbare Anzahl von Komplementen, Kreuzungen und Vereinigungen alle , dann lässt die Einigung auf all diese Mengen keinen Spielraum für Meinungsverschiedenheiten bei Borel einstellen.R σ BQRσB

Lassen Sie uns das formalisieren. Sei und sei , dh ist die Teilmenge von in der und übereinstimmen (und definiert sind). Beachten Sie, dass wir zulassen, dass sie sich auf Nicht-Borel-Mengen einigen, da wie definiert ist ‚t notwendigerweise eine Teilmenge von . Unser Ziel ist es zu zeigen , dass .L = { A R : Q ( A ) = R ( A ) } L P ( R ) Q R L B BLS={(,a]:aR}L={AR:Q(A)=R(A)}LP(R)QRLBBL

Es stellt sich heraus, dass (die von erzeugte ) tatsächlich , daher hoffen wir, dass eine ausreichend große Sammlung von Ereignissen ist, wenn überall ist auf dann gezwungen, auf .σ S B S Q = R S Bσ(S)σSBSQ=RSB

Beachten Sie, dass unter endlichen Schnittpunkten und unter komplementären und abzählbaren disjunkten Schnittpunkten geschlossen ist (dies folgt aus -additivity). Dies bedeutet, dass ein System und ein System ist . Durch die - Theorem haben wir daher , dass . Die Elemente vonL σ S π L & lgr; π & lgr; σ ( S ) = BL S S Q R S B BSLσSπLλπλσ(S)=BLSsind bei weitem nicht so komplex wie eine beliebige Borel-Menge, aber weil jede Borel-Menge aus einer zählbaren Anzahl von Komplementen, Vereinigungen und Schnittpunkten von Elementen von , wenn es keine einzige Meinungsverschiedenheit zwischen und on gibt Elemente von dann befolgt, bis es zu keinen Meinungsverschiedenheiten bei .SQRSBB

Wir haben gerade gezeigt, dass, wenn dann (auf ), was bedeutet, dass die Karte von bis ist eine Injektion. Q = R B Q F Q P : = { P : P  ist ein Wahrscheinlichkeitsmaß für  ( R , B ) } F : = { F : RR : F  ist eine CDF }FQ=FRQ=RBQFQP:={P:P is a probability measure on (R,B)}F:={F:RR:F is a CDF}

Nun , wenn wir über das Gehen in die andere Richtung denken, wir wollen mit einem CDF starten und zeigen , dass es ein Wahrscheinlichkeitsmaß Q derart , daß F ( a ) = Q ( ( - , a ] ) . Dies wird etablieren dass unsere Abbildung Q F Q tatsächlich eine Bijektion ist. Für diese Richtung definieren wir F ohne Bezug auf Wahrscheinlichkeit oder Maße.FQF(a)=Q((,a])QFQF

Wir definieren zunächst eine Stieltjes-Messfunktion als eine Funktion so dassG:RR

  1. nimmt nicht abG
  2. ist rechts stetigG

(und beachten Sie, wie aus dieser Definition folgt, dass càdlàg ist, aber wegen der zusätzlichen nicht abnehmenden Einschränkung sind "die meisten" càdlàg-Funktionen keine Stieltjes-Messfunktionen).

Es kann gezeigt werden , dass die jeweils Stieltjessche Funktion eine einzigartige Maßnahme induziert μ auf ( R , B ) definiert durch μ ( ( a , b ] ) = G ( b ) - G ( a ) (siehe zB Durrett die Wahrscheinlichkeit und Zufallsprozesse für Details dazu). Zum Beispiel wird das Lebesgue-Maß durch G ( x ) = x induziert .Gμ(R,B)

μ((a,b])=G(b)G(a)
G(x)=x

Flim x F ( x ) : = F ( ) = 1 F Q ( R , B ) Q ( ( a , b ] ) = F ( b ) - F ( a ) .limxF(x):=F()=0limxF(x):=F()=1FQ(R,B)

Q((a,b])=F(b)F(a).

Man beachte, wie und , so ein Wahrscheinlichkeitsmaß ist , und ist genau das, was wir zu definieren verwendet würden , wenn man die andere Richtung ging.Q((,a])=F(a)F()=F(a)Q((,])=F()F()=1QF

Alle zusammen haben wir nun gesehen , dass die Abbildung 1-1 ist und auf , so dass wir wirklich eine Bijektion zwischen tun haben und . Wenn wir dies auf die eigentliche Frage zurückbringen, zeigt dies, dass wir entweder CDFs oder Wahrscheinlichkeitsmaße als unser Objekt, dessen Untersuchung wir für wahrscheinlich erklären (und gleichzeitig anerkennen, dass dies ein etwas scherzhaftes Unterfangen ist), gleichwertig hochhalten könnten. Ich persönlich bevorzuge immer noch Wahrscheinlichkeitsräume, weil ich der Meinung bin, dass die Theorie natürlicher in diese Richtung fließt, aber CDFs nicht "falsch" sind.QFQPF


3
+1 für eine breitere Perspektive auf die Angelegenheit; Sie bemerken zu Recht, dass Skorokhods càdlàg-Funktionsraum nur eine gegenwärtige Vorstellung davon ist, was die Wahrscheinlichkeitstheorie beinhaltet, die sich grundlegend von Borels und Skorokhods Entdeckungen unterscheidet und erst etwa 40 Jahre zurückliegt. Wer weiß, was das nächste Jahrhundert aufdecken könnte?
AdamO

1
@AdamO absolut, und es gibt die seltsameren wie nicht-archimedische Wahrscheinlichkeit, bei denen ich finde, dass sie mir helfen, die Standardformulierung besser zu verstehen, auch wenn sie nie zur vorherrschenden Ansicht werden (und meines Wissens versucht das niemand ernsthaft) (
ZB

Ich las den Fragentitel und dachte an dieses Zitat von Terence Tao. muss es vor Jahren gelesen haben ( 2010 ), aber es ist wirklich unvergesslich. Wie er sagt weiter auf, Auf praktischer Ebene ist das Gegenteil wahr ...
ShreevatsaR

Siehe meinen Kommentar zur Frage: Wie hängen alternative Wahrscheinlichkeitstheorien wie Bayesian (und Dempster-Shafer und das übertragbare Glaubensmodell und die Dezert-Smarandache-Theorie), ungenaue Wahrscheinlichkeiten, Plausibilitätstheorie usw. mit dieser Frage und Diskussion zusammen?
E. Douglas Jensen

@ E.DouglasJensen Ich bin mir nicht sicher, ob ich das in Bezug auf die Standard-Kolmogorov-Axiome anspreche. In diesem Zusammenhang denke ich, dass meine Antwort "richtig" ist, aber wenn wir die Axiome ändern, sind vermutlich alle Wetten ungültig . Außerdem bin ich überhaupt nicht philosophisch. Wenn wir also versuchen, dies in irgendeiner Weise mit der realen Welt in Verbindung zu bringen, z komplizierter. Trotzdem scheint es eine ziemlich sichere Wette zu sein, dass die Wahrscheinlichkeit, dass "irgendetwas" passiert, der Maximalwert (wahrscheinlich ) ist und dass 1
diesbezüglich

12

Nein; Die Cantor-Distribution ist nur ein Gegenbeispiel. Es ist eine zufällige Variable, aber es hat keine Dichte. Es hat jedoch eine Verteilungsfunktion. Ich würde daher sagen, dass die Wahrscheinlichkeitstheorie die Untersuchung von càdlàg- Funktionen einschließlich des Cantor DF ist, die linke Grenzen von 0 und rechte Grenzen von 1 haben.


Schön, ich habe noch nie von Cadlag-Funktionen gehört. Diese setzen jedoch immer noch einen realen und einen metrischen Raum voraus. Nicht alle Wahrscheinlichkeitstheorien werden in solchen Räumen durchgeführt.
HRSE

1
Sie können zum Beispiel zu Terrence Fine, Theories of Probability zurückkehren. Beachten Sie auch, dass Cadlag-Funktionen (zumindest laut Wikipedia-Artikel) die reellen Zahlen als Domain haben. LJ Savages "Foundations of Statistics" liefert eine Darstellung der (subjektiven) Wahrscheinlichkeitstheorie für Räume, die nicht unbedingt real sind.
HRSE

1
@jwg In einigen anderen Kommentaren in diesem Beitrag wird die negative Wahrscheinlichkeit angesprochen, die in der Quantenphysik von Nutzen zu sein scheint, obwohl mein einfacher Verstand so etwas nicht ergründen kann.
AdamO

1
@HRSE danke für die Hinweise. Ich konnte keinen von beiden online finden, habe aber einige andere Artikel dieser Autoren überflogen, obwohl ich keine Beispiele dafür gefunden habe. Wenn wir eine Zufallsvariable als definieren, wird die CDF als Pushforward-Maß (nicht als Maß on ) , und da ist reellwertigen ist notwendigerweise ein Maß an das heißt , wir einspeisen kann es setzt wie so hat als Domäne. Vermisse ich etwas?XX:ΩRnPX:=PX1P(Ω,F)XPX(Rn,Bn)(,a]FRn
Jld

1
Ich denke auch Mittel bestellt jede Teilmenge hat ein kleinstes Element während total geordnete Mittel für alle und , genau eine von , oder gilt, so beide ist, ist nur total bestellt, und ist weder. Wir müssen unbedingt zu multiplizieren und Wahrscheinlichkeiten hinzufügen , so zumindest die codomain von sollte ein Bereich sein, aber ich glaube nicht , es hat total bestellt werden oder vollständig. Komplexe bewertete Kennzahlen sind ein Beispiel für die erste und hyperreale bewertete Kennzahlen sind ein Beispiel für die zweite. Alle diese sind jedoch metrische Räume (oder können es sein)y x < y xxyx<yx>yx=yNRCP
Jld

6

Ich bin mir sicher, dass Sie gute Antworten erhalten, aber wir werden Ihnen hier eine etwas andere Perspektive geben.

Sie haben vielleicht Mathematiker sagen hören, dass Physik so ziemlich Mathematik ist oder nur eine Anwendung der Mathematik auf die grundlegendsten Naturgesetze. Einige Mathematiker (viele?) Glauben tatsächlich, dass dies der Fall ist. Ich habe das immer und immer wieder in der Universität gehört. In dieser Hinsicht stellen Sie eine ähnliche Frage, wenn auch nicht so umfassend wie diese.

Der Physiker macht sich normalerweise nicht einmal die Mühe, auf diese Aussage zu antworten: Es ist ihnen zu offensichtlich, dass es nicht wahr ist. Wenn Sie jedoch versuchen zu antworten, wird deutlich, dass die Antwort nicht so trivial ist, wenn Sie sie überzeugen möchten.

Meine Antwort ist, dass die Physik nicht nur ein Bündel von Modellen, Gleichungen und Theorien ist. Es ist ein Bereich mit eigenen Ansätzen, Werkzeugen, Heuristiken und Denkweisen. Dies ist ein Grund, warum Poincare, obwohl er vor Einstein die Relativitätstheorie entwickelt hatte, nicht alle Implikationen erkannte und nicht versuchte, alle an Bord zu bringen. Einstein tat es, weil er Physiker war und sofort begriff, was es bedeutete. Ich bin kein Fan des Typen, aber seine Arbeit über Brownsche Bewegung ist ein weiteres Beispiel dafür, wie ein Physiker ein mathematisches Modell baut. Dieses Papier ist erstaunlich und voller Intuition und Denkspuren, die unverkennbar physikalisch sind.

Meine Antwort an Sie lautet also, dass selbst wenn es sich bei der Wahrscheinlichkeit um die Art von Funktionen handelt, die Sie beschrieben haben, es immer noch nicht die Untersuchung dieser Funktionen gewesen wäre. Es ist auch keine Maßtheorie, die auf eine Unterklasse von Maßeinheiten angewendet wird. Die Wahrscheinlichkeitstheorie ist das spezielle Gebiet, in dem Wahrscheinlichkeiten untersucht werden. Sie ist durch radioaktiven Zerfall, Quantenmechanik und Gase usw. mit einer natürlichen Welt verbunden. Wenn bestimmte Funktionen geeignet scheinen, Wahrscheinlichkeiten zu modellieren, werden sie verwendet und untersucht Eigenschaften auch, aber dabei werden wir den Hauptpreis im Auge behalten - die Wahrscheinlichkeiten.


1
+1, um die Realität in einen mathematischen Kampf zu bringen und die Frage tatsächlich mit der einzig vernünftigen Antwort zu beantworten, dh dass ein solcher Reduktionismus den Punkt verfehlt
jld

@Chaconne Ich habe heute ein nützliches Wort für Reduktion gelernt und werde es in meinen Wortschatz aufnehmen :)
Aksakal

+1, das ist, was ich mit meiner Antwort sagen wollte, aber ich sagte es weniger effektiv als Sie, denke ich.
Nathaniel

4

Nun, teilweise wahr, es fehlt eine zweite Bedingung. Negative Wahrscheinlichkeiten machen keinen Sinn. Daher müssen diese Funktionen zwei Bedingungen erfüllen:

  • Kontinuierliche Verteilungen:

    Df(x)dx=1andf(x)>0xD
  • Diskrete Verteilungen:

    xDP(x)=1and0<P(x)1xD

Wobei die Domäne ist, in der die Wahrscheinlichkeitsverteilung definiert ist.D


Vielen Dank Carlos für die Antwort, eigentlich möchte ich wissen, was passiert, wenn die nicht negative Bedingung hinzugefügt wurde?
Dontloo

1
Ich würde sagen, dass die Reduzierung des Wahrscheinlichkeitsfeldes zur Untersuchung der Wahrscheinlichkeitsdichte / Massenfunktionen (Erfüllung der oberen Eigenschaften) zu bloß ist. Darüber hinaus gibt es, wie von @AdamO angegeben, einige Fälle von Zufallsvariablen, die keine Wahrscheinlichkeitsdichtefunktion haben, obwohl sie eine gut definierte cdf haben.
Carlos Campos

@CarlosCampos: Bezüglich negativer Wahrscheinlichkeiten: In manchen Zusammenhängen, zB bei halben Münzen, sind sie tatsächlich sinnvoll. Weitere Informationen finden Sie unter en.wikipedia.org/wiki/Negative_probability .
Inkane

3

Ich würde nein sagen, das ist im Grunde nicht die Wahrscheinlichkeitstheorie, aber ich würde es aus anderen Gründen sagen als die anderen Antworten.

Grundsätzlich würde ich sagen, dass die Wahrscheinlichkeitstheorie das Studium zweier Dinge ist:

  1. Stochastische Prozesse und

  2. Bayesianische Folgerung.

Zu den stochastischen Prozessen gehören Dinge wie das Würfeln, das Ziehen von Bällen aus Urnen usw. sowie die komplexeren Modelle in Physik und Mathematik. Bayes'sche Inferenz argumentiert unter Unsicherheit und verwendet Wahrscheinlichkeiten, um den Wert unbekannter Größen darzustellen.

Diese beiden Dinge sind enger miteinander verbunden, als sie auf den ersten Blick erscheinen könnten. Ein Grund, warum wir sie unter einem Dach untersuchen können, ist, dass wichtige Aspekte von beiden als nicht negative Funktionen dargestellt werden können, die sich zu einer summieren / integrieren. Die Wahrscheinlichkeit ist jedoch nicht nur das Studium dieser Funktionen - ihre Interpretation in Bezug auf zufällige Prozesse und Folgerungen ist auch ein wichtiger Teil davon.

Die Wahrscheinlichkeitstheorie umfasst beispielsweise Konzepte wie bedingte Wahrscheinlichkeiten und Zufallsvariablen sowie Größen wie die Entropie, die gegenseitige Information und die Erwartung und Varianz von Zufallsvariablen. Während man könnte diese Dinge rein in Bezug auf die normalisierte nicht negative Funktionen definieren, scheint die Motivation für diese ziemlich komisch ohne die Interpretation im Hinblick auf die Zufallsprozesse und Inferenz.

Darüber hinaus stößt man manchmal auf wahrscheinlichkeitstheoretische Konzepte, insbesondere auf der Inferenzseite, die sich nicht mit einer auf eins normierenden nicht-negativen Funktion ausdrücken lassen. Hier kommen die sogenannten "unsachgemäßen Vorgesetzten" in den Sinn, und AdamO nannte die Cantor-Verteilung als ein weiteres Beispiel.

Es gibt sicherlich Bereiche der Wahrscheinlichkeitstheorie, in denen die mathematischen Eigenschaften normalisierter nicht negativer Funktionen im Vordergrund stehen und für die die beiden genannten Anwendungsbereiche keine Rolle spielen. Wenn dies der Fall ist, nennen wir es oft eher Maßtheorie als Wahrscheinlichkeitstheorie. Aber die Wahrscheinlichkeitstheorie ist auch - ich würde sagen meistens - ein angewandtes Feld, und die Anwendungen von Wahrscheinlichkeitsverteilungen sind an sich eine nicht triviale Komponente des Feldes.


2
Sie haben den Themenbereich der Wahrscheinlichkeitstheorie ziemlich eng gefasst ...
Tim

@Tim nicht absichtlich - Ich habe es in zwei Bereiche unterteilt, aber beabsichtigt, dass jeder von ihnen sehr weit ausgelegt wird. Können Sie mir einige andere Themen nennen, die in keine der beiden Überschriften passen?
Nathaniel
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.