Hat jemand die PTLOS-Übung 4.1 gelöst?


19

Dies ist eine Übung in bestimmten Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft von Edwin Jaynes, 2003. Es ist eine Teillösung hier . Ich habe eine allgemeinere Teillösung ausgearbeitet und mich gefragt, ob es jemand anders gelöst hat. Ich werde ein bisschen warten, bevor ich meine Antwort veröffentliche, um anderen eine Chance zu geben.

Angenommen, wir haben gegenseitig ausschließende und erschöpfende Hypothese, die mit . Nehmen wir weiter an, wir haben Datensätze, bezeichnet mit . Das Wahrscheinlichkeitsverhältnis für die i-te Hypothese ist gegeben durch:nHi(i=1,,n)mDj(j=1,,m)

LR(Hi)=P(D1D2,Dm|Hi)P(D1D2,Dm|H¯i)

Beachten Sie, dass dies bedingte Wahrscheinlichkeiten sind. Nehmen wir nun an, dass die Datensätze nach der i-ten Hypothese unabhängig sind. Wir haben also:Him

P(D1D2,Dm|Hi)=j=1mP(Dj|Hi)(i=1,,n)Condition 1

Nun wäre es ganz bequem, wenn der Nenner diese Situation mit einbezieht, so dass wir haben:

P(D1D2,Dm|H¯i)=j=1mP(Dj|H¯i)(i=1,,n)Condition 2

In diesem Fall wird die Wahrscheinlichkeitsquote für jeden Datensatz in ein Produkt kleinerer Faktoren aufgeteilt, sodass wir Folgendes haben:

LR(Hi)=j=1mP(Dj|Hi)P(Dj|H¯i)

In diesem Fall wird jeder Datensatz "für H_i stimmen Hi" oder "gegen H_i stimmen Hi", unabhängig von jedem anderen Datensatz.

Die Aufgabe besteht darin, zu beweisen, dass es bei n>2 (mehr als zwei Hypothesen) keine solche nicht-triviale Art und Weise gibt, in der dieses Factoring auftreten kann. Das heißt, wenn Sie annehmen, dass Bedingung 1 und Bedingung 2 gelten, dann höchstens einer der folgenden Faktoren:

P(D1|Hi)P(D1|H¯i)P(D2|Hi)P(D2|H¯i)P(Dm|Hi)P(Dm|H¯i)
unterscheidet sich von 1, sodass nur 1 Datensatz zum Wahrscheinlichkeitsverhältnis beiträgt.

Ich persönlich fand dieses Ergebnis sehr faszinierend, da es im Grunde zeigt, dass das Testen mehrerer Hypothesen nichts anderes als eine Reihe von binären Hypothesentests ist.


Der Index auf verwirrt mich ein wenig . ist ? Oder ist es ? Scheint, als müsste es das letztere sein, aber dann bin ich mir nicht sicher, warum der Index. Oder vielleicht fehlt mir etwas ganz anderes :)H¯iH¯i=argmaxhHiP(D1,Dm|h)H¯i=argmaxh{H1,,Hn}P(D1,Dm|h)
JMS

@JMS - steht für die logische Aussage " ist falsch" oder dass eine der anderen Hypothesen wahr ist. Also haben wir in "Boolescher Algebra" (wegen der Hypothese sind exklusiv und erschöpfend)H¯iHiH¯iH1+H2++Hi1+Hi+1++Hn
Wahrscheinlichkeit

Ich glaube, es muss eine intuitivere Lösung geben als die Algebra in Sanders 'Teillösung. Wenn die Daten für jede der Hypothesen unabhängig sind, gilt dies auch dann, wenn die Prioritäten der Hypothese geändert werden. Und irgendwie ist das Ergebnis, dass das gleiche für den Abschluss gelten muss ...
charles.y.zheng

@charles - Ich weiß genau, wie du dich fühlst. Ich dachte, ich könnte es mit einer qualitativen Inkonsistenz (Reductio ad absurdum) ableiten, aber ich konnte es nicht tun. Ich könnte aber Sanders Mathematik erweitern. Und es ist Bedingung 2, die in Bezug auf das, was das Ergebnis bedeutet, "die zweifelhafte" ist.
Wahrscheinlichkeitsrechnung

@probabilityislogic "Es zeigt im Grunde genommen, dass das Testen mehrerer Hypothesen nichts anderes als eine Reihe von binären Hypothesentests ist." Könnten Sie diesen Satz bitte erweitern? Wenn Sie Seite 98 aus Jaynes 'Buch lesen, verstehen Sie, dass Sie das Testen von auf das Testen von gegen eine andere Hypothese reduzieren und dann irgendwie normalisieren können, um den posterioren für , aber ich verstehe nicht, warum dies folgen würde aus den Ergebnissen der Übung 4.1. H1,,HnH1H1
Martin Drozdik

Antworten:


7

Der Grund, warum wir Gl. 4.28 (in dem Buch, Ihre Bedingung 1) war, dass wir die Wahrscheinlichkeit der Daten unter der einer bestimmten Hypothese und die Hintergrundinformation unabhängig ist, mit anderen Worten für jedes und mit :HaXDiDjij

P(Di|DjHaX)=P(Di|HaX)(1)
Eine über den Binärfall hinausgehende Dehnbarkeit kann daher folgendermaßen diskutiert werden: Nehmen wir Gl .1 um wahr zu sein, ist Gleichung 2 auch wahr?

P(Di|DjHa¯X)=?P(Di|Ha¯X)(2)
Schauen wir uns zunächst die linke Seite von Gleichung 2 mit der Multiplikationsregel an:

P(Di|DjHa¯X)=P(DiDjHa¯|X)P(DjHa¯|X)(3)
Da angenommen wird, dass sich die Hypothesen gegenseitig ausschließen, können wir schreiben: Also wird Gleichung 3: Für den Fall, dass wir nur zwei Hypothesen haben, werden die Summierungen entfernt (da es nur ein ), die gleichen Terme im Nominator und Nenner, ), aufheben und Gleichung 2 ist als richtig erwiesen, dan{H1Hn}
Ha¯=baHb
P(Di|DjHa¯X)=baP(Di|DjHbX)P(DjHb|X)baP(DjHb|X)=baP(Di|HbX)P(DjHb|X)baP(DjHb|X)
baP(DjHb|XHb=Ha¯ . Daher kann Gleichung 4.29 aus Gleichung 4.28 im Buch abgeleitet werden. Wenn wir jedoch mehr als zwei Hypothesen haben, passiert dies nicht. Wenn wir beispielsweise drei Hypothesen haben: , die obige Gleichung: Mit anderen Worten: Diese Gleichung kann nur dann zu Gleichung 2 führen, wenn beide Nenner gleich 1 sind, dh beide Brüche in Nenner müssen gleich Null sein. Das ist aber unmöglich.{H1,H2,H3}
P(Di|DjH1¯X)=P(Di|H2X)P(DjH2|X)+P(Di|H3X)P(DjH3|X)P(DjH2|X)+P(DjH3|X)
P(Di|DjH1¯X)=P(Di|H2X)1+P(DjH3|X)P(DjH2|X)+P(Di|H3X)1+P(DjH2|X)P(DjH3|X)

1
Ich denke, die vierte Gleichung ist falsch. Wir solltenP(DiDjHb|X)=P(DiHB|X)P(Dj|HbX)
Wahrscheinlichkeitsanalyse

Vielen Dank Wahrscheinlichkeitslogik, ich konnte die Lösung korrigieren. Was denkst du jetzt?
Astroboy

Ich verstehe nur nicht, wie Jaynes sagt: "Diejenigen, die nicht zwischen logischer Unabhängigkeit und kausaler Unabhängigkeit unterscheiden, würden annehmen, dass (4.29) immer gültig ist."
Astroboy

Ich glaube, ich habe die Antwort auf meinen letzten Kommentar gefunden: Direkt nach dem obigen Satz sagt Jaynes: "vorausgesetzt, dass kein einen physischen Einfluss auf irgendein anderes ". Im Wesentlichen sagt Jaynes also, dass es eine logische Einschränkung gibt, die die Verallgemeinerung auf nicht mehr als zwei Hypothesen zulässt, auch wenn sie keinen physischen Einfluss haben. DiDj
Astroboy

Nachdem ich den Text noch einmal gelesen hatte, fühlte ich, dass mein letzter Kommentar keine gute Antwort war. So wie ich es jetzt verstehe, wollte Jayne sagen: "Diejenigen, die nicht zwischen logischer Unabhängigkeit und kausaler Unabhängigkeit unterscheiden", würden argumentieren, dass und keinen physischen Einfluss haben. Sie haben also kausale Unabhängigkeit, was für sie logische Unabhängigkeit gegenüber einer Reihe von Hypothesen impliziert. Deshalb finden sie all diese Diskussionen bedeutungslos und verallgemeinern einfach den Binärfall. DiDj
Astroboy

1

Okay, also anstatt noch einmal Saunders Gleichung (5) abzuleiten, werde ich sie hier nur wiedergeben. Bedingung 1 und 2 implizieren folgende Gleichheit:

wobei djk=P(Dj|Hk,I)

j=1m(kihkdjk)=(kihk)m1(kihkj=1mdjk)
djk=P(Dj|Hk,I)hk=P(Hk|I)

Nun können wir uns auf den Fall (zwei Datensätze) spezialisieren, indem wir D ( 1 ) 1D 1 nehmen und D ( 1 ) 2D 2 D 3D m neu bezeichnen . Beachten Sie, dass diese beiden Datensätze weiterhin die Bedingungen 1 und 2 erfüllen, sodass das obige Ergebnis auch für sie gilt. Wenn wir nun m = 2 ausdehnen, erhalten wir:m=2D1(1)D1D2(1)D2D3Dmm=2

(kihkd1k)(lihld2l)=(kihk)(lihld1ld2l)

kilihkhld1kd2l=kilihkhld1ld2l

kilihkhld2l(d1kd1l)=0(i=1,,n)

Der Term kommt in der obigen Doppelsummation zweimal vor, einmal, wenn k = a und l = b , und noch einmal, wenn k = b und l = a . Dies geschieht so lange wie a , b i . Der Koeffizient jedes Terms ist durch d 2 b und - d 2 a gegeben . Da es nun i dieser Gleichungen gibt, können wir sie tatsächlich entfernen(d1ad1b)k=al=bk=bl=aa,bid2bd2ai aus diesen Gleichungen. Nehmenwirzur Veranschaulichung i = 1. Dies bedeutet, dass wir alle Bedingungen haben, mit Ausnahme von a = 1 , b = 2 und b = 1 , a = 2 . Nehmenwir nun i = 3 und wir können diese beiden Bedingungen haben (beachten Sie, dass dies mindestens drei Hypothesen voraussetzt). Die Gleichung kann also wie folgt umgeschrieben werden:ii=1a=1,b=2b=1,a=2i=3

l>khkhl(d2ld2k)(d1kd1l)=0

Jetzt muss jeder der -Terme größer als Null sein, da es sich sonst um eine n 1 < n- Hypothese handelt und die Antwort in n 1 umformuliert werden kann . So können diese aus dem obigen Satz von Bedingungen entfernt werden:hin1<nn1

l>k(d2ld2k)(d1kd1l)=0

Es gibt also Bedingungen, die erfüllt sein müssen, und jede Bedingung impliziert eine von zwei "Unterbedingungen": dassdjk=djlfür entwederj=1oderj=2(aber nicht notwendigerweise beide). Jetzt haben wir eine Menge aller eindeutigen Paare(k,l)fürdjk=djl. Wenn wirn-1dieser Paare für eines derj nehmenwürden, hätten wir alle Zahlen1,...n(n1)2djk=djlj=1j=2(k,l)djk=djln1j1,,n in the set, and dj1=dj2==dj,n1=dj,n. This is because the first pair has 2 elements, and each additional pair brings at least one additional element to the set*

But note that because there are n(n1)2 conditions, we must choose at least the smallest integer greater than or equal to 12×n(n1)2=n(n1)4 for one of the j=1 or j=2. If n>4 then the number of terms chosen is greater than n1. If n=4 or n=3 then we must choose exactly n1 terms. This implies that dj1=dj2==dj,n1=dj,n. Only with two hypothesis (n=2) is where this does not occur. But from the last equation in Saunder's article this equality condition implies:

P(Dj|H¯i)=kidjkhkkihk=djikihkkihk=dji=P(Dj|Hi)

Thus, in the likelihood ratio we have:

P(D1(1)|Hi)P(D1(1)|H¯i)=P(D1|Hi)P(D1|H¯i)=1 ORP(D2(1)|Hi)P(D2(1)|H¯i)=P(D2D3,Dm|Hi)P(D2D3,Dm|H¯i)=1

To complete the proof, note that if the second condition holds, the result is already proved, and only one ratio can be different from 1. If the first condition holds, then we can repeat the above analysis by relabeling D1(2)D2 and D2(2)D3,Dm. Then we would have D1,D2 not contributing, or D2 being the only contributor. We would then have a third relabeling when D1D2 not contributing holds, and so on. Thus, only one data set can contribute to the likelihood ratio when condition 1 and condition 2 hold, and there are more than two hypothesis.

*NOTE: An additional pair might bring no new terms, but this would be offset by a pair which brought 2 new terms. e.g. take dj1=dj2 as first[+2], dj1=dj3 [+1] and dj2=dj3 [+0], but next term must have djk=djl for both k,l(1,2,3). This will add two terms [+2]. If n=4 then we don't need to choose any more, but for the "other" j we must choose the 3 pairs which are not (1,2),(2,3),(1,3). These are (1,4),(2,4),(3,4) and thus the equality holds, because all numbers (1,2,3,4) are in the set.


I am beginning to doubt the accuracy of this proof. The result in Saunders maths implies only n non linear constraints on the djk. This makes djk only have n degrees of freedom instead of 2n. However to get to the n(n1)2 conditions a different argument is required.
probabilityislogic

0

For the record, here is a somewhat more extensive proof. It also contains some background information. Maybe this is helpful for others studying the topic.

The main idea of the proof is to show that Jaynes' conditions 1 and 2 imply that

P(Dmk|HiX)=P(Dmk|X),
for all but one data set mk=1,,m. It then shows that for all these data sets, we also have
P(Dmk|H¯iX)=P(Dmk|X).
Thus we have for all but one data set,
P(Dmk|HiX)P(Dmk|H¯iX)=P(Dmk|X)P(Dmk|X)=1.
The reason that I wanted to include the proof here is that some of the steps involved are not at all obvious, and one needs to take care not to use anything else than conditions 1 and 2 and the product rule (as many of the other proofs implicitly do). The link above includes all these steps in detail. It is on my Google Drive and I will make sure it stays accessible.


Welcome to Cross Validated. Thank you for your answer. Can you please edit you answer to expand it, in order to include the main points of the link you provide? It will be more helpful both for people searching in this site and in case the link breaks. By the way, take the opportunity to take the Tour, if you haven't done it already. See also some tips on How to Answer, on formatting help and on writing down equations using LaTeX / MathJax.
Ertxiem - reinstate Monica

Thanks for your comment. I edited the post and sketched the main steps of the proof.
dennis
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.