Haben Fehlerbalken für Wahrscheinlichkeiten eine Bedeutung?


25

Die Leute sagen oft, dass ein Ereignis eine Chance von 50-60% hat. Manchmal sehe ich sogar Leute, die explizite Fehlerbalken für Wahrscheinlichkeitszuweisungen anzeigen. Haben diese Aussagen irgendeine Bedeutung oder handelt es sich nur um eine sprachliche Unbehaglichkeit bei der Auswahl einer bestimmten Zahl für etwas, das von Natur aus nicht erkennbar ist?


1
Tut das Wahrscheinlich Ungefähr Korrekte Gerüst in der rechnergestützten Lerntheorie nicht genau das, was typischerweise eine Schranke für die Fehlerrate eines Klassifikators ergibt, die mit einer Wahrscheinlichkeit von 1δ ? Wenn es ein bedeutungsloses Konzept wäre, bezweifle ich, dass diese (äußerst klugen) CoLT-Leute es nicht bemerkt hätten!
Dikran Marsupial

5
@DikranMarsupial Die Fehler beim PAC-Lernen betreffen nicht die Wahrscheinlichkeiten selbst (nach denen sich diese Frage richtet), sondern die Daten. Das heißt, wir bezeichnen die Ausgabe eines Algorithmus als wahrscheinlich ungefähr richtig, wenn wir beweisen können, dass die Antwort mit einer Wahrscheinlichkeit von 1δ innerhalb eines Abstands von ε zum wahren Wert liegt.
Diskrete Eidechse

@Discretelizard, aber in einer Klassifizierungseinstellung, ist das nicht eine Grenze für eine Fehlerrate (was eine Fehlerwahrscheinlichkeit ist)? Schon lange habe ich mir CoLT angeschaut!
Dikran Beuteltier

1
@DikranMarsupial In der allgemeinen Einstellung für das PAC-Lernen misst der "ungefähre" Teil die "Größe" des Fehlers, nicht die "Wahrscheinlichkeit". Eine Motivation für PAC-Grenzen besteht darin, eine feinkörnigere Analyse als beispielsweise das erwartete Risiko zu erhalten. Ich denke nicht, dass sich dies in der Klassifizierungseinstellung ändert, obwohl für eine sinnvolle PAC eine "Distanz" (oder Verlustfunktion) zwischen den Klassen definiert sein muss. (In dem spezielleren Fall der binären Klassifizierung gibt es nur eine Möglichkeit, einen Fehler zu machen, sodass der ungefähre Teil in diesem Fall keinen Sinn ergibt.)
Diskrete Eidechse

Antworten:


36

Es würde keinen Sinn machen, wenn Sie über bekannte Wahrscheinlichkeiten sprechen , z. B. ist die Wahrscheinlichkeit, dass Köpfe geworfen werden, per Definition 0,5. Wenn Sie jedoch nicht über ein Lehrbuchbeispiel sprechen, ist die genaue Wahrscheinlichkeit nie bekannt, wir kennen sie nur ungefähr.

Die andere Geschichte ist, wenn Sie die Wahrscheinlichkeiten aus den Daten abschätzen , z. B. haben Sie 13 Gewinnscheine unter den 12563 gekauften Scheinen beobachtet, und aus diesen Daten schätzen Sie die Wahrscheinlichkeit auf 13/12563. Dies ist etwas, das Sie anhand der Stichprobe geschätzt haben, es ist also ungewiss, da Sie bei unterschiedlichen Stichproben unterschiedliche Werte beobachten können. Bei der Unsicherheitsschätzung geht es nicht um die Wahrscheinlichkeit, sondern um deren Schätzung.

Ein anderes Beispiel wäre, wenn die Wahrscheinlichkeit nicht festgelegt ist, sondern von anderen Faktoren abhängt. Sagen wir, wir sprechen über die Wahrscheinlichkeit, bei einem Autounfall zu sterben. Wir können die "globale" Wahrscheinlichkeit als einen Wert betrachten, der über alle Faktoren, die direkt und indirekt zu Autounfällen führen, an den Rand gedrängt wird. Andererseits können Sie überlegen, wie sich die Wahrscheinlichkeiten unter Berücksichtigung der Risikofaktoren in der Bevölkerung unterscheiden.

Es gibt noch viele weitere Beispiele, bei denen Wahrscheinlichkeiten selbst als Zufallsvariablen betrachtet werden , sodass sie variieren und nicht fixiert werden.


1
Wenn die Berechnung einer Wahrscheinlichkeitsschätzung durch eine logistische Regression erfolgen würde, wäre es nicht selbstverständlich anzunehmen, dass sich diese "Fehlerbalken" auf Vorhersageintervalle beziehen. (Ich bitte hauptsächlich um Klarstellung zu dem ersten Punkt, den Sie
ansprechen

1
@ usεr11852 Konfidenzintervalle, Vorhersageintervalle, Regionen mit der höchsten Dichte usw., abhängig vom tatsächlichen Fall. Ich habe die Antwort sehr weit gefasst, da wir in vielen Szenarien "unterschiedliche" Wahrscheinlichkeiten haben und diese auf unterschiedliche Weise variieren. Sie können sie auch in verschiedenen Szenarien unterschiedlich interpretieren.
Tim

1
Sogar "bekannte" Wahrscheinlichkeiten können für sehr kleine Fehlerbalken eine Abkürzung sein. Man könnte vermutlich zeigen, dass ein Münzwurf 50,00001% - 49,99999% beträgt, mit genügend Versuchen, um ausreichend kleine Fehlerbalken zu erhalten, die 50,00000% ausschließen. Es gibt kein physikalisches Gesetz, das besagt, dass die Gewinnchancen für eine asymmetrische Münze genau gleich sein sollten, aber die Fehlerbalken sind viel zu klein, als dass es jemanden interessieren könnte.
Nuclear Wang

5
@NuclearWang Dies wird durch die Verwendung des Ausdrucks "faire Münze" durch die OPs erklärt. Per Definition beträgt P (HEADS) für eine faire Münze 0,5. Eine faire Münze ist ein mathematisches Konstrukt. Ich würde eine Änderung vorschlagen, die "durch die Gesetze der Physik" durch "per Definition" ersetzt, um diesen Punkt zu betonen.
De Novo unterstützt GoFundMonica

2
@DeNovo Gleiches gilt für physische Münzen stat.columbia.edu/~gelman/research/published/diceRev2.pdf , aber ja, ich sagte "fair", um diese Diskussion nicht zu beginnen
Tim

23

Eine sehr relevante Illustration von xkcd :

Bildbeschreibung hier eingeben

mit zugehöriger Bildunterschrift:

... eine Effektgröße von 1,68 (95% CI: 1,56 (95% CI: 1,52 (95% CI: 1,504 (95% CI: 1,494 (95% CI: 1,488 (95% CI: 1,485 (95% CI: 1,482)) (95% CI: 1,481 (95% CI: 1,4799 (95% CI: 1,4791 (95% CI: 1,4784 ...


Bedeutet dies, dass Fehlerbalken für Wahrscheinlichkeiten überflüssig sind?
BalinKingOfMoria

12
Abgesehen von einem Scherz bedeutet dies, dass die Genauigkeit der Fehlerbalken ungewiss ist und dass die Bewertung der Unsicherheit selbst in einem unendlichen Regress ungewiss ist.
Xi'an

7
Aus diesem Grund halte ich das Bild für relevant und zutiefst mit der grundsätzlichen Schwierigkeit (und schönen Herausforderung) verbunden, Fehler in der Statistik zu bewerten.
Xi'an

14
Diese Zahl stellt die Meta-Unsicherheit dar , die mit einer Unsicherheit bezüglich einer Wahrscheinlichkeit in Zusammenhang stehen kann, da die Unsicherheit selbst ein Maß für die Breite einer Wahrscheinlichkeitsverteilung ist, aber Ihr Beitrag erklärt dies in keiner Weise. Tatsächlich schlägt der XKCD-Comic vor, dass er etwas mit der Fehlerausbreitung zu tun hat (was falsch ist), was die Frage nicht tut.
Gerrit

6

XYX/Y1/Y

0.50.5

X/Y[0.4,0.6][0.47,0.53]

Benötigen wir Wahrscheinlichkeiten höherer Ordnung und wenn ja, was bedeuten sie? Judäa Perle. UAI 1987. https://arxiv.org/abs/1304.2716


4

Alle Maße sind unsicher.

Daher ist auch eine Messung der Wahrscheinlichkeit ungewiss.

Diese Unsicherheit bei der Wahrscheinlichkeitsmessung kann mit einem Unsicherheitsbalken visuell dargestellt werden. Beachten Sie, dass Unsicherheitsbalken oft als Fehlerbalken bezeichnet werden. Dies ist falsch oder zumindest irreführend, da es Unsicherheit und nicht Fehler zeigt (der Fehler ist die Differenz zwischen der Messung und der unbekannten Wahrheit, der Fehler ist also unbekannt; die Unsicherheit ist ein Maß für die Breite der Wahrscheinlichkeitsdichte nach der Messung von Messung).

Ein verwandtes Thema ist die Meta-Unsicherheit . Die Unsicherheit beschreibt die Breite einer a posteriori-Wahrscheinlichkeitsverteilungsfunktion, und im Falle einer Unsicherheit vom Typ A (durch wiederholte Messungen geschätzte Unsicherheit) besteht unvermeidlich eine Unsicherheit über die Unsicherheit; Metrologen haben mir gesagt, dass die messtechnische Praxis vorschreibt, die Unsicherheit in diesem Fall zu erweitern (IIRC, wenn die Unsicherheit durch die Standardabweichung von N wiederholten Messungen geschätzt wird, sollte man die resultierende Standardabweichung mit multiplizierenNN2


3

prob(A|Θ=θ,I)IΘ=θ0prob(Θ=θ|I)=δθθ0

prob(A|I)=θprob(A|Θ=θ,I)δθθ0=prob(A|Θ=θ0,I)

ΘIprob(Θ=θ|I)prob(A|I)AΘ=θΘA

prob(A,Θ=θ|I)=prob(A|Θ=θ,I)prob(Θ=θ|I)prob(A|I)=θprob(A|Θ=θ,I)prob(Θ=θ|I)

Das Hinzufügen von Fehlerbalken zu einer Wahrscheinlichkeit entspricht dem Hinzufügen von Unsicherheit zu Störparametern, wodurch die Wahrscheinlichkeit geändert, aber nicht unsicher gemacht werden kann.


1

Es gibt sehr oft Fälle, in denen Sie eine Wahrscheinlichkeit von einer Wahrscheinlichkeit haben möchten. Nehmen wir zum Beispiel an, Sie haben im Bereich Lebensmittelsicherheit gearbeitet und mithilfe eines Überlebensanalysemodells die Wahrscheinlichkeit abgeschätzt, dass Botulinumsporen in Abhängigkeit von den Schritten der Lebensmittelzubereitung (dh Kochen) und der Inkubationszeit / -temperatur (vgl Papier). Lebensmittelhersteller möchten dieses Modell möglicherweise verwenden, um sichere Verfallsdaten festzulegen, damit das Risiko für Botulismus beim Verbraucher angemessen gering ist. Das Modell ist jedoch an eine endliche Trainingsstichprobe angepasst. Anstatt also ein Verfallsdatum auszuwählen, für das die Keimungswahrscheinlichkeit unter 0,001 liegt, möchten Sie möglicherweise ein früheres Datum auswählen, für das (unter Berücksichtigung der Modellannahmen). Sie könnten zu 95% sicher sein, dass die Keimwahrscheinlichkeit weniger als 0,001 beträgt. Dies scheint in einer bayesianischen Umgebung eine ziemlich natürliche Sache zu sein.


0

tl; dr - Jede einmalige Vermutung eines bestimmten Vermuters kann auf eine einzige Wahrscheinlichkeit reduziert werden. Dies ist jedoch nur der triviale Fall. Wahrscheinlichkeitsstrukturen können immer dann sinnvoll sein, wenn eine Kontextrelevanz vorliegt, die über eine einzige Wahrscheinlichkeit hinausgeht.


Die Chance, dass eine zufällige Münze auf Heads landet, beträgt 50%.

Es spielt keine Rolle, ob es eine faire Münze ist oder nicht. Zumindest nicht für mich. Denn während die Münze möglicherweise Vorurteile enthält, die ein sachkundiger Beobachter verwenden könnte, um fundiertere Vorhersagen zu treffen, müsste ich eine Quote von 50% erraten.

HeadsTails50%50%.
First flipSecondflipHeadsTailsHeads25%25%Tails25%25%,
aus dem sie schließen könnten
Same sidetwiceHeadsand Tails50%50%.
Die Münzwürfe sind jedoch keine eigenständigen Ereignisse. Sie sind durch einen gemeinsamen Erreger verbunden, der als Vorurteile der Münze beschrieben werden kann.

Wenn wir ein Modell annehmen, in dem eine Münze eine konstante Wahrscheinlichkeit von Köpfen hat, dann könnte es präziser sein, Daraus könnte jemand denken PHeads,

HeadsTailsPHeads1PHeads.
First flipSecondflipHeadsTailsHeadsPHeads2PHeads(1PHeads)TailsPHeads(1PHeads)(1PHeads)2,
woraus sie schließen könnten
Same sidetwiceHeadsand Tails12PHeads(1PHeads)2PHeads(1PHeads).
Wenn ich erraten müsste würde ich immer noch mit anfangen also würde es so aussehen, als würde sich dies auf die vorherigen Tabellen reduzieren.PHeads,50%,

Also ist es dasselbe, oder?

Es stellt sich heraus, dass die Wahrscheinlichkeit, zwei Köpfe oder Schwänze zu bekommen, immer größer ist als eine von jedem, außer im speziellen Fall einer vollkommen fairen Münze. Wenn Sie also die Tabelle verkleinern und davon ausgehen, dass die Wahrscheinlichkeit selbst die Unsicherheit erfasst, wären Ihre Vorhersagen bei einer Erweiterung absurd.

Das heißt, es gibt keinen " wahren " Münzwurf. Wir könnten alle möglichen Arten von Flip-Methoden verwenden, die zu sehr unterschiedlichen Ergebnissen und offensichtlichen Vorurteilen führen könnten. Die Vorstellung, dass es einen konsistenten Wert für würde daher auch zu Fehlern führen, wenn wir Argumente auf der Grundlage dieser Prämisse konstruieren.PHeads

Wenn mich also jemand nach den Chancen eines Münzwurfs fragt, würde ich nicht sagen obwohl dies meine beste Vermutung ist. Stattdessen würde ich wahrscheinlich sagen.50%",probably about 50%".

Und was ich sagen möchte, ist ungefähr:

Wenn ich eine einmalige Vermutung anstellen müsste, würde ich wahrscheinlich mit ungefähr Es gibt jedoch einen weiteren Zusammenhang, den Sie wahrscheinlich klären lassen sollten, wenn es wichtig ist.50%.


Die Leute sagen oft, dass ein Ereignis eine Chance von 50-60% hat.

Wenn Sie sich mit ihnen zusammensetzen und alle ihre Daten, Modelle usw. herausarbeiten, können Sie möglicherweise eine bessere Zahl oder im Idealfall ein besseres Modell generieren, mit dem ihre Vorhersagefähigkeit zuverlässiger erfasst wird.

Aber wenn Sie die Differenz aufteilen und sie einfach als 55% bezeichnen, würden Sie davon ausgehen, dass , da Sie nach dem Abschneiden im Grunde genommen mit einer schnellen Schätzung laufen würden die übergeordneten Aspekte davon. Nicht unbedingt eine schlechte Taktik für eine einmalige schnelle Schätzung, aber es geht etwas verloren.PHeads=50%


0

Ich würde argumentieren, dass nur die Fehlerbalken von Bedeutung sind, aber im gegebenen Beispiel ist das Ganze wahrscheinlich fast bedeutungslos.
Das Beispiel bietet sich zur Interpretation als Konfidenzintervall an, in dem die obere und untere Grenze eines gewissen Maßes an Sicherheit den Wahrscheinlichkeitsbereich darstellen. Diese vorgeschlagene Antwort wird sich mit dieser Interpretation befassen. Mehrheitsquelle - https://www.amazon.com/How-Measure-Anything-Intangibles-Business-ebook/dp/B00INUYS2U


Das Beispiel besagt, dass bei einem bestimmten Vertrauensniveau die Antwort wahrscheinlich nicht über 60% und ebenso unwahrscheinlich unter 50% liegt. Dies ist ein so praktischer Satz von Zahlen, dass er einem "Binning" ähnelt, bei dem ein Swag von 55% auf einen Bereich von +/- 5% erhöht wird. Bekanntlich runde Zahlen sind sofort verdächtig.
Ein Weg, um zu einem Konfidenzintervall zu gelangen, besteht darin, ein bestimmtes Konfidenzniveau festzulegen - sagen wir 90% -, und wir lassen zu, dass das Objekt entweder niedriger oder höher ist als unsere Schätzung, aber nur eine Wahrscheinlichkeit von 10% besteht Die "richtige" Antwort liegt außerhalb unseres Intervalls. Wir schätzen also eine höhere Schranke so, dass "die Wahrscheinlichkeit, dass die richtige Antwort größer als diese obere Schranke ist, nur 1/20 ist", und machen dasselbe für die untere Schranke. Dies kann durch "kalibrierte Schätzung" erfolgen, bei der es sich um eine Messform handelt, oder durch andere Messformen.
Unabhängig davon geht es darum, A) von Anfang an zuzugeben, dass mit unserer Ungewissheit eine Ungewissheit verbunden ist, und B) zu vermeiden, dass wir unsere Hände nach dem Ding erheben, es als Chaos bezeichnen und einfach 5% darüber und darunter anpacken. Der Vorteil ist, dass ein bis zu einem bestimmten Grad rigoroser Ansatz zu Ergebnissen führen kann, die noch mathematisch relevant sind, bis zu einem Grad, der mathematisch ausgedrückt werden kann: "Die Wahrscheinlichkeit, dass die richtige Antwort zwischen diesen beiden Grenzen liegt, liegt bei 90% ..." Dies ist ein korrekt gebildetes Konfidenzintervall (CI), das für weitere Berechnungen verwendet werden kann.
Darüber hinaus können wir durch Zuweisen eines Vertrauens die Methode kalibrieren, mit der die Schätzung ermittelt wird, indem wir Vorhersagen mit Ergebnissen vergleichen und anhand unserer Erkenntnisse die Schätzungsmethode verbessern. Nichts kann perfekt gemacht werden, aber viele Dinge können zu 90% effektiv gemacht werden.
Beachten Sie, dass das 90% -KI nichts mit der Tatsache zu tun hat, dass das im OP angegebene Beispiel 10% des Feldes enthält und 90% weglässt.
Wie groß ist die Spannweite einer Boeing 747-100 bei einem CI von 90%? Nun, ich bin mir zu 95% sicher, dass es nicht mehr als 300 Fuß ist, und ich bin mir auch sicher, dass es nicht weniger als 200 Fuß ist -235 Fuß.
HINWEIS: Es gibt keine "zentrale" Schätzung. CIs werden nicht durch Vermutungen und Fudge-Faktoren gebildet. Deshalb sage ich, dass die Fehlerbalken wahrscheinlich mehr als eine gegebene Schätzung ausmachen.


Das heißt, eine Intervallschätzung (alles oben Genannte ) ist nicht unbedingt besser als eine Punktschätzung mit einem richtig berechneten Fehler (woran ich mich an dieser Stelle nicht erinnern kann - ich erinnere mich nur, dass dies häufig falsch gemacht wird). Ich sage nur, dass viele Schätzungen, die als Bereiche ausgedrückt werden - und ich riskiere, dass die meisten Bereiche mit runden Zahlen - eher Punkt + Fudge als Intervall- oder Punkt + Fehlerschätzungen sind.


Eine richtige Verwendung von Punkt + Fehler:

"Eine Maschine füllt Tassen mit einer Flüssigkeit und soll so eingestellt werden, dass der Inhalt der Tassen 250 g Flüssigkeit beträgt. Da die Maschine nicht jede Tasse mit genau 250,0 g füllen kann, weist der den einzelnen Tassen hinzugefügte Inhalt einige Unterschiede auf. und wird als Zufallsvariable X betrachtet. Es wird angenommen, dass diese Variation normal um den gewünschten Durchschnitt von 250 g mit einer Standardabweichung von 2,5 g verteilt ist. Um zu bestimmen, ob die Maschine angemessen kalibriert ist, wird eine Probe von n = 25 verwendet Flüssigkeitsbecher werden zufällig ausgewählt und die Becher werden gewogen. Die resultierenden gemessenen Flüssigkeitsmassen sind X1, ..., X25, eine zufällige Probe von X. "

Schlüsselpunkt: In diesem Beispiel werden sowohl der Mittelwert als auch der Fehler angegeben / angenommen und nicht geschätzt / gemessen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.