Hat Statistics.com die falsche Antwort veröffentlicht?


28

Statistics.com hat ein Problem der Woche veröffentlicht: Die Rate der Betrugsfälle bei Wohnversicherungen beträgt 10% (jeder zehnte Schadensfall ist betrügerisch). Ein Berater hat ein maschinelles Lernsystem vorgeschlagen, um Ansprüche zu überprüfen und sie als Betrug oder Nichtbetrug zu klassifizieren. Das System erkennt betrügerische Angaben zu 90% und klassifiziert betrugsfreie Angaben nur zu 80% (fälschlicherweise wird jede fünfte Angabe als „Betrug“ bezeichnet). Wenn das System eine Forderung als betrügerisch einstuft, wie hoch ist die Wahrscheinlichkeit, dass sie tatsächlich betrügerisch ist?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Mein Kollege und ich haben beide unabhängig voneinander dieselbe Antwort gefunden, die nicht mit der veröffentlichten Lösung übereinstimmt.

Unsere Lösung:

(.9 * .1) / (.9 * .1) + (.2 * .9)) = 1/3

Ihre Lösung:

Dies ist ein Problem bei der bedingten Wahrscheinlichkeit. (Es ist auch ein Bayes'sches Problem, aber das Anwenden der Formel in der Bayes'schen Regel hilft nur dabei, die Vorgänge zu verschleiern.) Betrachten Sie 100 Behauptungen. 10 ist betrügerisch, und das System kennzeichnet 9 von ihnen korrekt als "Betrug". 90 Forderungen sind in Ordnung, aber das System klassifiziert fälschlicherweise 72 (80%) als "Betrug". Insgesamt wurden 81 Forderungen gekennzeichnet als betrügerisch, aber nur 9 von ihnen, 11%, sind tatsächlich betrügerisch.

Wer hatte recht?


4
Sieht aus wie sie korrigiert , um die Lösung auf ihrer Website im Einklang mit dem, was man berechnet

2
@Nein, korrigierte leise die Antwort. hinterhältig
Aksakal

Wissenswertes: In der Entscheidungsfindung wird dieses Problem häufig als "Mammogrammproblem" bezeichnet, da es sich bei seiner üblichen Darstellung um die Wahrscheinlichkeit handelt, dass ein Patient mit Krebs ein positives Mammogramm erhält.
Kodiologist

"Die gute Nachricht ist, dass unser System 90% des Betrugs als Betrug einstuft. Die schlechte Nachricht ist, dass es 80% des Betrugs als Betrug einstuft." Beachten Sie, dass die berechneten 11% nur geringfügig über dem Basiszinssatz von 10% liegen. Ein maschinelles Lernmodell, bei dem die Betrugsrate in den gekennzeichneten Fällen nur 10% über der Basisrate liegt, ist ziemlich schrecklich.
Akkumulation

Antworten:


41

Ich glaube, dass Sie und Ihr Kollege Recht haben. Statistics.com hat die richtige Denkweise, macht aber einen einfachen Fehler. Von den 90 "OK" -Anträgen erwarten wir, dass 20% fälschlicherweise als Betrug eingestuft werden, nicht 80%. 20% von 90 sind 18, was zu 9 korrekt identifizierten und 18 inkorrekten Ansprüchen mit einem Verhältnis von 1/3 führt, genau das, was die Bayes-Regel ergibt.


11

Du hast Recht. Die Lösung, die die Website veröffentlicht hat, basiert auf einer Fehlinterpretation des Problems, da 80% der nicht betrügerischen Ansprüche als betrügerisch eingestuft werden anstatt der angegebenen 20%.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.