Lassen Sie mich zunächst einmal sagen, dass ich vor 38 Jahren einen Statistikkurs in der Ingenieurschule hatte. Also fliege ich hier blind.
Ich habe die Ergebnisse von im Wesentlichen 18 separaten diagnostischen Tests für eine Krankheit. Jeder Test ist binär - ja / nein, ohne Schwellenwert, der angepasst werden kann, um den Test "abzustimmen". Für jeden Test habe ich angeblich gültige Daten zu wahr / falsch positiven / negativen Ergebnissen im Vergleich zum "Goldstandard", die Spezifitäts- und Sensitivitätszahlen ergeben (und alles andere, was Sie aus diesen Daten ableiten können).
Natürlich hat kein einzelner Test eine ausreichende Spezifität / Empfindlichkeit, um alleine verwendet zu werden, und wenn Sie die Ergebnisse aller Tests "mustern", gibt es häufig keinen offensichtlichen Trend.
Ich frage mich, wie diese Zahlen am besten so kombiniert werden können, dass ein Endergebnis erzielt wird, das (hoffentlich) zuverlässiger ist als jeder einzelne Test. Ich habe mir bisher die Technik ausgedacht, die Besonderheiten von TRUE-Tests mit zu kombinieren
spec_combined = 1 - (1 - spec_1) * (1 - spec_2) * ... (1 - spec_N)
und Kombinieren der Empfindlichkeiten der FALSE-Tests auf die gleiche Weise. Das Verhältnis
(1 - sens_combined) / (1 - spec_combined)
dann scheint sich ein einigermaßen gutes "Endergebnis" zu ergeben, wobei ein Wert über 10 eine zuverlässige WAHR und ein Wert unter 0,1 eine zuverlässige FALSCH ist.
Diesem Schema fehlt jedoch jede echte Genauigkeit, und für einige Kombinationen von Testergebnissen scheint es eine Antwort zu liefern, die nicht intuitiv ist.
Gibt es eine bessere Möglichkeit, die Testergebnisse mehrerer Tests aufgrund ihrer Spezifitäten und Empfindlichkeiten zu kombinieren? (Einige Tests haben eine Spezifität von 85 und eine Empfindlichkeit von 15, andere Tests sind genau das Gegenteil.)
OK, mein Kopf tut weh!
Angenommen, ich habe Tests 1-4 mit Sensitivitäten / Spezifitäten (in%):
- 65/50
- 25/70
- 30/60
- 85/35
Die Tests 1 und 2 sind positiv, 3 und 4 negativ.
Die mutmaßliche Wahrscheinlichkeit, dass 1 falsch positiv ist, wäre (1 - 0,5) und für 2 (1 - 0,7), sodass die Wahrscheinlichkeit, dass beide falsch positiv sind, 0,5 x 0,3 = 0,15 wäre.
Die mutmaßliche Wahrscheinlichkeit, dass 3 und 4 falsch negativ sind, wäre (1 - 0,3) und (1 - 0,85) oder 0,7 x 0,15 = 0,105.
(Wir werden für den Moment die Tatsache ignorieren, dass sich die Zahlen nicht summieren.)
Die angenommenen Wahrscheinlichkeiten, dass 1 und 2 echte Positive sind, sind jedoch 0,65 und 0,25 = 0,1625, während die angenommenen Wahrscheinlichkeiten, dass 3 und 4 echte Negative sind, 0,6 und 0,35 = 0,21 sind.
Jetzt können wir zwei Fragen stellen:
- Warum addieren sich die Zahlen nicht (oder kommen sogar nahe)? (Die von mir verwendeten Sens / Spec-Nummern stammen aus dem "echten Leben".)
- Wie soll ich entscheiden, welche Hypothese (höchstwahrscheinlich) wahr ist (in diesem Beispiel scheint sie für beide Berechnungen "negativ" zu sein, aber ich bin nicht sicher, ob dies immer der Fall ist) und was kann ich für eine "Gütezahl" verwenden? "um zu entscheiden, ob das Ergebnis" signifikant "ist?
Mehr Info
Dies ist ein Versuch, ein bestehendes "Gewichtungs" -Schema zu verfeinern und zu erweitern, das vollständig "künstlerischer" Natur ist (dh nur aus einem ** herausgezogen wird). Das aktuelle Schema basiert im Wesentlichen auf den Zeilen "Wenn zwei der ersten drei positiv sind und wenn zwei der nächsten vier und eine der nächsten beiden positiv sind." (Das ist natürlich ein etwas vereinfachtes Beispiel.) Die verfügbaren Statistiken unterstützen dieses Gewichtungsschema nicht - selbst mit einem groben Gewichtungsalgorithmus, der auf den gemessenen Statistiken basiert, habe ich signifikant unterschiedliche Antworten gefunden. Aber ohne eine strenge Methode zur Bewertung der Statistiken habe ich keine Glaubwürdigkeit.
Außerdem entscheidet das aktuelle Schema nur über positiv / negativ, und ich muss in der Mitte einen (statistisch gültigen) "mehrdeutigen" Fall erstellen, sodass eine gewisse Gütezahl erforderlich ist.
Neueste
Ich habe einen mehr oder weniger "reinen" Bayes'schen Inferenzalgorithmus implementiert, und nachdem ich einige Nebenprobleme wiederholt habe, scheint es ziemlich gut zu funktionieren. Anstatt aus Spezifitäten und Sensitivitäten zu arbeiten, leite ich die Formeleingaben direkt aus den wahr-positiven / falsch-positiven Zahlen ab. Leider bedeutet dies, dass ich einige der Daten mit besserer Qualität nicht verwenden kann, die nicht so dargestellt werden, dass diese Zahlen extrahiert werden können, aber der Algorithmus ist viel sauberer und ermöglicht die Änderung der Eingaben mit viel weniger Handberechnung. und es scheint ziemlich stabil zu sein und die Ergebnisse stimmen ziemlich gut mit "Intuition" überein.
Ich habe mir auch einen "Algorithmus" (im rein programmierbaren Sinne) ausgedacht, um die Wechselwirkungen zwischen voneinander abhängigen Beobachtungen zu handhaben. Anstatt nach einer umfassenden Formel zu suchen, behalte ich stattdessen für jede Beobachtung einen Grenzwahrscheinlichkeitsmultiplikator, der geändert wird, wenn frühere Beobachtungen verarbeitet werden, basierend auf einer einfachen Tabelle: "Wenn Beobachtung A wahr ist, ändern Sie die Grenzwahrscheinlichkeit von Beobachtung B um a Faktor 1,2 ", z. Auf keinen Fall elegant, aber brauchbar, und es scheint über eine Reihe von Eingängen einigermaßen stabil zu sein.
(Ich werde das Kopfgeld an das vergeben, was ich für den hilfreichsten Beitrag in ein paar Stunden halte. Wenn also jemand ein paar Licks machen möchte, muss er es tun.)