Hintergrund: Hier gibt es einige gute Fragen und Antworten zur Kalibrierung von Modellen, die die Wahrscheinlichkeiten eines eintretenden Ergebnisses vorhersagen. Beispielsweise
- Brier-Score und seine Zerlegung in Auflösung, Unsicherheit und Zuverlässigkeit .
- Kalibrierungsdiagramme und isotonische Regression .
Diese Methoden erfordern häufig die Verwendung einer Binning-Methode für die vorhergesagten Wahrscheinlichkeiten, sodass das Verhalten des Ergebnisses (0, 1) über den Bin geglättet wird, indem das mittlere Ergebnis genommen wird.
Problem: Ich kann jedoch nichts finden, das mich zur Auswahl der Behälterbreite auffordert.
Frage: Wie wähle ich die optimale Behälterbreite aus?
Versuch: Zwei gebräuchliche Behälterbreiten scheinen zu sein:
- Binning mit gleicher Breite, z. B. 10 Bins, die jeweils 10% des Intervalls abdecken [0, 1].
- Tukeys Binning-Methode wird hier diskutiert .
Aber sind diese Auswahlmöglichkeiten der Behälter am optimalsten, wenn man daran interessiert wäre, Intervalle in den vorhergesagten Wahrscheinlichkeiten zu finden, die am meisten falsch kalibriert sind?