Wenn Sie mit logit klassifizieren, geschieht Folgendes.
Das Protokoll sagt die Ausfallwahrscheinlichkeit (PD) eines Kredits voraus, die eine Zahl zwischen 0 und 1 ist. Als Nächstes legen Sie einen Schwellenwert D fest, sodass Sie einen Kredit als Standard markieren, wenn PD> D, und ihn als Nicht-Kredit markieren. Standard wenn PD
Natürlich in einer typischen Kreditpopulation PD << 1. In Ihrem Fall ist 7% also eine ziemlich hohe Wahrscheinlichkeit für Daten für ein Jahr (PDs werden normalerweise jährlich gemeldet). Wenn es sich um mehrjährige Daten handelt, handelt es sich um eine sogenannte kumulative PD. In diesem Fall ist cumPD = 7% beispielsweise für 10-jährige Daten keine hohe Zahl. Daher würde ich nach allen Maßstäben nicht sagen, dass Ihr Datensatz problematisch ist. Ich würde es zumindest typisch für Kreditausfalldaten beschreiben, wenn auch nicht großartig (in dem Sinne, dass Sie eine relativ große Anzahl von Ausfällen haben).
Angenommen, Ihr Modell sagt die folgenden drei PD-Ebenen voraus:
- 0,1 (563,426)
- 0,5 (20.000)
- 0,9 (31.932)
Angenommen, die tatsächlichen Standardeinstellungen für diese Gruppen waren:
Jetzt können Sie D auf verschiedene Werte setzen und sehen, wie sich die Matrix ändert. Verwenden wir zuerst D = 0,4:
- Tatsächlicher Standardwert, Nicht-Standardwert vorhersagen: 0
- Tatsächlicher Standardwert, vorhergesagter Standardwert: 41.932
- Tatsächlicher Nichtausfall, Nichtausfall vorhersagen: 563.426
- Tatsächlicher Nicht-Standard, Standard vorhersagen: 10.000
Wenn Sie D = 0,6 einstellen:
- Tatsächlicher Standard, Nicht-Standard vorhersagen: 31.932
- Tatsächlicher Standard, Standard vorhersagen: 10.000
- Tatsächlicher Nichtausfall, Nichtausfall vorhersagen: 573.426
- Tatsächlicher Nicht-Standard, Standard vorhersagen: 0
Wenn Sie D = 0,99 einstellen:
- Tatsächlicher Standard, Nicht-Standard vorhersagen: 41.932
- Tatsächlicher Standard, Standard vorhersagen: 0
- Tatsächlicher Nichtausfall, Nichtausfall vorhersagen: 573.426
- Tatsächlicher Nicht-Standard, Standard vorhersagen: 0
Der letzte Fall ist das, was Sie in Ihren Modellergebnissen sehen. In diesem Fall betone ich den Schwellenwert D für einen Klassifikator. Eine einfache Änderung von D kann bestimmte Eigenschaften Ihrer Prognose verbessern. Es ist zu beachten, dass in allen drei Fällen die vorhergesagte PD gleich blieb, nur der Schwellenwert D hat sich geändert.
Es ist natürlich auch möglich, dass Ihre Logit-Regression selbst beschissen ist. In diesem Fall haben Sie also mindestens zwei Variablen: die Protokollspezifikation und den Schwellenwert. Beides wirkt sich auf Ihre Prognoseleistung aus.