Lassen Sie mich jede Ihrer Beobachtungen einzeln bewerten, damit klarer wird:
Die abhängige Variable dieses Entscheidungsbaums ist die Bonität, die zwei Klassen hat, schlecht oder gut. Die Wurzel dieses Baums enthält alle 2464 Beobachtungen in diesem Datensatz.
Wenn Good, Bad
es das ist, was Sie unter Bonität verstehen, dann Ja . Und Sie haben Recht mit der Schlussfolgerung, dass alle 2464 Beobachtungen in der Wurzel des Baumes enthalten sind.
Das einflussreichste Attribut zur Bestimmung der Klassifizierung einer guten oder schlechten Bonität ist das Attribut Einkommensstufe.
Debattierbar Hängt davon ab, wie Sie etwas als einflussreich betrachten . Einige argumentieren möglicherweise, dass die Anzahl der Karten am einflussreichsten ist, andere stimmen möglicherweise mit Ihrem Standpunkt überein. Sie haben hier also Recht und Unrecht.
Die Mehrheit der Personen (454 von 553) in unserer Stichprobe, die ein weniger als niedriges Einkommen hatten, hatte ebenfalls eine schlechte Bonität. Wenn ich eine Premium-Kreditkarte ohne Limit einführen möchte, sollte ich diese Personen ignorieren.
Ja , aber es wäre auch besser, wenn Sie die Wahrscheinlichkeit berücksichtigen, dass diese Personen einen schlechten Kredit erhalten. Aber selbst das würde sich für diese Klasse als NEIN herausstellen, was Ihre Beobachtung wieder korrekt macht.
Wenn ich diesen Entscheidungsbaum für Vorhersagen zur Klassifizierung neuer Beobachtungen verwenden würde, wird dann die größte Anzahl von Klassen in einem Blatt als Vorhersage verwendet? ZB hat Beobachtung x ein mittleres Einkommen, 7 Kreditkarten und ist 34 Jahre alt. Würde die vorhergesagte Klassifizierung für die Bonität = "Gut"
Kommt auf die Wahrscheinlichkeit an . So berechnen Sie die Wahrscheinlichkeit , aus den Blättern und dann eine Entscheidung treffen, dass abhängig. Oder viel einfacher: Verwenden Sie eine Bibliothek wie den Entscheidungsbaumklassifikator von Sklearn, um dies für Sie zu tun.
Eine weitere neue Beobachtung könnte Beobachtung Y sein, die weniger als ein geringes Einkommen hat, sodass ihre Bonität = "schlecht" ist.
Wieder wie in der obigen Erklärung.
Ist dies die richtige Art, einen Entscheidungsbaum zu interpretieren, oder habe ich das völlig falsch verstanden?
Ja , dies ist eine korrekte Art der Interpretation von Entscheidungsbäumen. Sie könnten versucht sein, bei der Auswahl einflussreicher Variablen zu schwanken, aber das hängt von vielen Faktoren ab, einschließlich der Problemstellung, der Konstruktion des Baums, dem Urteil des Analytikers usw.