Warum weist ein Entscheidungsbaum eine geringe Verzerrung und eine hohe Varianz auf?


15

Fragen

  1. Kommt es darauf an, ob der Baum flach oder tief ist? Oder können wir das unabhängig von der Tiefe / Höhe des Baumes sagen?
  2. Warum ist die Vorspannung niedrig und die Varianz hoch? Erklären Sie dies bitte intuitiv und mathematisch

Antworten:


4

Ein bisschen zu spät zur Party, aber ich glaube, dass diese Frage eine Antwort mit konkreten Beispielen gebrauchen könnte.

Ich werde eine Zusammenfassung dieses hervorragenden Artikels schreiben : Bias-Varianz-Kompromiss , der mir geholfen hat, das Thema zu verstehen.

Der Vorhersagefehler für jeden Algorithmus für maschinelles Lernen kann in drei Teile unterteilt werden:

  • Vorspannungsfehler
  • Abweichungsfehler
  • Irreduzibler Fehler

Irreduzibler Fehler

Wie der Name schon sagt, handelt es sich um eine Fehlerkomponente, die wir unabhängig vom Algorithmus und der Parameterauswahl nicht korrigieren können. Irreduzierbarer Fehler ist auf Komplexitäten zurückzuführen, die im Trainingssatz einfach nicht erfasst werden. Dies können Attribute sein, die wir nicht in einem Lernsatz haben, die sich jedoch auf das Ergebnis der Zuordnung auswirken.

Vorspannungsfehler

Der Vorspannungsfehler beruht auf unseren Annahmen über die Zielfunktion. Je mehr Annahmen (Einschränkungen) wir über Zielfunktionen treffen, desto mehr Verzerrungen führen wir ein. Modelle mit hoher Verzerrung sind weniger flexibel, weil wir den Zielfunktionen mehr Regeln auferlegt haben.

Abweichungsfehler

Varianzfehler ist die Variabilität der Form einer Zielfunktion in Bezug auf verschiedene Trainingssätze. Modelle mit kleinen Varianzfehlern ändern sich kaum, wenn Sie einige Proben im Trainingssatz ersetzen. Modelle mit hoher Varianz können bereits bei kleinen Änderungen des Trainingssatzes betroffen sein.

Betrachten Sie die einfache lineare Regression:

Y=b0+b1x

Dies ist offensichtlich eine ziemlich restriktive Definition einer Zielfunktion, und daher weist dieses Modell eine hohe Verzerrung auf.

Auf der anderen Seite ist es aufgrund der geringen Varianz, wenn Sie einige Datenstichproben ändern, unwahrscheinlich, dass dies zu größeren Änderungen in der Gesamtzuordnung führt, die die Zielfunktion ausführt. Andererseits haben Algorithmen wie k-Nearest-Neighbours eine hohe Varianz und eine niedrige Vorspannung. Es ist leicht vorstellbar, wie sich unterschiedliche Proben auf die KNN-Entscheidungsoberfläche auswirken könnten.

Im Allgemeinen weisen parametrische Algorithmen einen hohen Bias und eine niedrige Varianz auf und umgekehrt.

Eine der Herausforderungen des maschinellen Lernens besteht darin, das richtige Gleichgewicht zwischen Bias- und Varianzfehlern zu finden.

Entscheidungsbaum

Nachdem wir diese Definitionen eingeführt haben, ist es auch einfach zu erkennen, dass Entscheidungsbäume ein Beispiel für ein Modell mit geringer Verzerrung und hoher Varianz sind. Der Baum macht fast keine Annahmen über die Zielfunktion, ist jedoch sehr anfällig für Datenabweichungen.

Es gibt Ensemble-Algorithmen wie Bootstrapping-Aggregation und Random Forest, die darauf abzielen, die Varianz bei geringen Verzerrungskosten im Entscheidungsbaum zu verringern.


2

Wenn die Anzahl der Ebenen zu hoch ist, dh ein komplizierter Entscheidungsbaum, neigt das Modell zur Überanpassung.

Intuitiv kann es auf diese Weise verstanden werden. Wenn vor Erreichen des Ergebnisses zu viele Entscheidungsknoten durchlaufen werden müssen, dh die Anzahl der Knoten, die vor Erreichen der Blattknoten durchlaufen werden müssen, ist hoch, und die Bedingungen, gegen die Sie prüfen, werden multiplikativ. Das heißt, die Berechnung wird (Bedingung 1) && (Bedingung 2) && (Bedingung 3) && (Bedingung 4) && (Bedingung 5) .

Nur wenn alle Bedingungen erfüllt sind, wird eine Entscheidung getroffen. Wie Sie sehen, funktioniert dies für den Trainingssatz sehr gut, da Sie die Daten kontinuierlich eingrenzen. Der Baum wird stark an die im Trainingssatz vorhandenen Daten angepasst.

Wenn jedoch ein neuer Datenpunkt eingespeist wird, wird die Bedingung nicht erfüllt und es wird die falsche Verzweigung verwendet, auch wenn einer der Parameter geringfügig abweicht.


1
  1. Ein komplizierter Entscheidungsbaum (z. B. tief) weist eine geringe Verzerrung und eine hohe Varianz auf. Der Kompromiss zwischen Bias und Varianz hängt von der Tiefe des Baums ab.

  2. Der Entscheidungsbaum ist abhängig davon, wo und wie er sich aufteilt. Daher können selbst kleine Änderungen der Eingabevariablenwerte zu einer sehr unterschiedlichen Baumstruktur führen.


4
Ich erinnere mich nicht an einen einzelnen gewöhnlichen Baumalgorithmus, der von der Skalierung betroffen ist. Sie sehen nicht die Variablenwerte, sondern nur die Ränge.
Firebug
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.