Was ist die schwache Seite von Entscheidungsbäumen?

34

Entscheidungsbäume scheinen eine sehr verständliche Methode des maschinellen Lernens zu sein. Einmal erstellt, kann es leicht von einem Menschen inspiziert werden, was bei einigen Anwendungen von großem Vorteil ist.

Was sind die praktischen Schwächen von Entscheidungsbäumen?

machine-learning nonparametric cart

— Łukasz Lew
quelle

37

Hier sind ein paar, die mir einfallen:

Sie können sehr empfindlich auf kleine Störungen in den Daten reagieren: Eine geringfügige Änderung kann zu einem drastisch anderen Baum führen.
Sie können leicht überanstrengen. Dies kann durch Überprüfungsmethoden und Bereinigen negiert werden, dies ist jedoch ein grauer Bereich.
Sie können Probleme mit der Vorhersage außerhalb der Stichprobe haben (dies hängt damit zusammen, dass sie nicht glatt sind).

Einige davon hängen mit dem Problem der Multikollinearität zusammen : Wenn zwei Variablen dasselbe erklären, wählt ein Entscheidungsbaum gierig die beste aus, während viele andere Methoden beide verwenden. Ensemble-Methoden wie zufällige Gesamtstrukturen können dies bis zu einem gewissen Grad negieren, aber Sie verlieren die Verständlichkeit.

Das größte Problem ist jedoch, zumindest aus meiner Sicht, das Fehlen eines prinzipiellen probabilistischen Rahmens. Viele andere Methoden haben Konfidenzintervalle, posteriore Verteilungen usw., die uns eine Vorstellung davon geben, wie gut ein Modell ist. Ein Entscheidungsbaum ist letztendlich eine Ad - hoc - Heuristik, die immer noch sehr nützlich sein kann (sie eignen sich hervorragend zum Auffinden von Fehlerquellen in der Datenverarbeitung), aber es besteht die Gefahr, dass Benutzer die Ausgabe als "das" richtige Modell behandeln (von mir) Erfahrung, das passiert viel im Marketing).

— Simon Byrne
quelle

2

Aus ML-Sicht können Bäume auf die gleiche Weise wie andere Klassifikatoren (z. B. CV) getestet werden. Trotzdem zeigt es eher, dass es zu starker Überanpassung gekommen ist ;-) Auch RF entgeht der Multikollinearität nicht, weil es ein Ensemble ist, sondern weil seine Bäume suboptimal sind.

2

Ein probabilistisches Framework für Entscheidungsbäume finden Sie in DTREE (url: datamining.monash.edu.au/software/dtree/index.shtml ), das auf der Veröffentlichung "Wallace CS & Patrick JD," Coding Decision Trees ", Machine Learning basiert 11 (1993), S. 7-22.

— Emakalic

2

Ist es auch nicht möglich, CI (für die Vorhersagen) mithilfe von Bootstrapping abzurufen?

— Tal Galili

@ Simon Byrne, ich habe eine Frage zu Ihrem Kommentar "Das größte Problem ist jedoch, zumindest aus meiner Sicht, das Fehlen eines prinzipiellen probabilistischen Rahmens". Verzeihen Sie meine Unwissenheit, aber können Sie mich bitte auf einige praktische prinzipielle probabilistische Rahmenbedingungen hinweisen (insbesondere im Zusammenhang mit der Klassifizierung). Diese Einschränkung der Entscheidungsbäume interessiert mich sehr.

— Amelio Vazquez-Reina

2

@AmV, ein Beispiel wäre die logistische Regression: Wir können die Tatsache nutzen, dass jede Beobachtung aus einem Binomial stammt, um Konfidenz- / glaubwürdige Intervalle zu erhalten und die Annahmen des Modells zu überprüfen.

— Simon Byrne

23

Ein Nachteil ist, dass angenommen wird, dass alle Begriffe interagieren. Das heißt, Sie können nicht zwei erklärende Variablen haben, die sich unabhängig voneinander verhalten. Jede Variable im Baum ist gezwungen, mit jeder Variablen weiter oben im Baum zu interagieren. Dies ist äußerst ineffizient, wenn es Variablen gibt, die keine oder nur schwache Wechselwirkungen aufweisen.

— Rob Hyndman
quelle

Ich frage mich, ob dies eine praktische Einschränkung ist - für eine Variable, die die Klassifizierung nur schwach beeinflusst, ist meine Intuition, dass Tree diese Variable wahrscheinlich nicht aufteilt (dh es wird kein Knoten sein), was wiederum bedeutet Es ist unsichtbar, was die Klassifizierung des Entscheidungsbaums angeht.

— Doug

Ich spreche von schwachen Wechselwirkungen, nicht von schwachen Auswirkungen auf die Klassifizierung. Eine Interaktion ist eine Beziehung zwischen zwei der Prädiktorvariablen.

— Rob Hyndman

2

Dies mag ineffizient sein, aber die Baumstruktur kann damit umgehen.

Deshalb sagte ich eher ineffizient als voreingenommen oder falsch. Wenn Sie eine Menge Daten haben, spielt es keine Rolle. Wenn Sie einen Baum jedoch an einige hundert Beobachtungen anpassen, können die angenommenen Wechselwirkungen die Vorhersagegenauigkeit erheblich verringern.

— Rob Hyndman

2

Zustimmen; Ich wollte es nur hervorheben. Trotzdem denke ich, dass die Verringerung der Vorhersagegenauigkeit durch angemessenes Training behoben werden kann. in der phylogenetik wird das ähnliche problem (gierigkeit) durch monte-carlo-scannen des möglichen baumraums auf höchstwahrscheinlichkeit reduziert - ich weiß nicht, ob es einen ähnlichen ansatz in der stats gibt, wahrscheinlich hat sich niemand mit diesem problem befasst Umfang.

12

Meine Antwort richtet sich an CART (die C 4.5 / C 5-Implementierungen), obwohl ich glaube, dass sie nicht darauf beschränkt sind. Ich vermute, das ist es, was das OP im Sinn hat - es ist normalerweise das, was jemand meint, wenn er "Entscheidungsbaum" sagt.

Einschränkungen von Entscheidungsbäumen :

Schlechte Leistung

Mit "Leistung" meine ich nicht Auflösung, sondern Ausführungsgeschwindigkeit . Der Grund dafür ist, dass Sie den Baum jedes Mal neu zeichnen müssen, wenn Sie Ihr WARENKORB - Modell aktualisieren möchten - Daten, die von einem bereits trainierten Baum klassifiziert wurden und die Sie dann zum Baum hinzufügen möchten (dh als Trainingsdatenpunkt) erfordert, dass Sie von Übertrainingsinstanzen ausgehen, die nicht inkrementell hinzugefügt werden können, wie dies bei den meisten anderen überwachten Lernalgorithmen der Fall ist. Dies lässt sich am besten damit erklären, dass Decision Trees nicht im Online-Modus, sondern nur im Batch-Modus trainiert werden können. Natürlich werden Sie diese Einschränkung nicht bemerken, wenn Sie Ihren Klassifikator nicht aktualisieren, aber dann würde ich erwarten, dass Sie einen Rückgang der Auflösung sehen.

Dies ist von Bedeutung, da beispielsweise bei mehrschichtigen Perzeptronen nach dem Training die Klassifizierung der Daten beginnen kann. Diese Daten können auch verwendet werden, um den bereits trainierten Klassifikator zu optimieren. Bei Decision Trees müssen Sie jedoch den gesamten Datensatz (die im Training verwendeten Originaldaten sowie alle neuen Instanzen) neu trainieren.

Schlechte Auflösung von Daten mit komplexen Beziehungen zwischen den Variablen

Entscheidungsbäume klassifizieren durch schrittweise Bewertung eines Datenpunkts unbekannter Klasse, wobei jeweils ein Knoten am Wurzelknoten beginnt und mit einem Endknoten endet. Und an jedem Knoten sind nur zwei Möglichkeiten möglich (links-rechts), daher gibt es einige variable Beziehungen, die Decision Trees einfach nicht lernen können.

Praktisch auf die Klassifizierung beschränkt

Entscheidungsbäume funktionieren am besten, wenn sie trainiert sind, einen Datenpunkt einer Klasse zuzuweisen - vorzugsweise einer von nur wenigen möglichen Klassen. Ich glaube nicht, dass ich jemals einen Erfolg bei der Verwendung eines Entscheidungsbaums im Regressionsmodus hatte (dh kontinuierliche Ausgabe wie Preis oder erwartete Einnahmen auf Lebenszeit). Dies ist keine formale oder inhärente Einschränkung, sondern eine praktische. In den meisten Fällen werden Entscheidungsbäume zur Vorhersage von Faktoren oder diskreten Ergebnissen verwendet.

Schlechte Auflösung bei kontinuierlichen Erwartungsvariablen

Grundsätzlich ist es auch hier in Ordnung, unabhängige Variablen wie "Download-Zeit" oder "Anzahl der Tage seit dem letzten Online-Kauf" zu verwenden. Ändern Sie einfach Ihr Aufteilungskriterium in "Varianz" (normalerweise "Informationsentropie" oder "Gini-Verunreinigung" für diskrete Variablen) Erfahrung Entscheidungsbäume funktionieren in diesen Fällen selten gut. Ausnahmen sind Fälle wie das "Studentenalter", das kontinuierlich aussieht, aber in der Praxis ist der Wertebereich relativ klein (insbesondere, wenn sie als ganze Zahlen angegeben werden).

— doug
quelle

1

+1 für den guten Call auf den Performance-Winkel, der normalerweise nicht genug Spiel bekommt. Ich habe festgestellt, dass bei Decision Trees auf mehreren Softwareplattformen, die für große Datasets (z. B. SQL Server) entwickelt wurden, Leistungsprobleme auftreten, zumindest im Vergleich zu anderen Data Mining-Methoden. Dies gilt nicht nur für die gesamte Umschulung, die Sie angesprochen haben. Es scheint sich in Fällen zu verschlimmern, in denen eine Überanpassung auftritt (obwohl dies von vielen anderen Mining-Algorithmen gesagt werden kann).

— SQLServerSteve

10

Hier gibt es gute Antworten, aber ich bin überrascht, dass eine Sache nicht betont wurde. CART macht keine verteilenden Annahmen über die Daten, insbesondere die Antwortvariable. Im Gegensatz dazu OLS Regression (für die kontinuierlichen Reaktionsvariablen) und logistische Regression (für bestimmte kategorische Variablen), zum Beispiel, sie machen starke Annahmen; Insbesondere geht die OLS-Regression davon aus, dass die Antwort bedingt normal verteilt ist, und die Logistik geht davon aus, dass die Antwort binomial oder multinomial ist.

Das Fehlen solcher Annahmen bei CART ist ein zweischneidiges Schwert. Wenn diese Annahmen nicht gerechtfertigt sind, bietet dies dem Ansatz einen relativen Vorteil. Wenn andererseits diese Annahmen zutreffen, können mehr Informationen aus den Daten extrahiert werden, indem diese Tatsachen berücksichtigt werden. Das heißt, Standard-Regressionsmethoden können informativer sein als CART, wenn die Annahmen zutreffen.

— gung - Wiedereinsetzung von Monica
quelle