Entscheidungsbaum oder logistische Regression?


14

Ich arbeite an einem Klassifizierungsproblem. Ich habe einen Datensatz, der die gleiche Anzahl von kategorialen Variablen und kontinuierlichen Variablen enthält. Woher weiß ich, welche Technik ich anwenden soll? zwischen einem Entscheidungsbaum und einer logistischen Regression?

Ist es richtig anzunehmen, dass die logistische Regression für kontinuierliche Variablen und der Entscheidungsbaum für kontinuierliche + kategoriale Variablen besser geeignet sind?


Können Sie weitere Details wie die Anzahl der Zeilen, die Anzahl der Spalten (auch die Anzahl der kategorialen / fortlaufenden) hinzufügen?
Nitesh

Hallo @Nitesh, ich habe 32 Eingangsvariablen + 1 Zielvariable. Die Aufzeichnungen für Trainingsdaten liegen nahe bei 2,5 lakh und sagen etwa 1 lakh Testdaten aus. Das Testen von Daten ist nicht mehr zeitgemäß.
Arun

Antworten:


22

Um es kurz zu machen : Machen Sie, was @untitledprogrammer gesagt hat, probieren Sie beide Modelle aus und überprüfen Sie sie gegenseitig, um eine auszuwählen.

Sowohl Entscheidungsbäume (abhängig von der Implementierung, z. B. C4.5) als auch logistische Regression sollten in der Lage sein, kontinuierliche und kategoriale Daten problemlos zu verarbeiten. Für eine logistische Regression sollten Sie Ihre kategorialen Variablen als Dummy-Code kennzeichnen .

Wie @untitledprogrammer erwähnt hat, ist es schwierig, a priori zu wissen, welche Technik einfach auf der Grundlage der von Ihnen verwendeten, kontinuierlichen oder sonstigen Merkmale besser geeignet ist. Es hängt wirklich von Ihrem spezifischen Problem und den Daten ab, die Sie haben. (Siehe No Free Lunch Theorem )

Beachten Sie jedoch, dass ein logistisches Regressionsmodell nach einer einzelnen linearen Entscheidungsgrenze in Ihrem Feature-Space sucht, während ein Entscheidungsbaum Ihren Feature-Space mithilfe von achsenausgerichteten linearen Entscheidungsgrenzen in halbe Räume unterteilt . Der Nettoeffekt ist, dass Sie eine nichtlineare Entscheidungsgrenze haben, möglicherweise mehr als eine.

Dies ist hilfreich, wenn Ihre Datenpunkte nicht einfach durch eine einzige Hyperebene getrennt werden können. Andererseits sind Entscheidungsbäume so flexibel, dass sie anfällig für Überanpassungen sind. Um dies zu bekämpfen, können Sie versuchen, zu beschneiden. Logistische Regressionen sind weniger anfällig (aber nicht immun!) Für Überanpassungen.

xyxy

Sie müssen sich also fragen:

  • Welche Art von Entscheidungsgrenze ist in Ihrem speziellen Problem sinnvoller?
  • Wie wollen Sie Voreingenommenheit und Varianz ausgleichen?
  • Gibt es Wechselwirkungen zwischen meinen Funktionen?

Natürlich ist es immer eine gute Idee, beide Modelle auszuprobieren und eine Kreuzvalidierung durchzuführen. Auf diese Weise können Sie herausfinden, bei welchem ​​die Wahrscheinlichkeit eines Verallgemeinerungsfehlers größer ist.


Genau @ Victor.
untitledprogrammer

@ Victor Vielen Dank für eine sehr ausführliche Erklärung.
Arun

6

Versuchen Sie, sowohl Regressions- als auch Entscheidungsbäume zu verwenden. Vergleichen Sie die Effizienz jeder Technik mithilfe einer 10-fachen Kreuzvalidierung. Halten Sie sich an die mit höherer Effizienz. Es ist schwierig zu beurteilen, welche Methode besser passt, wenn Sie nur wissen, dass Ihr Datensatz kontinuierlich und kategorisch ist.


1

Es hängt wirklich von der Struktur der zugrunde liegenden Verteilung Ihrer Daten ab. Wenn Sie Grund zu der Annahme haben, dass die Daten einer Bernoulli-Verteilung nahe kommen, wird die multinomiale logistische Regression eine gute Leistung erbringen und zu interpretierbaren Ergebnissen führen. Wenn die zugrunde liegende Verteilung jedoch nichtlineare Strukturen enthält, sollten Sie ernsthaft über eine nichtparametrische Methode nachdenken.

Während Sie einen Entscheidungsbaum als nichtparametrische Methode verwenden könnten, könnten Sie auch überlegen, eine zufällige Gesamtstruktur zu generieren - dies generiert im Wesentlichen eine große Anzahl einzelner Entscheidungsbäume aus Teilmengen der Daten, und die Endklassifizierung ist die aggregierte Abstimmung aller Bäume . Eine zufällige Gesamtstruktur gibt Ihnen einen Überblick über den Anteil, den jede Prädiktorvariable an der Antwort beteiligt.

Ein weiterer zu beachtender Faktor ist die Interpretierbarkeit. Wenn Sie nur versuchen, Daten zu klassifizieren, interessieren Sie sich wahrscheinlich nicht für die zugrunde liegenden Beziehungen zwischen Erklärungs- und Antwortvariablen. Wenn Sie jedoch überhaupt an Interpretierbarkeit interessiert sind, ist eine multinomiale logistische Regression viel einfacher zu interpretieren, da parametrische Methoden im Allgemeinen Annahmen über die zugrunde liegende Verteilung treffen und Ihnen intuitivere interpretierbare Beziehungen aufzeigen.


0

Um Decision Tree verwenden zu können, müssen Sie die kontinuierliche Variable in eine kategoriale Variable umwandeln.

Eine weitere Sache, die logistische Regression, wird normalerweise verwendet, um das Ergebnis anhand der Wahrscheinlichkeit vorherzusagen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.