Um es kurz zu machen : Machen Sie, was @untitledprogrammer gesagt hat, probieren Sie beide Modelle aus und überprüfen Sie sie gegenseitig, um eine auszuwählen.
Sowohl Entscheidungsbäume (abhängig von der Implementierung, z. B. C4.5) als auch logistische Regression sollten in der Lage sein, kontinuierliche und kategoriale Daten problemlos zu verarbeiten. Für eine logistische Regression sollten Sie Ihre kategorialen Variablen als Dummy-Code kennzeichnen .
Wie @untitledprogrammer erwähnt hat, ist es schwierig, a priori zu wissen, welche Technik einfach auf der Grundlage der von Ihnen verwendeten, kontinuierlichen oder sonstigen Merkmale besser geeignet ist. Es hängt wirklich von Ihrem spezifischen Problem und den Daten ab, die Sie haben. (Siehe No Free Lunch Theorem )
Beachten Sie jedoch, dass ein logistisches Regressionsmodell nach einer einzelnen linearen Entscheidungsgrenze in Ihrem Feature-Space sucht, während ein Entscheidungsbaum Ihren Feature-Space mithilfe von achsenausgerichteten linearen Entscheidungsgrenzen in halbe Räume unterteilt . Der Nettoeffekt ist, dass Sie eine nichtlineare Entscheidungsgrenze haben, möglicherweise mehr als eine.
Dies ist hilfreich, wenn Ihre Datenpunkte nicht einfach durch eine einzige Hyperebene getrennt werden können. Andererseits sind Entscheidungsbäume so flexibel, dass sie anfällig für Überanpassungen sind. Um dies zu bekämpfen, können Sie versuchen, zu beschneiden. Logistische Regressionen sind weniger anfällig (aber nicht immun!) Für Überanpassungen.
x yxy
Sie müssen sich also fragen:
- Welche Art von Entscheidungsgrenze ist in Ihrem speziellen Problem sinnvoller?
- Wie wollen Sie Voreingenommenheit und Varianz ausgleichen?
- Gibt es Wechselwirkungen zwischen meinen Funktionen?
Natürlich ist es immer eine gute Idee, beide Modelle auszuprobieren und eine Kreuzvalidierung durchzuführen. Auf diese Weise können Sie herausfinden, bei welchem die Wahrscheinlichkeit eines Verallgemeinerungsfehlers größer ist.