Als «cart» getaggte Fragen

"Klassifikations- und Regressionsbäume". CART ist eine beliebte maschinelle Lerntechnik und bildet die Grundlage für Techniken wie zufällige Wälder und gängige Implementierungen von Maschinen zur Erhöhung des Gradienten.

3
(Nicht-) lineare Regression am Blattentscheidungsbaum
Ist es üblich, an den Blättern eines Regressionsbaums eine andere Regressionstechnik zu verwenden (z. B. lineare Regression)? Ich habe in der letzten Stunde danach gesucht, aber alles, was ich finde, sind Implementierungen, die an den Blättern der Bäume einen konstanten Wert haben. Gibt es einen Grund, warum dies nicht üblich …

1
Entscheidungsbaum mit kontinuierlicher Eingabevariable
Es ist bekannt, dass wir beim Erstellen eines Entscheidungsbaums die Eingabevariable vollständig aufteilen und die 'beste' Aufteilung nach statistischem Testansatz oder Verunreinigungsfunktionsansatz finden. Meine Frage ist, wenn wir eine kontinuierliche Variable als Eingabevariable verwenden (nur wenige doppelte Werte), kann die Anzahl der möglichen Teilungen sehr groß sein, um die "beste" …
8 cart 

1
Selektionsbias bei Bäumen
In Applied Predictive Modeling von Kuhn und Johnson schreiben die Autoren: Schließlich leiden diese Bäume unter Selektionsverzerrungen: Prädiktoren mit einer höheren Anzahl unterschiedlicher Werte werden gegenüber detaillierteren Prädiktoren bevorzugt (Loh und Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh und Shih (1997) bemerkten: „Die Gefahr besteht, wenn ein Datensatz …
8 cart  bias 

1
WARENKORB: Auswahl des besten Prädiktors für die Aufteilung, wenn die Gewinne bei der Abnahme der Verunreinigungen gleich sind?
Meine Frage befasst sich mit Klassifikationsbäumen . Betrachten Sie das folgende Beispiel aus dem Iris-Datensatz: Ich möchte den besten Prädiktor für die erste Aufteilung manuell auswählen. Nach dem CART-Algorithmus ist das beste Merkmal für eine Aufteilung dasjenige, das die Abnahme der Verunreinigung der Partition maximiert, auch Gini-Verstärkung genannt: G i …





4
Verwendet rpart standardmäßig multivariate Splits?
Ich weiß, dass die rpartFunktion von R die Daten behält, die für die Implementierung einer multivariaten Aufteilung erforderlich sind, aber ich weiß nicht, ob tatsächlich multivariate Aufteilungen durchgeführt werden. Ich habe versucht, es online zu recherchieren, indem ich mir die rpartDokumente angesehen habe, aber ich sehe keine Informationen darüber, dass …

3
Interpretation der Ausgabe von ctree {partykit} in R.
Datengenauigkeiten: Zitat ist eine Dummy-Variable Minuten zählen alle Minuten innerhalb eines Tages Temperatur ist die Temperatur Hier ist mein Code: ctree <- ctree(quotation ~ minute + temp, data = visitquot) print(ctree) Fitted party: [1] root | [2] minute <= 600 | | [3] minute <= 227 | | | [4] …

4
Gradientenverstärkung - extreme Vorhersagen gegenüber Vorhersagen nahe 0,5
Angenommen, Sie trainieren zwei verschiedene Gradient Boosting Classifier-Modelle für zwei verschiedene Datensätze. Sie verwenden eine einmalige Kreuzvalidierung und zeichnen die Histogramme der Vorhersagen auf, die die beiden Modelle ausgeben. Die Histogramme sehen folgendermaßen aus: und das: In einem Fall sind die Vorhersagen (für Sätze außerhalb der Stichprobe / Validierung) meist …

2
Wie balanciere ich meinen Datensatz?
Ich habe 90% negative Beispiele und 10% positive Beispiele (13.000 Beobachtungen, 90 Variablen). Mein Modell zeigt mir, dass der Fehler bei der Fehlklassifizierung 0,1 beträgt, aber meine Verwirrungsmatrix zeigt mir, dass die Anzahl der TP sehr gering ist. Gibt es eine Möglichkeit, mein positives Beispiel zu übertasten oder meinen Datensatz …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.