"Klassifikations- und Regressionsbäume". CART ist eine beliebte maschinelle Lerntechnik und bildet die Grundlage für Techniken wie zufällige Wälder und gängige Implementierungen von Maschinen zur Erhöhung des Gradienten.
Ist es üblich, an den Blättern eines Regressionsbaums eine andere Regressionstechnik zu verwenden (z. B. lineare Regression)? Ich habe in der letzten Stunde danach gesucht, aber alles, was ich finde, sind Implementierungen, die an den Blättern der Bäume einen konstanten Wert haben. Gibt es einen Grund, warum dies nicht üblich …
Es ist bekannt, dass wir beim Erstellen eines Entscheidungsbaums die Eingabevariable vollständig aufteilen und die 'beste' Aufteilung nach statistischem Testansatz oder Verunreinigungsfunktionsansatz finden. Meine Frage ist, wenn wir eine kontinuierliche Variable als Eingabevariable verwenden (nur wenige doppelte Werte), kann die Anzahl der möglichen Teilungen sehr groß sein, um die "beste" …
In Applied Predictive Modeling von Kuhn und Johnson schreiben die Autoren: Schließlich leiden diese Bäume unter Selektionsverzerrungen: Prädiktoren mit einer höheren Anzahl unterschiedlicher Werte werden gegenüber detaillierteren Prädiktoren bevorzugt (Loh und Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh und Shih (1997) bemerkten: „Die Gefahr besteht, wenn ein Datensatz …
Meine Frage befasst sich mit Klassifikationsbäumen . Betrachten Sie das folgende Beispiel aus dem Iris-Datensatz: Ich möchte den besten Prädiktor für die erste Aufteilung manuell auswählen. Nach dem CART-Algorithmus ist das beste Merkmal für eine Aufteilung dasjenige, das die Abnahme der Verunreinigung der Partition maximiert, auch Gini-Verstärkung genannt: G i …
Ich spiele also mit der Idee, einen Algorithmus zu schreiben, der einen Regressionsbaum aus den Daten vergrößert und abschneidet und dann in den Endknoten des Baums einen GLM anpasst. Ich habe versucht, mich über die Idee zu informieren, aber ich kann anscheinend keinen einheitlichen Namen für die Technik finden. Ich …
Ich kam durch mehrere Posts und Papiere, in denen behauptet wurde, dass das Beschneiden von Bäumen in einem "Absack" -Baumensemble nicht erforderlich ist (siehe 1 ). Ist es jedoch notwendigerweise (oder zumindest in einigen bekannten Fällen) schädlich, die einzelnen Bäume in einem Ensemble zu beschneiden (z. B. mit der OOB-Probe)? …
Gibt es eine Methode zum Erstellen von Entscheidungsbäumen, die strukturierte / hierarchische / mehrstufige Prädiktoren berücksichtigt, mit denen ich beispielsweise Domänenwissen oder Einschränkungen für Interaktionen festlegen kann?
In ESL , Abschnitt 9.7, gibt es einen Absatz, der besagt, dass die Berechnungszeit einer Aufteilung beim Wachstum eines Klassifizierungs- (oder Regressions-) Baums typischerweise wie skaliert, wobei die Anzahl der Prädiktoren und die Anzahl von ist Proben.p N.pNlogNpNlogNp N \log NpppNNN Ein naiver Ansatz führt zu einer Skalierung, und ich …
Ich weiß, dass die rpartFunktion von R die Daten behält, die für die Implementierung einer multivariaten Aufteilung erforderlich sind, aber ich weiß nicht, ob tatsächlich multivariate Aufteilungen durchgeführt werden. Ich habe versucht, es online zu recherchieren, indem ich mir die rpartDokumente angesehen habe, aber ich sehe keine Informationen darüber, dass …
Datengenauigkeiten: Zitat ist eine Dummy-Variable Minuten zählen alle Minuten innerhalb eines Tages Temperatur ist die Temperatur Hier ist mein Code: ctree <- ctree(quotation ~ minute + temp, data = visitquot) print(ctree) Fitted party: [1] root | [2] minute <= 600 | | [3] minute <= 227 | | | [4] …
Angenommen, Sie trainieren zwei verschiedene Gradient Boosting Classifier-Modelle für zwei verschiedene Datensätze. Sie verwenden eine einmalige Kreuzvalidierung und zeichnen die Histogramme der Vorhersagen auf, die die beiden Modelle ausgeben. Die Histogramme sehen folgendermaßen aus: und das: In einem Fall sind die Vorhersagen (für Sätze außerhalb der Stichprobe / Validierung) meist …
Ich habe 90% negative Beispiele und 10% positive Beispiele (13.000 Beobachtungen, 90 Variablen). Mein Modell zeigt mir, dass der Fehler bei der Fehlklassifizierung 0,1 beträgt, aber meine Verwirrungsmatrix zeigt mir, dass die Anzahl der TP sehr gering ist. Gibt es eine Möglichkeit, mein positives Beispiel zu übertasten oder meinen Datensatz …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.