Für was es wert ist:
beide rpart
und ctree
rekursiv univariate Aufteilungen der abhängigen Variablen basierend auf Werten auf einer Menge von Kovariaten durchführen. rpart
und verwandte Algorithmen verwenden gewöhnlich Informationsmaße (wie den Gini-Koeffizienten ) zum Auswählen der aktuellen Kovariate.
ctree
Laut den Autoren (siehe Kommentare von chl ) wird die folgende Abweichung bei der Variablenauswahl rpart
(und verwandten Methoden ) vermieden : Sie neigen dazu, Variablen mit vielen möglichen Teilungen oder vielen fehlenden Werten auszuwählen. ctree
Verwendet im Gegensatz zu den anderen ein Signifikanztestverfahren, um Variablen auszuwählen, anstatt die Variable auszuwählen, die ein Informationsmaß maximiert (z. B. Gini-Koeffizient).
Der Signifikanztest oder besser: Die bei jedem Start des Algorithmus berechneten multiplen Signifikanztests (Kovariate auswählen - Split auswählen - Rekursion) sind Permutationstests , dh die "Verteilung der Teststatistik unter der Nullhypothese wird durch Berechnung erhalten alle möglichen Werte der Teststatistik unter Umordnung der Etiketten auf die beobachteten Datenpunkte. " (aus dem Wikipedia-Artikel).
Nun zur Teststatistik: Sie wird aus Transformationen (einschließlich Identität, dh keiner Transformation) der abhängigen Variablen und der Kovariaten berechnet. Sie können für beide Variablen eine beliebige Anzahl von Transformationen auswählen. Für die DV (Dependent Variable) wird die Transformation die Einflussfunktion genannt, nach der Sie gefragt haben.
Beispiele (aus dem Papier entnommen ):
- Wenn sowohl DV als auch Kovariaten numerisch sind, können Sie Identitätstransformationen auswählen und Korrelationen zwischen der Kovariate und allen möglichen Permutationen der DV-Werte berechnen. Dann berechnen Sie den p- Wert aus diesem Permutationstest und vergleichen ihn mit p- Werten für andere Kovariaten.
- Wenn sowohl DV als auch die Kovariaten nominal sind (ungeordnet kategorial), wird die Teststatistik aus einer Kontingenztabelle berechnet.
- Sie können leicht andere Arten von Teststatistiken aus jeder Art von Transformation (einschließlich Identitäts-Transformation) aus diesem allgemeinen Schema erstellen.
kleines Beispiel für einen Permutationstest in R
:
require(gtools)
dv <- c(1,3,4,5,5); covariate <- c(2,2,5,4,5)
# all possible permutations of dv, length(120):
perms <- permutations(5,5,dv,set=FALSE)
# now calculate correlations for all perms with covariate:
cors <- apply(perms, 1, function(perms_row) cor(perms_row,covariate))
cors <- cors[order(cors)]
# now p-value: compare cor(dv,covariate) with the
# sorted vector of all permutation correlations
length(cors[cors>=cor(dv,covariate)])/length(cors)
# result: [1] 0.1, i.e. a p-value of .1
# note that this is a one-sided test
Angenommen, Sie haben eine Reihe von Kovariaten, nicht nur eine wie oben. Berechnen Sie dann die p- Werte für jede der Kovariaten wie im obigen Schema und wählen Sie den mit dem kleinsten p- Wert aus. Sie möchten p- Werte anstelle der Korrelationen direkt berechnen , da Sie Kovariaten unterschiedlicher Art (z. B. numerisch und kategorisch) haben können.
Nachdem Sie eine Kovariate ausgewählt haben, untersuchen Sie nun alle möglichen Teilungen (oder häufig eine irgendwie eingeschränkte Anzahl aller möglichen Teilungen, z. B. indem Sie vor der Teilung eine minimale Anzahl von DV-Elementen benötigen) erneut und bewerten Sie einen permutationsbasierten Test.
ctree
Transformations
Im party
Lieferumfang sind eine Reihe möglicher Transformationen für DV und Kovariaten enthalten (siehe Hilfe im Paket).
Der Hauptunterschied scheint im Allgemeinen darin zu liegen, dass ctree
ein kovariates Auswahlschema verwendet wird, das auf statistischer Theorie basiert (dh Auswahl durch permutationsbasierte Signifikanztests) und dadurch eine mögliche Verzerrung vermeidet rpart
, da sie ansonsten ähnlich erscheinen. Beispielsweise können bedingte Inferenzbäume als Basislerner für zufällige Wälder verwendet werden.
Das ist ungefähr so weit ich kommen kann. Für weitere Informationen müssen Sie unbedingt die Zeitungen lesen. Beachten Sie, dass ich Ihnen dringend empfehle, wirklich zu wissen, was Sie tun, wenn Sie statistische Analysen durchführen möchten.