Statistiken und Big Data importance

2

Messungen von unterschiedlicher Bedeutung in zufälligen Wäldern

Ich habe mit zufälligen Wäldern für die Regression herumgespielt und habe Schwierigkeiten, genau herauszufinden, was die beiden wichtigen Maße bedeuten und wie sie interpretiert werden sollten. Die importance()Funktion gibt für jede Variable zwei Werte an: %IncMSEund IncNodePurity. Gibt es einfache Interpretationen für diese 2 Werte? Ist dies IncNodePurityinsbesondere einfach der …

40 r machine-learning random-forest importance

4

Wofür sind Ranglisten mit variabler Wichtigkeit nützlich?

Ich bin ein bisschen ein Nihilist geworden, wenn es um Rangfolgen mit variabler Wichtigkeit geht (im Kontext von multivariaten Modellen aller Art). Oft werde ich im Verlauf meiner Arbeit gebeten, einem anderen Team zu helfen, ein Ranking mit variabler Wichtigkeit zu erstellen, oder ein Ranking mit variabler Wichtigkeit aus meiner …

25 multiple-regression multivariate-analysis importance

4

Maximale Anzahl unabhängiger Variablen, die in eine Mehrfachregressionsgleichung eingegeben werden können

Was ist die Grenze für die Anzahl unabhängiger Variablen, die in eine Mehrfachregressionsgleichung eingegeben werden können? Ich habe 10 Prädiktoren, die ich im Hinblick auf ihren relativen Beitrag zur Ergebnisvariablen untersuchen möchte. Sollte ich eine Bonferroni-Korrektur verwenden, um mehrere Analysen anzupassen?

19 regression predictor importance bonferroni

3

Schätzen der wichtigsten Features in einer k-means-Clusterpartition

Gibt es eine Möglichkeit zu bestimmen, welche Merkmale / Variablen des Datensatzes innerhalb einer k-means Cluster-Lösung am wichtigsten / dominantesten sind?

19 machine-learning clustering k-means importance

2

Variable Wichtigkeit von GLMNET

Ich möchte das Lasso als Methode zur Auswahl von Merkmalen und zur Anpassung eines Vorhersagemodells an ein binäres Ziel verwenden. Im Folgenden ist ein Code aufgeführt, mit dem ich die Methode mit regulierter logistischer Regression ausprobiert habe. Meine Frage ist, dass ich eine Gruppe von "signifikanten" Variablen erhalte, aber bin …

18 logistic importance glmnet

5

Verstehen, welche Funktionen für die logistische Regression am wichtigsten waren

Ich habe einen logistischen Regressionsklassifikator erstellt, der für meine Daten sehr genau ist. Jetzt möchte ich besser verstehen, warum es so gut funktioniert. Im Einzelnen möchte ich klassifizieren, welche Features den größten Beitrag leisten (welche Features am wichtigsten sind) und im Idealfall quantifizieren, wie viel jedes Feature zur Genauigkeit des …

17 machine-learning logistic feature-selection importance

2

Merkmalsbedeutung bei Dummy-Variablen

Ich versuche zu verstehen, wie ich die Feature-Wichtigkeit einer kategorialen Variablen ermitteln kann, die in Dummy-Variablen zerlegt wurde. Ich benutze scikit-learn, das kategoriale Variablen für Sie nicht so behandelt, wie es R oder H2O tun. Wenn ich eine kategoriale Variable in Dummy-Variablen zerlege, erhalte ich separate Feature-Wichtigkeiten pro Klasse in …

17 categorical-data random-forest interpretation importance

3

Wie kann man das r-Quadrat zwischen Prädiktorvariablen in multipler Regression aufteilen?

Ich habe gerade einen Artikel gelesen, in dem die Autoren eine multiple Regression mit zwei Prädiktoren durchgeführt haben. Der gesamte r-Quadrat-Wert betrug 0,65. Sie stellten eine Tabelle zur Verfügung, die das Quadrat zwischen den beiden Prädiktoren aufteilte. Die Tabelle sah so aus: rsquared beta df pvalue whole model 0.65 NA …

16 r multiple-regression r-squared importance variance-decomposition

4

Vergleich der Wichtigkeit verschiedener Sätze von Prädiktoren

Ich habe einen Forschungsstudenten mit einem bestimmten Problem beraten und wollte unbedingt die Meinung anderer auf dieser Website einholen. Kontext: Der Forscher hatte drei Arten von Prädiktorvariablen. Jeder Typ enthielt eine andere Anzahl von Prädiktorvariablen. Jeder Prädiktor war eine kontinuierliche Variable: Soziales: S1, S2, S3, S4 (dh vier Prädiktoren) Kognitiv: …

13 regression predictor importance

1

Warum wird in Random Forest eine zufällige Teilmenge von Features auf Knotenebene und nicht auf Baumebene ausgewählt?

Meine Frage: Warum werden in zufälligen Gesamtstrukturen zufällige Teilmengen von Features für die Aufteilung auf Knotenebene in jedem Baum berücksichtigt, anstatt auf Baumebene ? Hintergrund: Dies ist so etwas wie eine historische Frage. Tin Kam Ho veröffentlichte diesen Aufsatz über die Konstruktion von "Entscheidungswäldern", indem er 1998 zufällig eine Teilmenge …

12 machine-learning feature-selection random-forest importance history

2

Wie kann die relative Variablenbedeutung bei der logistischen Regression in Bezug auf p quantifiziert werden?

Angenommen, ein logistisches Regressionsmodell wird verwendet, um vorherzusagen, ob ein Online-Käufer ein Produkt kaufen wird (Ergebnis: Kauf), nachdem er auf eine Reihe von Online-Anzeigen geklickt hat (Prädiktoren: Ad1, Ad2 und Ad3). Das Ergebnis ist eine binäre Variable: 1 (gekauft) oder 0 (nicht gekauft). Die Prädiktoren sind auch binäre Variablen: 1 …

11 logistic importance

1

randomForest und variabler Wichtigkeitsfehler?

Ich verstehe den Unterschied zwischen rfobject$importanceund importance(rfobject)in der Spalte MeanDecreaseAccuracy nicht. Beispiel: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 …

10 r random-forest importance

2

RandomForest negative Werte mit variabler Wichtigkeit

Ich frage mich, ob es eine gute Idee ist, diese Variablen mit einem negativen Variablen-Wichtigkeitswert ("% IncMSE") in einem Regressionskontext zu entfernen. Und wenn es mir eine bessere Vorhersage gibt? Was denkst du?

10 machine-learning feature-selection random-forest importance

1

Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?

Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

Erklärungskraft einer Variablen

Ich habe ein einfaches lineares Regressionsmodell. Was ich berechnen möchte, ist, wie "wichtig" jede meiner Eingabevariablen ist, dh um eine Aussage wie diese zu machen: "60% der Vorhersagekraft in diesem Modell stammt von der Variablen var1, wobei var2 und var3 30% bzw. 10% haben." Was muss ich tun, um diese …

8 regression importance

Als «importance» getaggte Fragen