Statistiken und Big Data gini

2

Welche Beziehung besteht zwischen dem GINI-Score und dem Log-Likelihood-Verhältnis?

Ich studiere Klassifikations- und Regressionsbäume, und eine der Kennzahlen für den geteilten Standort ist der GINI-Score. Jetzt bin ich es gewohnt, den besten Split-Standort zu bestimmen, wenn das Protokoll des Wahrscheinlichkeitsverhältnisses der gleichen Daten zwischen zwei Verteilungen Null ist, was bedeutet, dass die Wahrscheinlichkeit einer Mitgliedschaft gleich wahrscheinlich ist. Meine …

21 cart likelihood-ratio information-theory kullback-leibler gini

1

Verwendet Breimans zufälliger Wald Informationsgewinn oder Gini-Index?

Ich würde gerne wissen, ob Breimans zufälliger Wald (zufälliger Wald in R randomForest-Paket) als Aufteilungskriterium (Kriterium für die Attributauswahl) Informationsgewinn oder Gini-Index verwendet. Ich habe versucht, es auf http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm und in der Dokumentation für das randomForest-Paket in R herauszufinden. Aber das einzige, was ich gefunden habe, ist, dass der Gini-Index …

15 r random-forest entropy gini

1

Warum sollte der normalisierte Gini-Score anstelle der AUC als Bewertung verwendet werden?

Kaggles Wettbewerb Die Safe Driver Prediction von Porto Seguro verwendet den normalisierten Gini-Score als Bewertungsmaßstab. Dies hat mich neugierig gemacht, welche Gründe für diese Entscheidung sprechen . Was sind die Vorteile der Verwendung eines normalisierten Gini-Scores anstelle der gebräuchlichsten Metriken wie AUC für die Auswertung?

14 classification auc model-evaluation gini

1

logloss vs gini / auc

Ich habe zwei Modelle trainiert (binäre Klassifikatoren mit h2o AutoML) und möchte eines zur Verwendung auswählen. Ich habe folgende Ergebnisse: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 Die Spalten aucund loglosssind die Kreuzvalidierungsmetriken (bei der Kreuzvalidierung …

14 model-selection validation auc gini log-loss

1

Was ist der Unterschied zwischen GINI- und AUC-Kurveninterpretation?

Wir haben die GINI-Kurve mit dem Lift erstellt, der mithilfe des Prozentsatzes von Gut und Schlecht für die Scorecard-Modellierung erstellt wurde. Was ich jedoch untersucht habe, ist, dass die ROC-Kurve unter Verwendung der Verwirrungsmatrix mit der Spezifität (1 - True Negative) als X-Achse und der Empfindlichkeit (True Positive) als Y-Achse …

12 roc gini

3

Der Unterschied besteht in der zusammenfassenden Statistik: Gini-Koeffizient und Standardabweichung

Es gibt mehrere zusammenfassende Statistiken. Wenn Sie die Streuung einer Verteilung beschreiben möchten, können Sie beispielsweise die Standardabweichung oder den Gini-Koeffizienten verwenden . Ich weiß, dass die Standardabweichung auf der zentralen Tendenz basiert, dh der Abweichung vom Mittelwert, und der Gini-Koeffizient eine allgemeine Messung der Dispersion. Ich weiß auch, dass …

12 standard-deviation descriptive-statistics gini

4

Versuchen Sie, den Gini-Index für die StackOverflow-Reputationsverteilung zu berechnen?

Ich versuche, den Gini-Index für die SO-Reputationsverteilung mit SO Data Explorer zu berechnen. Die Gleichung, die ich zu implementieren versuche, lautet: Wobei:n= Anzahl der Benutzer auf der Site; i= Benutzer-Seriennummer (1 - 1.225.000); yi= Ruf des Benutzersi.G(S)=1n−1(n+1−2(∑ni=1(n+1−i)yi∑ni=1yi))G(S)=1n−1(n+1−2(∑i=1n(n+1−i)yi∑i=1nyi)) G(S)=\frac{1}{n-1}\left(n+1-2\left(\frac{\sum^n_{i=1}(n+1-i)y_i}{\sum^n_{i=1}y_i}\right)\right) nnniiiyiyiy_iiii So habe ich es implementiert (von hier kopiert ): DECLARE @numUsers …

11 gini

1

Gini-Koeffizient und Fehlergrenzen

Ich habe zu jedem Zeitpunkt eine Zeitreihe von Daten mit N = 14 Zählungen und möchte den Gini-Koeffizienten und einen Standardfehler für diese Schätzung zu jedem Zeitpunkt berechnen. Da ich zu jedem Zeitpunkt nur N = 14 Zählungen habe, berechnete ich die Jackknife-Varianz, dh aus Gleichung 7 von Tomson Ogwang …

11 r variance econometrics resampling gini

5

Wie wird die Streuung in Worthäufigkeitsdaten gemessen?

Wie kann ich das Ausmaß der Streuung in einem Vektor von Wortzahlen quantifizieren? Ich suche nach einer Statistik, die für Dokument A hoch ist, weil sie viele verschiedene Wörter enthält, die selten vorkommen, und niedrig für Dokument B, weil sie ein Wort (oder einige Wörter) enthält, die häufig vorkommen. Wie …

10 variance natural-language gini dispersion bag-of-words

1

Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?

Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Eine einfache und klare Erklärung der Gini-Verunreinigung?

Im Zusammenhang mit der Aufteilung des Entscheidungsbaums ist nicht ersichtlich, warum die Gini-Verunreinigung vorliegt i ( t ) = 1 -∑j = 1kp2( j | t )i(t)=1−∑j=1kp2(j|t) i(t)=1-\sum\limits_{j=1}^k p^2(j|t) ist ein Maß für die Verunreinigung des Knotens t . Gibt es eine einfache Erklärung dafür?

9 cart intuition gini

Als «gini» getaggte Fragen