Statistiken und Big Data

8

Zielfunktion, Kostenfunktion, Verlustfunktion: Sind sie dasselbe?

Beim maschinellen Lernen wird über Zielfunktion, Kostenfunktion und Verlustfunktion gesprochen. Sind sie nur verschiedene Namen der gleichen Sache? Wann benutzt man sie? Was sind die Unterschiede, wenn sie sich nicht immer auf dasselbe beziehen?

80 machine-learning terminology artificial-intelligence

8

Berechnung der optimalen Anzahl von Behältern in einem Histogramm

Ich bin daran interessiert, eine möglichst optimale Methode zu finden, um zu bestimmen, wie viele Fächer ich in einem Histogramm verwenden soll. Meine Daten sollten höchstens 30 bis 350 Objekte umfassen. Insbesondere versuche ich, Schwellenwerte (wie Otsus Methode) anzuwenden, von denen "gute" Objekte, von denen ich weniger haben sollte und …

80 rule-of-thumb histogram

7

Das Warum-Buch von Judea Pearl: Warum schlägt er Statistiken?

Ich lese The Book of Why von Judea Pearl und es geht mir unter die Haut 1 . Insbesondere scheint es mir, dass er die "klassische" Statistik bedingungslos kritisiert, indem er argumentiert, dass die Statistik niemals in der Lage ist, Kausalzusammenhänge zu untersuchen, dass sie niemals an Kausalzusammenhängen interessiert ist …

79 causality

9

Wahrscheinlichkeit eines einzelnen zukünftigen Ereignisses im wirklichen Leben: Was bedeutet es, wenn sie sagen, dass "Hillary eine 75% ige Gewinnchance hat"?

Da es sich bei der Wahl um eine einmalige Veranstaltung handelt, kann dieses Experiment nicht wiederholt werden. Was genau bedeutet die Aussage "Hillary hat eine 75% ige Gewinnchance" technisch? Ich suche eine statistisch korrekte Definition, keine intuitive oder konzeptionelle. Ich bin ein Amateur-Statistik-Fan, der versucht, auf diese Frage zu antworten, …

79 probability prediction politics

2

KL Divergenz zwischen zwei univariaten Gaußschen

Ich muss die KL-Divergenz zwischen zwei Gaußschen bestimmen. Ich vergleiche meine Ergebnisse mit diesen , aber ich kann ihr Ergebnis nicht reproduzieren. Mein Ergebnis ist offensichtlich falsch, weil die KL für KL nicht 0 ist (p, p). Ich frage mich, wo ich einen Fehler mache und ob jemand ihn erkennen …

79 normal-distribution kullback-leibler

5

Was ist der Unterschied zwischen off-policy und on-policy Lernen?

Die Website für künstliche Intelligenz definiert das Lernen außerhalb der Politik und innerhalb der Politik wie folgt: "Ein außervertraglicher Lernender lernt den Wert der optimalen Richtlinie unabhängig von den Aktionen des Agenten. Q-Learning ist ein außervertraglicher Lernender. Ein außervertraglicher Lernender lernt den Wert der Richtlinie, die vom Agenten ausgeführt wird, …

79 machine-learning reinforcement-learning artificial-intelligence

6

Wie können Sie feststellen, ob die Daten so „geclustert“ sind, dass Clustering-Algorithmen aussagekräftige Ergebnisse liefern?

Woher wissen Sie, ob Ihre (hochdimensionalen) Daten genügend Clustering aufweisen, sodass Ergebnisse von kmeans oder anderen Clustering-Algorithmen tatsächlich von Bedeutung sind? Wie stark sollte die Varianz innerhalb eines Clusters reduziert werden, damit die tatsächlichen Cluster-Ergebnisse aussagekräftig (und nicht unecht) sind? Sollte Clustering sichtbar sein, wenn eine dimensionsreduzierte Form der Daten …

78 clustering k-means

21

Kostenlose Ressourcen zum Lernen von R

Ich bin daran interessiert, R günstig zu lernen . Was ist die beste kostenlose Ressource / Buch / Tutorial zum Lernen von R?

78 r references

5

So berechnen Sie die Fläche unter der Kurve (AUC) oder die c-Statistik von Hand

Ich bin daran interessiert, die Fläche unter der Kurve (AUC) oder die c-Statistik von Hand für ein binäres logistisches Regressionsmodell zu berechnen. Zum Beispiel habe ich im Validierungsdatensatz den wahren Wert für die abhängige Variable, Aufbewahrung (1 = beibehalten; 0 = nicht beibehalten), sowie einen vorhergesagten Aufbewahrungsstatus für jede Beobachtung, …

78 regression logistic classification roc auc

7

Was ist der Vorteil, wenn eine kontinuierliche Prädiktorvariable aufgelöst wird?

Ich frage mich, welchen Wert es hat, eine kontinuierliche Prädiktorvariable zu nehmen und sie zu zerlegen (z. B. in Quintile), bevor sie in einem Modell verwendet wird. Es scheint mir, dass wir durch Binning der Variablen Informationen verlieren. Ist dies nur so, dass wir nichtlineare Effekte modellieren können? Wenn wir …

78 regression modeling continuous-data binning regression-strategies

6

Clustering auf der Ausgabe von t-SNE

Ich habe eine Anwendung, in der es nützlich wäre, ein verrauschtes Dataset zu gruppieren, bevor Sie nach Untergruppeneffekten in den Clustern suchen. Ich habe mir zuerst PCA angeschaut, aber es werden ca. 30 Komponenten benötigt, um 90% der Variabilität zu erreichen. Wenn Sie also auf nur ein paar PCs gruppieren, …

78 clustering interpretation k-means tsne

1

Korrelation zwischen einer nominalen (IV) und einer kontinuierlichen (DV) Variablen

Ich habe eine nominelle Variable (verschiedene Gesprächsthemen, codiert als topic0 = 0 usw.) und eine Reihe von Skalenvariablen (DV), wie z. B. die Dauer eines Gesprächs. Wie kann ich Korrelationen zwischen Nominal- und Skalenvariablen ableiten?

77 correlation continuous-data categorical-data

3

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Wie kann eine hübsche grafische Darstellung der Ergebnisse der k-means Clusteranalyse erstellt werden?

Ich benutze R, um K-bedeutet Clustering zu machen. Ich verwende 14 Variablen, um K-means auszuführen Was ist ein hübscher Weg, um die Ergebnisse von K-means zu zeichnen? Gibt es bereits Implementierungen? Erschweren 14 Variablen das Zeichnen der Ergebnisse? Ich habe etwas namens GGcluster gefunden, das cool aussieht, sich aber noch …

77 data-visualization classification k-means unsupervised-learning

3

Wann ist R im Quadrat negativ?

Ich verstehe, dass nicht negativ sein kann, da es das Quadrat von R ist. Ich habe jedoch in SPSS eine einfache lineare Regression mit einer einzelnen unabhängigen Variablen und einer abhängigen Variablen durchgeführt. Meine SPSS-Ausgabe gibt mir einen negativen Wert für . Wenn ich dies von Hand aus R berechnen …

77 regression spss r-squared