Statistiken und Big Data

3

Feature-Normalisierung vor oder innerhalb der Modellvalidierung durchführen?

Eine gängige Vorgehensweise beim maschinellen Lernen ist die Merkmalsnormalisierung oder Datenstandardisierung der Prädiktorvariablen. Das ist es, die Daten zu zentrieren, wobei der Mittelwert abgezogen wird, und die Division durch die Varianz (oder auch die Standardabweichung) zu normalisieren. Aus Gründen der Selbstbeherrschung und meines Verständnisses tun wir dies, um zwei Hauptziele …

52 machine-learning normalization standardization multidimensional-scaling

4

Cumming (2008) behauptet, dass die Verteilung der in Replikationen erhaltenen p-Werte nur vom ursprünglichen p-Wert abhängt. Wie kann es wahr sein?

Ich habe Geoff Cummings Artikel Replication and Intervalsppppppp p p von 2008 gelesen : Werte sagen die Zukunft nur vage voraus, aber Konfidenzintervalle sind viel besser [~ 200 Zitate in Google Scholar] - und sind durch eine der zentralen Behauptungen verwirrt. Dies ist einer in der Reihe von Artikeln, in …

52 hypothesis-testing p-value power replicability

5

Neuronale Netze vs. Support Vector Machines: Sind die zweiten definitiv überlegen?

Viele Autoren von Artikeln, die ich gelesen habe, bejahen, dass SVMs eine überlegene Technik sind, um ihrem Regressions- / Klassifizierungsproblem zu begegnen. Oft besagt der Vergleich das SVMs anstelle von NNs Haben Sie eine starke Grundtheorie Erreichen Sie das globale Optimum durch quadratische Programmierung Haben Sie keine Probleme bei der …

52 machine-learning svm neural-networks

8

Moderner Nachfolger der exploratorischen Datenanalyse von Tukey?

Ich habe Tukeys Buch "Exploratory Data Analysis" gelesen. Das Buch wurde 1977 geschrieben und konzentriert sich auf Papier / Bleistift-Methoden. Gibt es einen "moderneren" Nachfolger, der berücksichtigt, dass wir jetzt große Datenmengen sofort zeichnen können?

52 data-visualization references descriptive-statistics eda

6

Haben die Vorhersagen eines Random Forest-Modells ein Vorhersageintervall?

Wenn ich ein randomForestModell ausführe , kann ich anhand des Modells Vorhersagen treffen. Gibt es eine Möglichkeit, ein Vorhersageintervall für jede der Vorhersagen zu erhalten, so dass ich weiß, wie "sicher" das Modell in seiner Antwort ist? Wenn dies möglich ist, basiert es einfach auf der Variabilität der abhängigen Variablen …

52 r confidence-interval random-forest

3

ANOVA-Annahme Normalität / Normalverteilung von Residuen

Die Wikipedia-Seite zu ANOVA enthält drei Annahmen : Unabhängigkeit von Fällen - Dies ist eine Annahme des Modells, die die statistische Analyse vereinfacht. Normalität - Die Verteilungen der Residuen sind normal. Gleichheit (oder "Homogenität") von Varianzen, Homoskedastizität genannt ... Interessant ist hier die zweite Annahme. Mehrere Quellen führen die Annahme …

52 anova residuals assumptions normality-assumption

2

Herleitung der Lasso-Lösung in geschlossener Form

Für das Lasso-Problem so dass . Ich sehe oft das Ergebnis der schwachen Schwelle \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} |) - \ gamma) ^ + für den orthonormalen X- Fall. …

52 lasso

2

Welche Beziehung besteht zwischen einem Chi-Quadrat-Test und einem Test mit gleichen Anteilen?

Angenommen, ich habe drei Populationen mit vier sich gegenseitig ausschließenden Merkmalen. Ich nehme Zufallsstichproben aus jeder Population und erstelle eine Kreuztabelle oder Häufigkeitstabelle für die von mir gemessenen Merkmale. Habe ich recht, wenn ich sage: Wenn ich testen möchte, ob eine Beziehung zwischen den Populationen und den Merkmalen besteht (z. …

52 chi-squared proportion contingency-tables z-test

8

Excel als Statistik-Workbench

Es scheint, dass viele Leute (einschließlich mir) gerne explorative Datenanalysen in Excel durchführen. Einige Einschränkungen, wie z. B. die Anzahl der Zeilen, die in einer Tabelle zulässig sind, sind problematisch, machen es jedoch in den meisten Fällen nicht unmöglich, Excel zum Herumspielen von Daten zu verwenden. Ein Artikel von McCullough …

52 software computational-statistics excel

10

Clustering mit einer Distanzmatrix

Ich habe eine (symmetrische) Matrix M, die den Abstand zwischen jedem Knotenpaar darstellt. Zum Beispiel, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 …

52 clustering

14

Was ist die überraschendste Charakterisierung der Gaußschen (Normal-) Verteilung?

Eine standardisierte Gaußsche Verteilung auf kann durch explizite Angabe der Dichte definiert werden: 1RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} oder seine charakteristische Funktion. Wie in dieser Frage erwähnt, ist es auch die einzige Verteilung, für die der Stichprobenmittelwert und die Varianz unabhängig sind. Welche andere überraschende alternative Charakterisierung von Gaußschen Maßen kennen Sie? Ich …

52 probability normal-distribution mathematical-statistics characteristic-function

2

Wie kann ein künstliches neuronales Netzwerk ANN für unbeaufsichtigtes Clustering verwendet werden?

Ich verstehe, wie artificial neural network (ANN)man mit Backpropogation überwacht trainieren kann, um die Anpassung zu verbessern, indem man den Fehler in den Vorhersagen verringert. Ich habe gehört, dass ein ANN für unbeaufsichtigtes Lernen verwendet werden kann, aber wie kann dies ohne irgendeine Kostenfunktion durchgeführt werden, um die Optimierungsstufen zu …

52 clustering neural-networks unsupervised-learning self-organizing-maps

6

Binäre Klassifikation mit stark unausgeglichenen Klassen

Ich habe einen Datensatz in Form von (Features, Binärausgang 0 oder 1), aber 1 kommt ziemlich selten vor. Wenn ich also immer 0 vorhersage, erhalte ich eine Genauigkeit zwischen 70% und 90% (abhängig von den jeweiligen Daten, die ich betrachte) ). Die ML-Methoden geben mir ungefähr die gleiche Genauigkeit, und …

52 machine-learning classification binary-data unbalanced-classes

5

Muss der Zielwert zusätzlich zu den Skalierungsfunktionen für die Regressionsanalyse skaliert werden?

Ich baue Regressionsmodelle. Als Vorverarbeitungsschritt skaliere ich meine Merkmalswerte auf Mittelwert 0 und Standardabweichung 1. Müssen die Zielwerte auch normalisiert werden?

52 regression machine-learning

4

Unter welchen Bedingungen sollten Likert-Skalen als Ordnungs- oder Intervalldaten verwendet werden?

Viele sozialwissenschaftliche Studien verwenden Likert-Skalen. Wann ist es angebracht, Likert-Daten als Ordnungszahl zu verwenden, und wann ist es angebracht, sie als Intervalldaten zu verwenden?

52 ordinal-data likert scales measurement