Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

3
Feature-Normalisierung vor oder innerhalb der Modellvalidierung durchführen?
Eine gängige Vorgehensweise beim maschinellen Lernen ist die Merkmalsnormalisierung oder Datenstandardisierung der Prädiktorvariablen. Das ist es, die Daten zu zentrieren, wobei der Mittelwert abgezogen wird, und die Division durch die Varianz (oder auch die Standardabweichung) zu normalisieren. Aus Gründen der Selbstbeherrschung und meines Verständnisses tun wir dies, um zwei Hauptziele …

4
Cumming (2008) behauptet, dass die Verteilung der in Replikationen erhaltenen p-Werte nur vom ursprünglichen p-Wert abhängt. Wie kann es wahr sein?
Ich habe Geoff Cummings Artikel Replication and Intervalsppppppp p p von 2008 gelesen : Werte sagen die Zukunft nur vage voraus, aber Konfidenzintervalle sind viel besser [~ 200 Zitate in Google Scholar] - und sind durch eine der zentralen Behauptungen verwirrt. Dies ist einer in der Reihe von Artikeln, in …





2
Herleitung der Lasso-Lösung in geschlossener Form
Für das Lasso-Problem so dass . Ich sehe oft das Ergebnis der schwachen Schwelle \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} |) - \ gamma) ^ + für den orthonormalen X- Fall. …
52 lasso 

2
Welche Beziehung besteht zwischen einem Chi-Quadrat-Test und einem Test mit gleichen Anteilen?
Angenommen, ich habe drei Populationen mit vier sich gegenseitig ausschließenden Merkmalen. Ich nehme Zufallsstichproben aus jeder Population und erstelle eine Kreuztabelle oder Häufigkeitstabelle für die von mir gemessenen Merkmale. Habe ich recht, wenn ich sage: Wenn ich testen möchte, ob eine Beziehung zwischen den Populationen und den Merkmalen besteht (z. …

8
Excel als Statistik-Workbench
Es scheint, dass viele Leute (einschließlich mir) gerne explorative Datenanalysen in Excel durchführen. Einige Einschränkungen, wie z. B. die Anzahl der Zeilen, die in einer Tabelle zulässig sind, sind problematisch, machen es jedoch in den meisten Fällen nicht unmöglich, Excel zum Herumspielen von Daten zu verwenden. Ein Artikel von McCullough …

10
Clustering mit einer Distanzmatrix
Ich habe eine (symmetrische) Matrix M, die den Abstand zwischen jedem Knotenpaar darstellt. Zum Beispiel, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 …
52 clustering 

14
Was ist die überraschendste Charakterisierung der Gaußschen (Normal-) Verteilung?
Eine standardisierte Gaußsche Verteilung auf kann durch explizite Angabe der Dichte definiert werden: 1RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} oder seine charakteristische Funktion. Wie in dieser Frage erwähnt, ist es auch die einzige Verteilung, für die der Stichprobenmittelwert und die Varianz unabhängig sind. Welche andere überraschende alternative Charakterisierung von Gaußschen Maßen kennen Sie? Ich …

2
Wie kann ein künstliches neuronales Netzwerk ANN für unbeaufsichtigtes Clustering verwendet werden?
Ich verstehe, wie artificial neural network (ANN)man mit Backpropogation überwacht trainieren kann, um die Anpassung zu verbessern, indem man den Fehler in den Vorhersagen verringert. Ich habe gehört, dass ein ANN für unbeaufsichtigtes Lernen verwendet werden kann, aber wie kann dies ohne irgendeine Kostenfunktion durchgeführt werden, um die Optimierungsstufen zu …




Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.