Statistiken und Big Data

1

Wie erreicht ein einfaches logistisches Regressionsmodell eine Klassifizierungsgenauigkeit von 92% für MNIST?

Obwohl alle Bilder im MNIST-Datensatz in einem ähnlichen Maßstab zentriert und ohne Rotation sichtbar sind, weisen sie eine signifikante Variation der Handschrift auf, die mich verblüfft, wie ein lineares Modell eine so hohe Klassifizierungsgenauigkeit erzielt. Soweit ich in der Lage bin, angesichts der signifikanten Variation der Handschrift zu visualisieren, sollten …

64 logistic image-processing

3

Wann werden verallgemeinerte Schätzungsgleichungen im Vergleich zu Modellen mit gemischten Effekten verwendet?

Ich verwende seit einiger Zeit sehr gerne Mixed-Effects-Modelle mit Längsschnittdaten. Ich wünschte, ich könnte AR-Beziehungen in lmer einpassen (ich denke, ich habe Recht, dass ich das nicht kann?), Aber ich denke nicht, dass es verzweifelt wichtig ist, also mache ich mir keine allzu großen Sorgen. Ich bin gerade auf verallgemeinerte …

63 mixed-model gee

9

Liste der Situationen, in denen ein Bayes-Ansatz einfacher, praktischer oder praktischer ist

Innerhalb der Statistik gab es viele Debatten zwischen Bayesianern und Frequentisten. Im Allgemeinen finde ich diese eher abstoßend (obwohl ich denke, dass es abgeklungen ist). Auf der anderen Seite habe ich einige Leute getroffen, die das Problem völlig pragmatisch beurteilen, und gesagt haben, dass es manchmal bequemer ist, eine frequentistische …

63 bayesian frequentist

10

Taleb und der Schwarze Schwan

Talebs Buch "The Black Swan" war ein Bestseller der New York Times, als es vor einigen Jahren herauskam. Das Buch ist jetzt in der zweiten Auflage. Nach einem Treffen mit Statistikern auf einer JSM (einer jährlichen statistischen Konferenz) hat Taleb seine Kritik an der Statistik etwas abgeschwächt. Der Kern des …

63 extreme-value rare-events

3

Referenzen mit Argumenten gegen das Testen der Signifikanz von Nullhypothesen?

In den letzten Jahren habe ich eine Reihe von Artikeln gelesen, die sich gegen die Verwendung von Nullhypothesen-Signifikanztests in der Wissenschaft aussprachen, aber nicht daran gedacht, eine ständige Liste zu führen. Ein Kollege hat mich kürzlich nach einer solchen Liste gefragt, und ich dachte, ich würde alle hier bitten, bei …

63 hypothesis-testing statistical-significance references p-value

8

Befindet sich nach der PCA noch eine Rotation (z. B. Varimax)?

Ich habe versucht, einige Forschungen (mit PCA) von SPSS in R zu reproduzieren. Nach meiner Erfahrung war die principal() Funktion aus Paket psychdie einzige Funktion, die der Ausgabe entsprach (oder wenn mein Gedächtnis richtig funktioniert). Um die gleichen Ergebnisse wie in SPSS zu erzielen, musste ich parameter verwenden principal(..., rotate …

63 r spss pca factor-analysis factor-rotation

5

Erklären Sie den Unterschied zwischen multipler Regression und multivariater Regression bei minimaler Verwendung von Symbolen / Mathematik

Sind multiple und multivariate Regressionen wirklich unterschiedlich? Was ist überhaupt eine Variante?

63 regression multiple-regression terminology multivariate-regression

4

Softmax vs Sigmoid Funktion im Logistic Classifier?

Was entscheidet über die Wahl der Funktion (Softmax vs Sigmoid) in einem Logistic-Klassifikator? Angenommen, es gibt 4 Leistungsklassen. Jede der obigen Funktionen gibt die Wahrscheinlichkeiten jeder Klasse als die richtige Ausgabe an. Also welche für einen Klassifikator?

63 machine-learning logistic classification softmax

3

Was ist der Unterschied zwischen einem neuronalen Netzwerk und einem Deep-Believe-Netzwerk?

Ich habe den Eindruck, dass, wenn man sich auf ein "Deep Believe" -Netzwerk bezieht, dies im Grunde genommen ein neuronales Netzwerk ist, aber sehr groß. Ist das richtig oder impliziert ein tiefes Glaubensnetzwerk auch, dass der Algorithmus selbst anders ist (dh kein vorwärtskoppelndes neuronales Netz, aber vielleicht etwas mit Rückkopplungsschleifen)?

62 machine-learning neural-networks deep-learning deep-belief-networks

6

Warum verwendet der k-means Clustering-Algorithmus nur die euklidische Distanzmetrik?

Gibt es einen bestimmten Zweck in Bezug auf Effizienz oder Funktionalität, warum der k-means-Algorithmus zum Beispiel keine Cosinus- (Dis-) Ähnlichkeit als Distanzmetrik verwendet, sondern nur die euklidische Norm verwenden kann? Wird die K-means-Methode im Allgemeinen eingehalten und korrekt sein, wenn andere Abstände als Euklidisch berücksichtigt oder verwendet werden? [Ergänzung von …

62 clustering k-means distance-functions euclidean

3

Wie kann man einen Beispielbaum aus randomForest :: getTree () zeichnen? [geschlossen]

Jeder hat Bibliotheks- oder Codevorschläge, wie man tatsächlich ein paar Beispielbäume plottet : getTree(rfobj, k, labelVar=TRUE) (Ja, ich weiß, Sie sollten dies nicht operativ tun, RF ist eine Blackbox usw. usw. Ich möchte einen Baum visuell auf Fehler überprüfen, um festzustellen, ob sich Variablen nicht intuitiv verhalten Wie gut funktionieren …

62 r data-visualization random-forest cart

4

Annahmen bezüglich Bootstrap-Schätzungen der Unsicherheit

Ich schätze die Nützlichkeit des Bootstraps bei der Ermittlung von Unsicherheitsschätzungen, aber eine Sache, die mich immer gestört hat, ist, dass die Verteilung, die diesen Schätzungen entspricht, die von der Stichprobe definierte Verteilung ist. Im Allgemeinen scheint es eine schlechte Idee zu sein, zu glauben, dass unsere Stichprobenhäufigkeiten genau der …

62 bootstrap uncertainty

3

Was bedeuten die Residuen in einer logistischen Regression?

Bei der Beantwortung dieser Frage schlug John Christie vor, die Anpassung logistischer Regressionsmodelle durch Auswertung der Residuen zu bewerten. Ich kenne mich mit der Interpretation von Residuen in OLS aus. Sie sind im selben Maßstab wie die DV und sehr deutlich der Unterschied zwischen y und dem vom Modell vorhergesagten …

62 r logistic generalized-linear-model residuals aic

8

Bayesianer: Sklaven der Wahrscheinlichkeitsfunktion?

In seinem Buch "All of Statistics" präsentiert Prof. Larry Wasserman das folgende Beispiel (11.10, Seite 188). Angenommen, wir haben eine Dichte , so daß , wobei ein bekannter (nicht - negativ, integrierbare) -Funktion, und die Normierungskonstante ist unbekannt .ffff(x)=cg(x)f(x)=cg(x)f(x)=c\,g(x)c > 0gggc>0c>0c>0 Wir interessieren uns für die Fälle, in denen wir …

62 bayesian mathematical-statistics

8

Wenn A und B mit C korreliert sind, warum sind A und B nicht unbedingt korreliert?

Ich weiß empirisch, dass dies der Fall ist. Ich habe gerade Modelle entwickelt, die auf dieses Rätsel stoßen. Ich vermute auch, dass es nicht unbedingt eine Ja / Nein-Antwort ist. Ich meine damit, dass, wenn sowohl A als auch B mit C korreliert sind, dies eine gewisse Auswirkung auf die …

62 correlation cross-correlation