Statistiken und Big Data

28

Sinnvolles Verständnis von Hauptkomponentenanalyse, Eigenvektoren und Eigenwerten

In der heutigen Mustererkennungsklasse sprach mein Professor über PCA, Eigenvektoren und Eigenwerte. Ich habe die Mathematik verstanden. Wenn ich gebeten werde, Eigenwerte usw. zu finden, mache ich das wie eine Maschine richtig. Aber ich habe es nicht verstanden . Ich habe den Zweck nicht verstanden. Ich habe es nicht gespürt. …

976 pca intuition eigenvalues canonical-question

11

Wie wähle ich die Anzahl der verborgenen Schichten und Knoten in einem vorwärtsgerichteten neuronalen Netzwerk?

Gibt es eine Standard- und akzeptierte Methode zum Auswählen der Anzahl von Schichten und der Anzahl von Knoten in jeder Schicht in einem vorwärtsgerichteten neuronalen Netzwerk? Ich interessiere mich für automatisierte Wege zum Aufbau neuronaler Netze.

541 model-selection neural-networks

10

Was ist der Unterschied zwischen "Wahrscheinlichkeit" und "Wahrscheinlichkeit"?

Die Wikipedia-Seite behauptet, dass Wahrscheinlichkeit und Wahrscheinlichkeit unterschiedliche Konzepte sind. Im nichttechnischen Sprachgebrauch ist "Wahrscheinlichkeit" normalerweise ein Synonym für "Wahrscheinlichkeit", im statistischen Sprachgebrauch gibt es jedoch eine klare Unterscheidung in Bezug auf die Perspektive: Die Zahl, die die Wahrscheinlichkeit einiger beobachteter Ergebnisse bei einer Reihe von Parameterwerten ist, wird als …

474 probability likelihood

11

Was ist die Intuition hinter der Betaverteilung?

Haftungsausschluss: Ich bin kein Statistiker, sondern ein Software-Ingenieur. Der größte Teil meiner statistischen Kenntnisse stammt aus der Selbsterziehung, daher habe ich immer noch viele Lücken im Verständnis von Konzepten, die für andere hier trivial erscheinen könnten. Daher wäre ich sehr dankbar, wenn die Antworten weniger spezifische Begriffe und mehr Erklärungen …

438 distributions beta-distribution intuition beta-binomial

11

Was ist der Unterschied zwischen Test- und Validierungssatz?

Ich fand das verwirrend, wenn ich die Toolbox für neuronale Netze in Matlab verwende. Der Rohdatensatz wurde in drei Teile geteilt: Trainingsset Validierungssatz Test-Set Ich stelle bei vielen Trainings- oder Lernalgorithmen fest, dass die Daten häufig in zwei Teile unterteilt sind, den Trainingssatz und den Testsatz. Meine Fragen sind: Was …

431 machine-learning validation

20

Die zwei Kulturen: Statistik vs. maschinelles Lernen?

Letztes Jahr las ich einen Blogbeitrag von Brendan O'Connor mit dem Titel "Statistik vs. Maschinelles Lernen, Kampf!" das besprach einige der Unterschiede zwischen den zwei Feldern. Andrew Gelman reagierte positiv darauf : Simon Blomberg: Aus dem Glückspaket von R: Um es provokativ auszudrücken: „Maschinelles Lernen ist Statistik minus Überprüfung von …

420 machine-learning pac-learning

22

Warum die Differenz quadrieren, anstatt den absoluten Wert in Standardabweichung zu nehmen?

Bei der Definition der Standardabweichung, warum müssen wir Quadrat der Differenz aus dem Mittelwert der Mittelwert (E) und nehmen Sie die bekommen Quadratwurzel zurück am Ende? Können wir nicht stattdessen einfach den absoluten Wert der Differenz nehmen und den erwarteten Wert (Mittelwert) von diesen erhalten, und würde das nicht auch …

408 standard-deviation definition

5

Wie man die Nachteile von K-means versteht

K-means ist eine weit verbreitete Methode in der Clusteranalyse. Nach meinem Verständnis erfordert diese Methode KEINE Annahmen, dh, Sie geben mir einen Datensatz und eine vorgegebene Anzahl von Clustern, k, und ich wende nur diesen Algorithmus an, der die Summe der Fehlerquadrate (SSE) im Quadrat des Clusters minimiert Error. K-means …

365 machine-learning clustering data-mining k-means

25

Python als Statistik-Workbench

Viele Leute verwenden ein Hauptwerkzeug wie Excel oder ein anderes Arbeitsblatt, SPSS, Stata oder R für ihre Statistikanforderungen. Sie können sich für ganz spezielle Anforderungen an ein bestimmtes Paket wenden, aber eine Menge Dinge können mit einer einfachen Tabelle oder einem allgemeinen Statistikpaket oder einer Statistikprogrammierumgebung erledigt werden. Ich mochte …

355 r spss stata python

3

Beziehung zwischen SVD und PCA. Wie verwende ich SVD, um PCA durchzuführen?

Die Hauptkomponentenanalyse (PCA) wird üblicherweise durch eine Eigenzerlegung der Kovarianzmatrix erklärt. Sie kann aber auch über die Singular Value Decomposition (SVD) der Datenmatrix . Wie funktioniert es? Welche Verbindung besteht zwischen diesen beiden Ansätzen? Wie ist die Beziehung zwischen SVD und PCA?XX\mathbf X Oder mit anderen Worten, wie kann die …

352 pca dimensionality-reduction matrix svd

30

Was ist Ihr Lieblingszeichentrickfilm zur Datenanalyse?

Dies ist einer meiner Favoriten: Ein Eintrag pro Antwort. (Dies ist in Anlehnung an die Stapelüberlauf-Frage Was ist Ihr Lieblingszeichentrickfilm für Programmierer? ) PS: Verlinken Sie den Cartoon nicht ohne die Erlaubnis der Site.

343 humor

15

Bayesianisches und frequentistisches Denken im Klartext

Wie würden Sie im Klartext die Merkmale beschreiben, die das Bayes'sche vom frequentistischen Denken unterscheiden?

339 bayesian frequentist

11

Laien erklären, warum Bootstrapping funktioniert

Ich habe kürzlich Bootstrapping verwendet, um die Konfidenzintervalle für ein Projekt zu schätzen. Jemand, der nicht viel über Statistiken weiß, hat mich kürzlich gebeten zu erklären, warum das Bootstrapping funktioniert, dh warum es immer wieder zu guten Ergebnissen führt, wenn dieselbe Stichprobe erneut abgetastet wird. Mir wurde klar, dass ich, …

326 bootstrap communication

18

Was passiert, wenn die Erklärungs- und Antwortvariablen vor der Regression unabhängig voneinander sortiert werden?

Angenommen, wir haben einen Datensatz mit Punkten. Wir wollen eine lineare Regression durchführen, aber zuerst sortieren wir die Werte und die Werte unabhängig voneinander und bilden einen Datensatz . Gibt es eine sinnvolle Interpretation der Regression auf den neuen Datensatz? Hat das einen Namen?n X i Y i ( X …

302 regression correlation

10

Unterschied zwischen logit- und probit-Modellen

Was ist der Unterschied zwischen dem Logit- und dem Probit-Modell ? Ich bin hier mehr daran interessiert zu wissen, wann man logistische Regression und wann man Probit einsetzt. Wenn es Literatur gibt, die es mit R definiert , wäre das ebenfalls hilfreich.

299 r generalized-linear-model logistic probit link-function