Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren



10
Was ist der Unterschied zwischen "Wahrscheinlichkeit" und "Wahrscheinlichkeit"?
Die Wikipedia-Seite behauptet, dass Wahrscheinlichkeit und Wahrscheinlichkeit unterschiedliche Konzepte sind. Im nichttechnischen Sprachgebrauch ist "Wahrscheinlichkeit" normalerweise ein Synonym für "Wahrscheinlichkeit", im statistischen Sprachgebrauch gibt es jedoch eine klare Unterscheidung in Bezug auf die Perspektive: Die Zahl, die die Wahrscheinlichkeit einiger beobachteter Ergebnisse bei einer Reihe von Parameterwerten ist, wird als …

11
Was ist die Intuition hinter der Betaverteilung?
Haftungsausschluss: Ich bin kein Statistiker, sondern ein Software-Ingenieur. Der größte Teil meiner statistischen Kenntnisse stammt aus der Selbsterziehung, daher habe ich immer noch viele Lücken im Verständnis von Konzepten, die für andere hier trivial erscheinen könnten. Daher wäre ich sehr dankbar, wenn die Antworten weniger spezifische Begriffe und mehr Erklärungen …

11
Was ist der Unterschied zwischen Test- und Validierungssatz?
Ich fand das verwirrend, wenn ich die Toolbox für neuronale Netze in Matlab verwende. Der Rohdatensatz wurde in drei Teile geteilt: Trainingsset Validierungssatz Test-Set Ich stelle bei vielen Trainings- oder Lernalgorithmen fest, dass die Daten häufig in zwei Teile unterteilt sind, den Trainingssatz und den Testsatz. Meine Fragen sind: Was …

20
Die zwei Kulturen: Statistik vs. maschinelles Lernen?
Letztes Jahr las ich einen Blogbeitrag von Brendan O'Connor mit dem Titel "Statistik vs. Maschinelles Lernen, Kampf!" das besprach einige der Unterschiede zwischen den zwei Feldern. Andrew Gelman reagierte positiv darauf : Simon Blomberg: Aus dem Glückspaket von R: Um es provokativ auszudrücken: „Maschinelles Lernen ist Statistik minus Überprüfung von …


5
Wie man die Nachteile von K-means versteht
K-means ist eine weit verbreitete Methode in der Clusteranalyse. Nach meinem Verständnis erfordert diese Methode KEINE Annahmen, dh, Sie geben mir einen Datensatz und eine vorgegebene Anzahl von Clustern, k, und ich wende nur diesen Algorithmus an, der die Summe der Fehlerquadrate (SSE) im Quadrat des Clusters minimiert Error. K-means …

25
Python als Statistik-Workbench
Viele Leute verwenden ein Hauptwerkzeug wie Excel oder ein anderes Arbeitsblatt, SPSS, Stata oder R für ihre Statistikanforderungen. Sie können sich für ganz spezielle Anforderungen an ein bestimmtes Paket wenden, aber eine Menge Dinge können mit einer einfachen Tabelle oder einem allgemeinen Statistikpaket oder einer Statistikprogrammierumgebung erledigt werden. Ich mochte …
355 r  spss  stata  python 

3
Beziehung zwischen SVD und PCA. Wie verwende ich SVD, um PCA durchzuführen?
Die Hauptkomponentenanalyse (PCA) wird üblicherweise durch eine Eigenzerlegung der Kovarianzmatrix erklärt. Sie kann aber auch über die Singular Value Decomposition (SVD) der Datenmatrix . Wie funktioniert es? Welche Verbindung besteht zwischen diesen beiden Ansätzen? Wie ist die Beziehung zwischen SVD und PCA?XX\mathbf X Oder mit anderen Worten, wie kann die …

30
Was ist Ihr Lieblingszeichentrickfilm zur Datenanalyse?
Dies ist einer meiner Favoriten: Ein Eintrag pro Antwort. (Dies ist in Anlehnung an die Stapelüberlauf-Frage Was ist Ihr Lieblingszeichentrickfilm für Programmierer? ) PS: Verlinken Sie den Cartoon nicht ohne die Erlaubnis der Site.
343 humor 


11
Laien erklären, warum Bootstrapping funktioniert
Ich habe kürzlich Bootstrapping verwendet, um die Konfidenzintervalle für ein Projekt zu schätzen. Jemand, der nicht viel über Statistiken weiß, hat mich kürzlich gebeten zu erklären, warum das Bootstrapping funktioniert, dh warum es immer wieder zu guten Ergebnissen führt, wenn dieselbe Stichprobe erneut abgetastet wird. Mir wurde klar, dass ich, …



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.