Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

8
Was sind die Nachteile der Bayes'schen Analyse?
Was sind einige praktische Einwände gegen die Verwendung von Bayes'schen statistischen Methoden in irgendeinem Zusammenhang? Nein, ich meine nicht das übliche Karpfen über die Wahl des Prior. Ich freue mich, wenn dies nicht beantwortet wird.
44 bayesian 


4
Statistische Modelle Spickzettel
Ich habe mich gefragt, ob es ein statistisches Modell für "Spickzettel" gibt, das eine oder mehrere Informationen enthält: Wann ist das Modell anzuwenden? wenn Sie das Modell nicht benutzen Erforderliche und optionale Eingaben erwartete Ergebnisse Wurde das Modell in verschiedenen Bereichen (Politik, Bio, Technik, Fertigung usw.) getestet? Wird es in …

8
Rigorose Definition eines Ausreißers?
In der Statistik wird oft vom Umgang mit Ausreißern gesprochen. Was mich daran stört, ist, dass die Definition eines Ausreißers, soweit ich das beurteilen kann, völlig subjektiv ist. Wenn beispielsweise die tatsächliche Verteilung einer Zufallsvariablen sehr stark oder bimodal ist, werden durch eine Standardvisualisierung oder eine Zusammenfassungsstatistik zum Erkennen von …

5
Warum ist der Mehrfachvergleich ein Problem?
Ich finde es schwierig zu verstehen, worum es bei mehreren Vergleichen wirklich geht . Mit einer einfachen Analogie wird gesagt, dass eine Person, die viele Entscheidungen treffen wird, viele Fehler machen wird. Daher wird sehr konservative Vorsichtsmaßnahme angewendet, wie die Bonferroni-Korrektur, um die Wahrscheinlichkeit, dass diese Person einen Fehler macht, …

6
Warum wird Multikollinearität in der modernen Statistik / im maschinellen Lernen nicht geprüft?
In der traditionellen Statistik wird beim Erstellen eines Modells die Multikollinearität mithilfe von Methoden wie Schätzungen des Varianzinflationsfaktors (VIF) überprüft. Beim maschinellen Lernen wird jedoch stattdessen die Regularisierung für die Featureauswahl verwendet, und es scheint nicht zu prüfen, ob Features korreliert sind überhaupt. Warum machen wir das?




4
Welche Aktivierungsfunktion für die Ausgabeebene?
Während die Auswahl der Aktivierungsfunktionen für die verborgene Ebene ziemlich klar ist (meistens Sigmoid oder Tanh), frage ich mich, wie ich mich für die Aktivierungsfunktion für die Ausgabeebene entscheiden soll. Häufige Auswahlmöglichkeiten sind lineare Funktionen, Sigmoidfunktionen und Softmaxfunktionen. Wann sollte ich welche verwenden?


5
Ist es wichtig, Daten vor dem Clustering zu skalieren?
Ich habe dieses Tutorial gefunden , das vorschlägt, dass Sie die Skalierungsfunktion für Features vor dem Clustering ausführen sollten (ich glaube, dass sie Daten in Z-Scores konvertiert). Ich frage mich, ob das notwendig ist. Ich frage hauptsächlich, weil es einen schönen Ellbogenpunkt gibt, wenn ich die Daten nicht skaliere, aber …


7
Neuronale Netzreferenzen (Lehrbücher, Online-Kurse) für Anfänger
Ich möchte Neuronale Netze lernen. Ich bin ein Computerlinguist. Ich kenne statistische Methoden des maschinellen Lernens und kann in Python programmieren. Ich möchte mit seinen Konzepten beginnen und ein oder zwei populäre Modelle kennen, die aus Sicht der Computerlinguistik nützlich sein können. Ich habe im Internet nachgeschlagen und ein paar …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.