Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

6
Statistische Klassifizierung von Texten
Ich bin ein Programmierer ohne statistischen Hintergrund und suche derzeit nach verschiedenen Klassifizierungsmethoden für eine große Anzahl verschiedener Dokumente, die ich in vordefinierte Kategorien einteilen möchte. Ich habe über kNN, SVM und NN gelesen. Ich habe jedoch einige Probleme beim Einstieg. Welche Ressourcen empfehlen Sie? Ich kenne Einzelvariablen- und Mehrfachvariablen-Kalkül …


1
Wie würde PCA bei einer k-means Clustering-Analyse helfen?
Hintergrund : Ich möchte die Wohngebiete einer Stadt anhand ihrer sozioökonomischen Merkmale in Gruppen einteilen, z. B. Dichte der Wohneinheiten, Bevölkerungsdichte, Grünfläche, Wohnungspreis, Anzahl der Schulen / Gesundheitszentren / Kindertagesstätten usw. Ich möchte verstehen, in wie viele verschiedene Gruppen die Wohngebiete unterteilt werden können und was ihre einzigartigen Merkmale sind. …


3
PCA zur Korrelation oder Kovarianz: Ist eine PCA zur Korrelation jemals sinnvoll? [geschlossen]
Bei der Hauptkomponentenanalyse (PCA) kann man entweder die Kovarianzmatrix oder die Korrelationsmatrix wählen, um die Komponenten (aus ihren jeweiligen Eigenvektoren) zu finden. Diese liefern unterschiedliche Ergebnisse (PC-Ladungen und Scores), da die Eigenvektoren zwischen beiden Matrizen nicht gleich sind. Meines Wissens liegt dies daran, dass ein Rohdatenvektor und seine Standardisierung nicht …

4
Wie berechne ich den relativen Fehler, wenn der wahre Wert Null ist?
Wie berechne ich den relativen Fehler, wenn der wahre Wert Null ist? Angenommen, ich habe xtrue=0xtrue=0x_{true} = 0 und . Wenn ich relativen Fehler definiere als:xtestxtestx_{test} relative error=xtrue−xtestxtruerelative error=xtrue−xtestxtrue\text{relative error} = \frac{x_{true}-x_{test}}{x_{true}} Dann ist der relative Fehler immer undefiniert. Wenn ich stattdessen die Definition verwende: relative error=xtrue−xtestxtestrelative error=xtrue−xtestxtest\text{relative error} = …


3
Gibt es ein Projekt wie Euler für maschinelles Lernen?
Ich fand Project Euler http://projecteuler.net/ unglaublich nützlich beim Erlernen von Programmiersprachen. Gibt es eine ähnliche Site für maschinelles Lernen? Ich habe http://www.kaggle.com/ gesehen , aber es ist für Anfänger bei weitem nicht so zugänglich wie Project Euler.
32 teaching 

3
Wie geht R mit fehlenden Werten in lm um?
Ich möchte einen Vektor B für jede der Spalten in einer Matrix A regressieren. Dies ist trivial, wenn keine Daten fehlen. Wenn die Matrix A jedoch fehlende Werte enthält, darf meine Regression für A nur Zeilen enthalten, in denen alle enthalten sind Werte sind vorhanden (das Standardverhalten von na.omit ). …

4
Wie passe ich ein Mehrebenenmodell für übermäßig verteilte Poisson-Ergebnisse an?
Ich möchte ein mehrstufiges GLMM mit einer Poisson-Verteilung (mit Überdispersion) unter Verwendung von R ausrüsten. Im Moment verwende ich lme4, aber mir ist aufgefallen, dass die quasipoissonFamilie kürzlich entfernt wurde. Ich habe an anderer Stelle gesehen, dass Sie additive Überdispersion für Binomialverteilungen modellieren können, indem Sie einen zufälligen Achsenabschnitt mit …


6
Warum wird die Entropie maximiert, wenn die Wahrscheinlichkeitsverteilung gleichmäßig ist?
Ich weiß, dass Entropie das Maß für die Zufälligkeit eines Prozesses / einer Variablen ist und wie folgt definiert werden kann. für eine Zufallsvariable Menge : - . In dem Buch über Entropie und Informationstheorie von MacKay gibt er diese Aussage in Kapitel 2 wiederX∈X∈X \inAAAH(X)=∑xi∈A−p(xi)log(p(xi))H(X)=∑xi∈A−p(xi)log⁡(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) …




Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.