Statistiken und Big Data

6

Ich bin ein Programmierer ohne statistischen Hintergrund und suche derzeit nach verschiedenen Klassifizierungsmethoden für eine große Anzahl verschiedener Dokumente, die ich in vordefinierte Kategorien einteilen möchte. Ich habe über kNN, SVM und NN gelesen. Ich habe jedoch einige Probleme beim Einstieg. Welche Ressourcen empfehlen Sie? Ich kenne Einzelvariablen- und Mehrfachvariablen-Kalkül …

32 classification information-retrieval text-mining

2

Warum gibt es für Schach, ähnlich wie AlphaGo, keine Deep-Enforcement-Lern-Engines?

Computer sind seit langem in der Lage, Schach mit einer "Brute-Force" -Technik zu spielen, bis zu einer bestimmten Tiefe zu suchen und dann die Position zu bewerten. Der AlphaGo-Computer verwendet jedoch nur eine ANN, um die Positionen auszuwerten (er führt meines Wissens keine Tiefensuche durch). Ist es möglich, eine Schachengine …

32 neural-networks deep-learning reinforcement-learning games

1

Wie würde PCA bei einer k-means Clustering-Analyse helfen?

Hintergrund : Ich möchte die Wohngebiete einer Stadt anhand ihrer sozioökonomischen Merkmale in Gruppen einteilen, z. B. Dichte der Wohneinheiten, Bevölkerungsdichte, Grünfläche, Wohnungspreis, Anzahl der Schulen / Gesundheitszentren / Kindertagesstätten usw. Ich möchte verstehen, in wie viele verschiedene Gruppen die Wohngebiete unterteilt werden können und was ihre einzigartigen Merkmale sind. …

32 clustering pca k-means dimensionality-reduction

2

Auswahl der richtigen Verknüpfungsmethode für hierarchisches Clustering

Ich führe ein hierarchisches Clustering für Daten durch, die ich aus dem reddit-Daten-Dump in Google BigQuery gesammelt und verarbeitet habe. Mein Prozess ist der folgende: Holen Sie sich die neuesten 1000 Beiträge in / r / politics Sammeln Sie alle Kommentare Verarbeiten Sie die Daten und berechnen Sie eine n …

32 clustering distance unsupervised-learning hierarchical-clustering

3

PCA zur Korrelation oder Kovarianz: Ist eine PCA zur Korrelation jemals sinnvoll? [geschlossen]

Bei der Hauptkomponentenanalyse (PCA) kann man entweder die Kovarianzmatrix oder die Korrelationsmatrix wählen, um die Komponenten (aus ihren jeweiligen Eigenvektoren) zu finden. Diese liefern unterschiedliche Ergebnisse (PC-Ladungen und Scores), da die Eigenvektoren zwischen beiden Matrizen nicht gleich sind. Meines Wissens liegt dies daran, dass ein Rohdatenvektor und seine Standardisierung nicht …

32 pca factor-analysis

4

Wie berechne ich den relativen Fehler, wenn der wahre Wert Null ist?

Wie berechne ich den relativen Fehler, wenn der wahre Wert Null ist? Angenommen, ich habe xtrue=0xtrue=0x_{true} = 0 und . Wenn ich relativen Fehler definiere als:xtestxtestx_{test} relative error=xtrue−xtestxtruerelative error=xtrue−xtestxtrue\text{relative error} = \frac{x_{true}-x_{test}}{x_{true}} Dann ist der relative Fehler immer undefiniert. Wenn ich stattdessen die Definition verwende: relative error=xtrue−xtestxtestrelative error=xtrue−xtestxtest\text{relative error} = …

32 error measurement-error

2

Welcher Suchbereich zur Bestimmung der SVM-optimalen C- und Gamma-Parameter?

Ich verwende SVM zur Klassifizierung und versuche, die optimalen Parameter für lineare und RBF-Kernel zu ermitteln. Für den linearen Kernel verwende ich eine kreuzvalidierte Parameterauswahl, um C zu bestimmen, und für den RBF-Kernel verwende ich eine Gittersuche, um C und Gamma zu bestimmen. Ich habe 20 (numerische) Funktionen und 70 …

32 classification svm kernel-trick

3

Gibt es ein Projekt wie Euler für maschinelles Lernen?

Ich fand Project Euler http://projecteuler.net/ unglaublich nützlich beim Erlernen von Programmiersprachen. Gibt es eine ähnliche Site für maschinelles Lernen? Ich habe http://www.kaggle.com/ gesehen , aber es ist für Anfänger bei weitem nicht so zugänglich wie Project Euler.

32 teaching

3

Wie geht R mit fehlenden Werten in lm um?

Ich möchte einen Vektor B für jede der Spalten in einer Matrix A regressieren. Dies ist trivial, wenn keine Daten fehlen. Wenn die Matrix A jedoch fehlende Werte enthält, darf meine Regression für A nur Zeilen enthalten, in denen alle enthalten sind Werte sind vorhanden (das Standardverhalten von na.omit ). …

32 r missing-data linear-model

4

Wie passe ich ein Mehrebenenmodell für übermäßig verteilte Poisson-Ergebnisse an?

Ich möchte ein mehrstufiges GLMM mit einer Poisson-Verteilung (mit Überdispersion) unter Verwendung von R ausrüsten. Im Moment verwende ich lme4, aber mir ist aufgefallen, dass die quasipoissonFamilie kürzlich entfernt wurde. Ich habe an anderer Stelle gesehen, dass Sie additive Überdispersion für Binomialverteilungen modellieren können, indem Sie einen zufälligen Achsenabschnitt mit …

32 r mixed-model poisson-distribution lme4-nlme overdispersion

3

Welche Stop-Kriterien für agglomeratives hierarchisches Clustering werden in der Praxis verwendet?

Ich habe umfangreiche Literatur gefunden, die alle möglichen Kriterien vorschlägt (z . B. Glenn et al. 1985 (pdf) und Jung et al. 2002 (pdf)). Die meisten davon sind jedoch nicht so einfach zu implementieren (zumindest aus meiner Sicht). Ich verwende scipy.cluster.hierarchy , um eine Clusterhierarchie zu erhalten, und ich versuche …

32 clustering

6

Warum wird die Entropie maximiert, wenn die Wahrscheinlichkeitsverteilung gleichmäßig ist?

Ich weiß, dass Entropie das Maß für die Zufälligkeit eines Prozesses / einer Variablen ist und wie folgt definiert werden kann. für eine Zufallsvariable Menge : - . In dem Buch über Entropie und Informationstheorie von MacKay gibt er diese Aussage in Kapitel 2 wiederX∈X∈X \inAAAH(X)=∑xi∈A−p(xi)log(p(xi))H(X)=∑xi∈A−p(xi)log⁡(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) …

32 uniform entropy maximum-entropy

4

Wie führe ich T-Tests mit zwei Stichproben in R durch, indem ich Stichprobenstatistiken anstelle der Rohdaten eingebe?

Nehmen wir an, wir haben die unten angegebenen Statistiken gender mean sd n f 1.666667 0.5773503 3 m 4.500000 0.5773503 4 Wie führt man einen T-Test mit zwei Stichproben durch (um festzustellen, ob bei einer Variablen ein signifikanter Unterschied zwischen Männern und Frauen besteht), wobei man Statistiken wie diese anstelle …

32 r t-test

4

Wie berechnet man ein Konfidenzniveau für eine Poisson-Verteilung?

Ich würde gerne wissen, wie sicher ich in meinem . Kennt jemand eine Möglichkeit, ein höheres und ein niedrigeres Vertrauensniveau für eine Poisson-Verteilung festzulegen?λλ\lambda Beobachtungen ( ) = 88nnn Probenmittelwert ( ) = 47,18182λλ\lambda Wie würde das 95% -Vertrauen dafür aussehen?

32 poisson-distribution confidence-interval

1

CNN-Architekturen für die Regression?

Ich habe an einem Regressionsproblem gearbeitet, bei dem die Eingabe ein Bild und die Bezeichnung ein kontinuierlicher Wert zwischen 80 und 350 ist. Bei den Bildern handelt es sich um einige Chemikalien, nachdem eine Reaktion stattgefunden hat. Die Farbe, die angezeigt wird, gibt die Konzentration einer anderen Chemikalie an, die …

32 regression machine-learning neural-networks conv-neural-network tensorflow