Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

10
Gibt es eine * mathematische * Grundlage für die Debatte zwischen Bayesian und Frequentist?
Auf Wikipedia heißt es: Die Mathematik [der Wahrscheinlichkeit] ist weitgehend unabhängig von jeder Interpretation der Wahrscheinlichkeit. Frage: Sollten wir dann, wenn wir mathematisch korrekt sein wollen, keine Interpretation der Wahrscheinlichkeit zulassen ? Sind also sowohl Bayesian als auch Frequentismus mathematisch inkorrekt? Ich mag Philosophie nicht, aber ich mag Mathematik, und …

2
Welche Beziehung besteht zwischen der Analyse unabhängiger Komponenten und der Faktoranalyse?
Ich bin neu in der Independent Component Analysis (ICA) und verstehe die Methode nur ansatzweise. Es scheint mir, dass ICA der Faktoranalyse (FA) mit einer Ausnahme ähnlich ist: ICA geht davon aus, dass die beobachteten Zufallsvariablen eine lineare Kombination unabhängiger Komponenten / Faktoren sind, die nicht-gaußsch sind, während das klassische …

3
Richtige Methode zur Verwendung eines wiederkehrenden neuronalen Netzwerks für die Zeitreihenanalyse
Rekurrente neuronale Netze unterscheiden sich von "regulären" dadurch, dass sie eine "Gedächtnis" -Schicht haben. Aufgrund dieser Schicht sollten wiederkehrende NNs bei der Zeitreihenmodellierung nützlich sein. Ich bin mir jedoch nicht sicher, ob ich richtig verstehe, wie man sie benutzt. Angenommen, ich habe die folgenden Zeitreihen (von links nach rechts): [0, …

6
Wahrscheinlichkeitskonvergenz vs. fast sichere Konvergenz
Ich habe den Unterschied zwischen diesen beiden Konvergenzmaßen noch nie richtig herausgefunden. (Oder in der Tat eine der verschiedenen Arten der Konvergenz, aber ich erwähne diese beiden besonders wegen der schwachen und starken Gesetze für große Zahlen.) Klar, ich kann die Definition von jedem zitieren und ein Beispiel geben, wo …


5
Wie genau stimmten Statistiker darin überein, (n-1) als unverzerrten Schätzer für die Populationsvarianz ohne Simulation zu verwenden?
Die Formel zur Berechnung der Varianz hat im Nenner :(n−1)(n−1)(n-1) s2=∑Ni=1(xi−x¯)2n−1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} Ich habe mich immer gefragt, warum. Das Lesen und Anschauen einiger guter Videos über das "Warum" von scheint jedoch ein guter unverzerrter Schätzer der Populationsvarianz zu sein. Während die Populationsvarianz unterschätzt und überschätzt.n ( …


5
Belastungen gegen Eigenvektoren in PCA: Wann sollte der eine oder andere verwendet werden?
In der Hauptkomponentenanalyse (PCA) erhalten wir Eigenvektoren (Einheitsvektoren) und Eigenwerte. Definieren wir nun Ladungen als Belastungen = Eigenvektoren ⋅ Eigenwerte----------√.Ladungen=Eigenvektoren⋅Eigenwerte.\text{Loadings} = \text{Eigenvectors} \cdot \sqrt{\text{Eigenvalues}}. Ich weiß, dass Eigenvektoren nur Richtungen sind und Belastungen (wie oben definiert) auch eine Varianz entlang dieser Richtungen beinhalten. Aber zum besseren Verständnis möchte ich wissen, …
67 pca 


1
Welche Korrelation macht eine Matrix singulär und was sind Implikationen von Singularität oder Fast-Singularität?
Ich mache einige Berechnungen mit verschiedenen Matrizen (hauptsächlich in der logistischen Regression) und bekomme häufig den Fehler "Matrix ist singulär", wo ich zurückgehen und die korrelierten Variablen entfernen muss. Meine Frage hier ist, was würden Sie als "hoch" korrelierte Matrix betrachten? Gibt es einen Korrelationsschwellenwert, um dieses Wort darzustellen? Wie …


4
Schau und du wirst finden (eine Korrelation)
Ich habe mehrere hundert Messungen. Jetzt überlege ich mir, irgendeine Art von Software zu verwenden, um jede Maßnahme mit jeder Maßnahme in Beziehung zu setzen. Dies bedeutet, dass es Tausende von Korrelationen gibt. Darunter sollte (statistisch) eine hohe Korrelation bestehen, auch wenn die Daten vollständig zufällig sind (jede Messung hat …

7
Wie viel muss ich bezahlen? Ein praktisches Problem
Dies ist keine Hausaufgabenfrage, sondern ein echtes Problem, mit dem unser Unternehmen konfrontiert ist. Vor kurzem (vor 2 Tagen) haben wir bei einem Händler die Herstellung von 10000 Produktetiketten bestellt. Der Händler ist eine unabhängige Person. Er lässt die Etiketten von außen herstellen und bezahlt sie an den Händler. Jedes …

7
Warum die maximale Log-Wahrscheinlichkeit anstelle der Wahrscheinlichkeit optimieren?
In den meisten maschinellen Lernaufgaben, in denen Sie eine Wahrscheinlichkeit formulieren können, die maximiert werden sollte, würden wir tatsächlich die log-Wahrscheinlichkeit anstelle der Wahrscheinlichkeit für einige Parameter optimieren . ZB beim Maximum-Likelihood-Training ist es normalerweise die Log-Likelihood. Wenn Sie dies mit einer Gradientenmethode tun, beinhaltet dies einen Faktor:ppplogplog⁡p\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂log⁡p∂θ=1p⋅∂p∂θ …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.