Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

3
Linearität von PCA
PCA wird jedoch als lineares Verfahren angesehen: PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), Dabei ist . Dies bedeutet, dass die von den PCAs auf den Datenmatrizen erhaltenen Eigenvektoren sich nicht zu den von der PCA auf der Summe der Datenmatrizen erhaltenen Eigenvektoren summieren . Aber ist die Definition einer linearen Funktion :X i X …
35 pca  linear 

2
Gradientenverstärkung für lineare Regression - warum funktioniert das nicht?
Beim Erlernen von Gradient Boosting sind mir keine Einschränkungen in Bezug auf die Eigenschaften eines "schwachen Klassifikators" bekannt, mit dem die Methode ein Modell erstellt und zusammensetzt. Ich konnte mir jedoch keine Anwendung eines GB vorstellen, bei der lineare Regression verwendet wird, und tatsächlich funktioniert dies nicht, wenn ich einige …

3
Wie wähle ich eine Clustering-Methode aus? Wie validiere ich eine Cluster-Lösung (um die Wahl der Methode zu rechtfertigen)?
Eines der größten Probleme bei der Clusteranalyse ist, dass wir möglicherweise unterschiedliche Schlussfolgerungen ziehen müssen, wenn wir auf unterschiedlichen verwendeten Clustering-Methoden (einschließlich unterschiedlicher Verknüpfungsmethoden bei hierarchischem Clustering) basieren. Ich möchte Ihre Meinung dazu wissen - welche Methode Sie wählen, und wie. Man könnte sagen "Die beste Methode zum Clustering ist …

5
Denken Sie wie ein Bayesianer, überprüfen Sie wie ein Frequentist: Was bedeutet das?
Ich schaue mir einige Vorlesungsfolien zu einem datenwissenschaftlichen Kurs an, die hier zu finden sind: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Ich kann das Video für diesen Vortrag leider nicht sehen und an einer Stelle auf der Folie hat der Vortragende den folgenden Text: Einige Grundprinzipien Denken Sie wie ein Bayesianer, überprüfen Sie wie ein …



4
Wie verhindert LSTM das Problem des Fluchtgradienten?
LSTM wurde speziell erfunden, um das Problem des verschwindenden Gradienten zu vermeiden. Dies soll mit dem Constant Error Carousel (CEC) geschehen, das in der folgenden Abbildung (von Greff et al. ) Der Schleife um die Zelle entspricht . (Quelle: deeplearning4j.org ) Und ich verstehe, dass dieser Teil als eine Art …


6
Sind alle Simulationsmethoden eine Form von Monte Carlo?
Gibt es eine Simulationsmethode, die nicht Monte Carlo ist? Bei allen Simulationsmethoden werden Zufallszahlen in die Funktion eingesetzt, um einen Wertebereich für die Funktion zu finden. Sind also alle Simulationsmethoden im Wesentlichen Monte-Carlo-Methoden?

4
Wie kann eine Verteilung einen unendlichen Mittelwert und eine unendliche Varianz haben?
Es wäre wünschenswert, wenn die folgenden Beispiele gegeben werden könnten: Eine Verteilung mit unendlichem Mittelwert und unendlicher Varianz. Eine Verteilung mit unendlicher mittlerer und endlicher Varianz. Eine Verteilung mit endlichem Mittelwert und unendlicher Varianz. Eine Verteilung mit endlichem Mittelwert und endlicher Varianz. Es kommt von mir, dass ich diese ungewohnten …

3
PCA und der Zug / Test Split
Ich habe einen Datensatz, für den ich mehrere Sätze von binären Bezeichnungen habe. Für jeden Etikettensatz trainiere ich einen Klassifikator und bewerte ihn durch Kreuzvalidierung. Ich möchte die Dimensionalität mithilfe der Hauptkomponentenanalyse (PCA) reduzieren. Meine Frage ist: Ist es möglich, die PCA einmal für den gesamten Datensatz durchzuführen und dann …

2
Was ist die angepasste R-Quadrat-Formel in lm in R und wie ist sie zu interpretieren?
Was ist die genaue Formel, die in R lm() für das angepasste R-Quadrat verwendet wird? Wie kann ich das interpretieren? Angepasste R-Quadrat-Formeln Es scheinen verschiedene Formeln zur Berechnung des bereinigten R-Quadrats zu existieren. Wherry-Formel: 1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} McNemars Formel:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} Gottes Formel:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} Steins Formel:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) Lehrbuchbeschreibungen Laut Field's Lehrbuch, Discovering Statistics Using R (2012, …

1
Quantile Regression: Welche Standardfehler?
Die summary.rqFunktion aus der Quantreg-Vignette bietet eine Vielzahl von Auswahlmöglichkeiten für Standardfehlerschätzungen von Quantilregressionskoeffizienten . In welchen speziellen Szenarien wird jedes dieser Szenarien optimal / wünschenswert? "rank", das Konfidenzintervalle für die geschätzten Parameter erzeugt, indem ein Rangtest wie in Koenker (1994) beschrieben invertiert wird. Die Standardoption setzt voraus, dass die …



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.