Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

3
Verschachtelte Kreuzvalidierung für die Modellauswahl
Wie kann man verschachtelte Kreuzvalidierung für die Modellauswahl verwenden ? Nach dem, was ich online gelesen habe, funktioniert der verschachtelte Lebenslauf wie folgt: Es gibt die innere CV-Schleife, in der wir eine Rastersuche durchführen können (z. B. Ausführen von K-Fold für jedes verfügbare Modell, z. B. Kombination von Hyperparametern / …


3
Ist es möglich, ein Paar von Gaußschen Zufallsvariablen zu haben, für die die gemeinsame Verteilung nicht Gaußsch ist?
Jemand hat mir diese Frage in einem Vorstellungsgespräch gestellt und ich habe geantwortet, dass ihre gemeinsame Verteilung immer Gaußsch ist. Ich dachte, dass ich immer einen bivariaten Gaußschen mit ihren Mitteln und Varianz und Kovarianzen schreiben kann. Ich frage mich, ob es einen Fall geben kann, bei dem die gemeinsame …


5
Warum wird ANOVA so gelehrt / angewendet, als ob es sich um eine andere Forschungsmethode als die lineare Regression handelt?
ANOVA entspricht einer linearen Regression unter Verwendung geeigneter Dummy-Variablen. Die Schlussfolgerungen bleiben gleich, unabhängig davon, ob Sie ANOVA oder lineare Regression verwenden. Gibt es im Lichte ihrer Äquivalenz einen Grund, warum ANOVA anstelle der linearen Regression verwendet wird? Hinweis: Ich bin besonders daran interessiert, technische Gründe für die Verwendung von …
91 regression  anova 

11
Wann sollte lineare Regression als „maschinelles Lernen“ bezeichnet werden?
In einem kürzlich abgehaltenen Kolloquium behauptete die Zusammenfassung des Redners, sie würden maschinelles Lernen anwenden. Während des Vortrags bestand das einzige, was mit maschinellem Lernen zu tun hatte, darin, dass sie eine lineare Regression ihrer Daten durchführen. Nach der Berechnung der Best-Fit-Koeffizienten im 5D-Parameterraum verglichen sie diese Koeffizienten in einem …


4
PCA und Varianzanteil erklärt
Was bedeutet im Allgemeinen, dass der Bruchteil der Varianz in einer Analyse wie PCA durch die erste Hauptkomponente erklärt wird? Kann jemand dies intuitiv erklären, aber auch eine genaue mathematische Definition dessen geben, was "erklärte Varianz" im Sinne der Hauptkomponentenanalyse (PCA) bedeutet?xxx Für eine einfache lineare Regression wird das R-Quadrat …


7
Wie kann ein statistisches Analyseprojekt effizient verwaltet werden?
Wir hören oft von Projektmanagement- und Entwurfsmustern in der Informatik, aber seltener in der statistischen Analyse. Es scheint jedoch, dass ein entscheidender Schritt zur Gestaltung eines effektiven und dauerhaften statistischen Projekts darin besteht, die Dinge organisiert zu halten. Ich befürworte oft die Verwendung von R und eine konsistente Organisation von …

1
Plot.lm () interpretieren
Ich hatte eine Frage zur Interpretation der durch plot (lm) in R erzeugten Graphen. Ich habe mich gefragt, ob Sie mir sagen können, wie die Diagramme für die Skalenposition und die Hebelwirkung für die verbleibenden Graphen zu interpretieren sind. Über Kommentare würde ich mich freuen. Grundkenntnisse in Statistik, Regression und …

4
Warum sollten Sie Bilder normalisieren, indem Sie den Bildmittelwert des Datensatzes anstelle des aktuellen Bildmittelwerts beim Deep Learning subtrahieren?
Es gibt einige Variationen beim Normalisieren der Bilder, aber die meisten scheinen diese beiden Methoden zu verwenden: Subtrahiere den über alle Bilder berechneten Mittelwert pro Kanal (zB VGG_ILSVRC_16_layers ) Über alle Bilder berechnete Subtraktion nach Pixel / Kanal (z. B. CNN_S , siehe auch Caffes Referenznetzwerk ) Die natürliche Herangehensweise …

4
Diagnosediagramme für die Zählregression
Welche diagnostischen Diagramme (und möglicherweise formalen Tests) sind für Regressionen, bei denen das Ergebnis eine Zählvariable ist, am aussagekräftigsten? Ich interessiere mich besonders für Poisson- und negative Binomialmodelle sowie für Gegenstücke mit Null-Inflation und Hürden. Die meisten Quellen, die ich gefunden habe, zeichnen einfach die Residuen gegen angepasste Werte auf, …

1
Gekreuzte versus verschachtelte zufällige Effekte: Wie unterscheiden sie sich und wie werden sie in lme4 korrekt angegeben?
Hier ist, wie ich verschachtelte vs. gekreuzte zufällige Effekte verstanden habe: Verschachtelte zufällige Effekte treten auf, wenn ein Faktor der unteren Ebene nur innerhalb einer bestimmten Ebene eines Faktors der oberen Ebene erscheint. Zum Beispiel Schüler in Klassen zu einem festgelegten Zeitpunkt. In lme4ich dachte , dass wir die zufälligen …

4
Wann werden Gamma-GLMs verwendet?
Die Gammaverteilung kann eine große Bandbreite von Formen annehmen, und angesichts des Zusammenhangs zwischen Mittelwert und Varianz durch ihre beiden Parameter scheint sie geeignet zu sein, die Heteroskedastizität in nicht negativen Daten auf eine Art und Weise zu behandeln, wie dies bei logarithmisch transformiertem OLS der Fall ist Sie müssen …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.