Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

15
Warum sollten parametrische Statistiken nichtparametrischen vorgezogen werden?
Kann mir jemand erklären, warum jemand für Hypothesentests oder Regressionsanalysen eine parametrische Methode einer nichtparametrischen statistischen Methode vorziehen sollte? In meinen Augen ist es wie beim Rafting und bei der Auswahl einer nicht wasserfesten Uhr, weil Sie sie möglicherweise nicht nass bekommen. Warum nicht das Tool verwenden, das bei jeder …


4
Warum wird die räumliche Autokorrelation durch die Aufnahme von Breiten- und Längengraden in ein GAM berücksichtigt?
Ich habe verallgemeinerte additive Modelle für die Entwaldung erstellt. Um die räumliche Autokorrelation zu berücksichtigen, habe ich Breitengrad und Längengrad als geglätteten Interaktionsterm (dh s (x, y)) eingeschlossen. Ich habe dies auf das Lesen vieler Artikel gestützt, in denen die Autoren sagten, "um die räumliche Autokorrelation zu berücksichtigen, wurden Punktkoordinaten …


8
Wie kann ich sicherstellen, dass keine Testdaten in die Trainingsdaten gelangen?
Angenommen, wir haben jemanden, der ein Vorhersagemodell erstellt, der sich jedoch nicht unbedingt mit den richtigen statistischen oder maschinellen Lernprinzipien auskennt. Vielleicht helfen wir dieser Person beim Lernen, oder vielleicht verwendet diese Person ein Softwarepaket, für dessen Verwendung nur minimale Kenntnisse erforderlich sind. Nun könnte diese Person sehr wohl erkennen, …

9
Was sind die Nachteile der Verwendung des Lassos zur Variablenauswahl für die Regression?
Nach meinem Wissen behandelt die Verwendung von Lasso für die Variablenauswahl das Problem der korrelierten Eingaben. Da es der Regression des kleinsten Winkels entspricht, ist es auch rechnerisch nicht langsam. Viele Leute (zum Beispiel Leute, von denen ich weiß, dass sie Biostatistiken machen) scheinen jedoch eine schrittweise oder stufenweise variable …



3
Warum wird die Kantenschätzung durch Hinzufügen einer Konstanten zur Diagonale besser als bei OLS?
Ich verstehe, dass die Grat-Regressionsschätzung das , das die Restsumme des Quadrats und eine Strafe für die Größe von β minimiertββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Allerdings verstehe ich die Bedeutung der Tatsache, dass sich von dadurch unterscheidet, dass nur eine kleine Konstante …


13
Wenn wir die Nullhypothese in einer großen Studie nicht ablehnen, ist es dann kein Beweis für die Null?
Eine grundlegende Einschränkung der Signifikanzprüfung von Nullhypothesen besteht darin, dass ein Forscher keine Beweise für die Null sammeln kann ( Quelle ). Ich sehe diese Behauptung an mehreren Stellen wiederholt, aber ich kann keine Rechtfertigung dafür finden. Wenn wir eine große Studie durchführen und keine statistisch signifikanten Beweise für die …

7
Optimierung, wenn die Kostenfunktion nur langsam evaluiert werden kann
Gradientenabstieg und viele andere Methoden sind nützlich, um lokale Minima in Kostenfunktionen zu finden. Sie können effizient sein, wenn die Kostenfunktion an jedem Punkt schnell ausgewertet werden kann, sei es numerisch oder analytisch. Ich habe eine für mich ungewöhnliche Situation. Jede Bewertung meiner Kostenfunktion ist teuer. Ich versuche, eine Reihe …

6
Wohin ging die häufig-bayesianische Debatte?
Die Welt der Statistik war geteilt zwischen Frequentisten und Bayesianern. In diesen Tagen scheint es, dass jeder ein bisschen von beidem tut. Wie kann das sein? Wenn die unterschiedlichen Ansätze für unterschiedliche Probleme geeignet sind, warum haben die Gründerväter der Statistik dies nicht gesehen? Oder haben die Frequentisten die Debatte …

2
Was ist der Unterschied zwischen ZCA-Whitening und PCA-Whitening?
Ich bin verwirrt über das ZCA-Weißmachen und das normale Weißmachen (das durch Teilen der Hauptkomponenten durch die Quadratwurzeln der PCA-Eigenwerte erhalten wird). Soweit ich weiss, wo U PCA Eigenvektoren sind.xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},UU\mathbf U Was sind die Verwendungen von ZCA-Bleaching? Was sind die Unterschiede zwischen normalem Bleaching …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.