Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren


7
Wann sollten Sie bei der Durchführung einer multiplen Regression Ihre Prädiktorvariablen zentrieren und wann sollten Sie sie standardisieren?
In einigen Literaturstellen habe ich gelesen, dass eine Regression mit mehreren erklärenden Variablen, wenn in verschiedenen Einheiten, standardisiert werden musste. (Beim Standardisieren wird der Mittelwert abgezogen und durch die Standardabweichung dividiert.) In welchen anderen Fällen muss ich meine Daten standardisieren? Gibt es Fälle, in denen ich meine Daten nur zentrieren …


6
Wie normalisiere ich Daten auf 0-1?
Ich bin in der Normalisierung verloren, könnte mich jemand bitte führen. Ich habe einen minimalen und einen maximalen Wert, sagen wir -23,89 bzw. 7,54990767. Wenn ich einen Wert von 5,6878 erhalte, wie kann ich diesen Wert auf einer Skala von 0 bis 1 skalieren?

11
Wie kann man Freiheitsgrade verstehen?
Aus Wikipedia gibt es drei Interpretationen der Freiheitsgrade einer Statistik: In der Statistik ist die Anzahl der Freiheitsgrade die Anzahl der Werte in der endgültigen Berechnung einer Statistik, die frei variieren können . Schätzungen statistischer Parameter können auf unterschiedlichen Mengen von Informationen oder Daten basieren. Die Anzahl unabhängiger Informationen , …


16
Was bedeuten p-Werte und t-Werte in statistischen Tests?
Nach einem Statistikkurs und dem Versuch, meinen Kommilitonen zu helfen, stellte ich fest, dass ein Thema, das viel Kopfzerbrechen hervorruft, darin besteht, die Ergebnisse statistischer Hypothesentests zu interpretieren. Es scheint, dass die Schüler leicht lernen, wie man die für einen bestimmten Test erforderlichen Berechnungen durchführt, sich aber auf die Interpretation …



8
Warum ist der euklidische Abstand in hohen Dimensionen keine gute Metrik?
Ich habe gelesen, dass 'Euklidische Distanz keine gute Distanz in hohen Dimensionen ist'. Ich denke, diese Aussage hat etwas mit dem Fluch der Dimensionalität zu tun, aber was genau? Außerdem, was ist "hohe Dimensionen"? Ich habe hierarchisches Clustering unter Verwendung der euklidischen Distanz mit 100 Merkmalen angewendet. Bis zu wie …

2
Interpretation der lm () -Ausgabe von R
Die Hilfeseiten in R setzen voraus, dass ich weiß, was diese Zahlen bedeuten, aber ich weiß es nicht. Ich versuche, jede Zahl hier wirklich intuitiv zu verstehen. Ich werde nur die Ausgabe posten und kommentieren, was ich herausgefunden habe. Es könnte (wird) Fehler geben, da ich einfach schreiben werde, was …

6
Ist nützlich oder gefährlich?
Ich habe einige Vorlesungsnotizen von Cosma Shalizi durchgesehen (insbesondere Abschnitt 2.1.1 der zweiten Vorlesung ) und wurde daran erinnert, dass Sie einen sehr niedrigen Wert erhalten können, selbst wenn Sie ein vollständig lineares Modell haben.R2R2R^2 Um Shalizis Beispiel zu paraphrasieren: Angenommen, Sie haben ein Modell , wobei bekannt ist. Dann …



12
Warum impliziert ein 95% Konfidenzintervall (CI) keine 95% ige Chance, den Mittelwert zu enthalten?
Es scheint, dass aufgrund verschiedener verwandter Fragen hier Konsens besteht, dass der "95%" -Teil des von uns als "95% -Konfidenzintervall" bezeichneten Teils darauf verweist, dass wir unsere Stichproben- und CI-Berechnungsverfahren viele Male exakt replizieren müssten 95% der so berechneten CIs würden den Populationsmittelwert enthalten. Es scheint auch der Konsens zu …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.