Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

4
Wann sollte ein Fisher- und Neyman-Pearson-Framework verwendet werden?
In letzter Zeit habe ich viel über die Unterschiede zwischen der Fisher-Methode zum Testen von Hypothesen und der Neyman-Pearson-Denkschule gelesen. Meine Frage ist, für einen Moment philosophische Einwände zu ignorieren; Wann sollten wir den Fisher-Ansatz der statistischen Modellierung anwenden und wann sollten wir die Neyman-Pearson-Methode von Signifikanzniveaus usw. anwenden? Gibt …





7
Euklidischer Abstand ist normalerweise nicht gut für spärliche Daten?
Ich habe irgendwo gesehen, dass klassische Entfernungen (wie die euklidische Entfernung) schwach diskriminierend werden, wenn wir mehrdimensionale und spärliche Daten haben. Warum? Haben Sie ein Beispiel für zwei spärliche Datenvektoren, bei denen die euklidische Distanz nicht gut funktioniert? In diesem Fall welche Ähnlichkeit sollten wir verwenden?

4
Zusammenhang zwischen Poisson und Exponentialverteilung
Die Wartezeiten für die Poissonverteilung sind eine Exponentialverteilung mit dem Parameter Lambda. Aber ich verstehe es nicht. Poisson modelliert beispielsweise die Anzahl der Ankünfte pro Zeiteinheit. In welcher Beziehung steht dies zur Exponentialverteilung? Nehmen wir an, die Wahrscheinlichkeit von k Ankünften in einer Zeiteinheit ist P (k) (modelliert durch Poisson) …



2
Warum wird die Gratregression als "Grat" bezeichnet, warum wird sie benötigt und was passiert, wenn
Firstregressionskoeffizientenschätzung β R sind die Werte , die die Minimierungβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Meine Fragen sind: Wenn , dann sehen wir, dass sich der obige Ausdruck auf das übliche RSS reduziert. Was ist, wenn λ → ∞ ? Ich verstehe das Lehrbuch Erklärung des Verhaltens der Koeffizienten nicht.λ=0λ=0\lambda …


2
Auflösen nach Regressionsparametern in geschlossener Form gegen Gradientenabstieg
In Andrew Ngs Kurs über maschinelles Lernen führt er in die lineare und logistische Regression ein und zeigt, wie die Modellparameter mithilfe des Gradientenabfalls und der Newton-Methode angepasst werden. Ich weiß, dass Gradientenabstieg in einigen Anwendungen des maschinellen Lernens (z. B. Backpropogation) nützlich sein kann, aber im allgemeineren Fall gibt …

2
Entfernen doppelter Zeilendatenrahmen in R [geschlossen]
Wie kann ich doppelte Zeilen aus diesem Beispieldatenrahmen entfernen? A 1 A 1 A 2 B 4 B 1 B 1 C 2 C 2 Ich möchte die Duplikate entfernen, die auf beiden Spalten basieren: A 1 A 2 B 4 B 1 C 2 Ordnung ist nicht wichtig.
71 r 


15
Vollständige inhaltliche Beispiele reproduzierbarer Forschung mit R
Die Frage: Gibt es gute Beispiele für reproduzierbare Forschung mit R, die online frei verfügbar sind? Ideales Beispiel: Im Einzelnen würden ideale Beispiele Folgendes bereitstellen: Die Rohdaten (und idealerweise Metadaten, die die Daten erklären), Alle R-Codes, einschließlich Datenimport, -verarbeitung, -analysen und -ausgabe, Sweave oder ein anderer Ansatz zum Verknüpfen der …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.