Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren




7
Was sind die "großen Probleme" in der Statistik?
Die Mathematik hat ihre berühmten Millenniumsprobleme (und historisch gesehen Hilberts 23 ), Fragen, die dazu beigetragen haben, die Richtung des Feldes zu bestimmen. Ich habe jedoch keine Ahnung, wie die Riemann-Hypothesen und die P-gegen-NP-Werte der Statistik aussehen würden. Also, was sind die übergreifenden offenen Fragen in der Statistik? Bearbeitet, um …
77 history 


5
Was sind moderne, einfach zu verwendende Alternativen zur schrittweisen Regression?
Ich habe einen Datensatz mit ungefähr 30 unabhängigen Variablen und möchte ein verallgemeinertes lineares Modell (GLM) erstellen, um die Beziehung zwischen ihnen und der abhängigen Variablen zu untersuchen. Mir ist bewusst, dass die Methode, die mir für diese Situation beigebracht wurde, die schrittweise Regression, jetzt als statistische Sünde angesehen wird …

3
Merkmalsauswahl und Kreuzvalidierung
Ich habe in letzter Zeit viel auf dieser Site (@Aniko, @Dikran Marsupial, @Erik) und anderswo über das Problem der Überanpassung bei der Kreuzvalidierung gelesen - (Smialowski et al. 2010, Bioinformatics, Hastie, Elements of Statistics Learning). Der Vorschlag ist, dass jede überwachte Merkmalsauswahl (unter Verwendung der Korrelation mit Klassenbezeichnungen), die außerhalb …


1
Helfen Sie mir, Support Vector Machines zu verstehen
Ich verstehe die Grundlagen des Ziels von Support Vector Machines in Bezug auf die Klassifizierung einer Eingabe in mehrere verschiedene Klassen, aber was ich nicht verstehe, sind einige der wichtigsten Details. Für den Anfang bin ich ein bisschen durch die Verwendung von Slack-Variablen verwirrt. Was ist ihr Zweck? Ich mache …

6
Featureauswahl für "endgültiges" Modell bei der Durchführung einer Gegenprüfung beim maschinellen Lernen
Ich bin etwas verwirrt über die Funktionsauswahl und das maschinelle Lernen und habe mich gefragt, ob Sie mir helfen könnten. Ich habe ein Microarray-Dataset, das in zwei Gruppen eingeteilt ist und über 1000 Funktionen verfügt. Mein Ziel ist es, eine kleine Anzahl von Genen (meine Merkmale) (10-20) in einer Signatur …



5
Bitte erläutern Sie das Warteparadoxon
Vor ein paar Jahren habe ich einen Strahlungsdetektor entwickelt, der das Intervall zwischen Ereignissen misst, anstatt sie zu zählen. Ich ging davon aus, dass ich bei der Messung nicht zusammenhängender Proben im Durchschnitt die Hälfte des tatsächlichen Intervalls messen würde. Als ich die Schaltung jedoch mit einer kalibrierten Quelle testete, …

3
Der beste Weg, eine zufällige Gesamtstruktur in einer Publikation darzustellen?
Ich verwende den Random Forest-Algorithmus als robusten Klassifikator für zwei Gruppen in einer Microarray-Studie mit Tausenden von Features. Was ist der beste Weg, um die zufällige Gesamtstruktur so darzustellen, dass genügend Informationen vorhanden sind, um sie in einem Papier reproduzierbar zu machen? Gibt es eine Plotmethode in R, um den …

3
Diagnose für logistische Regression?
Bei der linearen Regression können wir die Diagnosediagramme (Residuendiagramme, normale QQ-Diagramme usw.) überprüfen, um zu überprüfen, ob die Annahmen der linearen Regression verletzt werden. Bei der logistischen Regression habe ich Probleme, Ressourcen zu finden, die erläutern, wie die Anpassung des logistischen Regressionsmodells diagnostiziert wird. In einigen Kursnotizen zu GLM wird …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.