Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren


2
Interpretation des Diagramms Residuen vs. angepasste Werte zur Überprüfung der Annahmen eines linearen Modells
Betrachten Sie die folgende Abbildung aus Faraways linearen Modellen mit R (2005, S. 59). Das erste Diagramm scheint darauf hinzudeuten, dass die Residuen und die angepassten Werte nicht korreliert sind, da sie in einem homoskedastischen linearen Modell mit normalverteilten Fehlern vorliegen sollten. Daher legen die zweite und dritte Kurve, die …

1
Verändert das Downsampling die logistischen Regressionskoeffizienten?
Wenn ich über einen Datensatz mit einer sehr seltenen positiven Klasse verfüge und die negative Klasse heruntersuche, muss ich dann eine logistische Regression durchführen, um die Regressionskoeffizienten anzupassen, um die Tatsache widerzuspiegeln, dass ich die Prävalenz der positiven Klasse geändert habe? Angenommen, ich habe einen Datensatz mit 4 Variablen: Y, …

3
Warum muss die Korrelationsmatrix positiv semidefinit sein und was bedeutet es, positiv semidefinit zu sein oder nicht?
Ich habe die Bedeutung der positiven semidefiniten Eigenschaft von Korrelations- oder Kovarianzmatrizen untersucht. Ich suche Informationen zu Definition der positiven Halbbestimmtheit; Seine wichtigen Eigenschaften, praktische Implikationen; Die Konsequenz einer negativen Determinante, Auswirkung auf multivariate Analyse- oder Simulationsergebnisse usw.


2
Was sind die praktischen Unterschiede zwischen den Falschentdeckungsratenverfahren von Benjamini & Hochberg (1995) und Benjamini & Yekutieli (2001)?
In meinem Statistikprogramm werden sowohl die Verfahren Benjamini & Hochberg (1995) als auch Benjamini & Yekutieli (2001) für die Falschentdeckungsrate (FDR) implementiert. Ich habe mein Bestes getan, um die spätere Abhandlung durchzulesen, aber sie ist ziemlich mathematisch dicht und ich bin nicht sicher, ob ich den Unterschied zwischen den Abläufen …

2
Modellauswahl und Kreuzvalidierung: Der richtige Weg
In CrossValidated gibt es zahlreiche Threads zum Thema Modellauswahl und Kreuzvalidierung. Hier sind ein paar: Interne und externe Kreuzvalidierung und Modellauswahl @ DikranMarsupials beste Antwort auf Feature-Auswahl und Kreuzvalidierung Die Antworten auf diese Themen sind jedoch eher allgemein gehalten und heben hauptsächlich die Probleme hervor, die bei bestimmten Ansätzen zur …





5
Können Sie maschinelles Lernen mit CV / Bootstrap trainieren?
Diese Frage mag zu offen sein, um eine endgültige Antwort zu erhalten, aber hoffentlich nicht. Algorithmen für maschinelles Lernen, wie SVM, GBM, Random Forest usw., haben im Allgemeinen einige freie Parameter, die über eine Faustregel hinaus auf jeden Datensatz abgestimmt werden müssen. Dies wird im Allgemeinen mit einer Art Neuabtastungstechnik …

3
Unterschied zwischen verallgemeinerten linearen Modellen und verallgemeinerten linearen gemischten Modellen
Ich frage mich, was die Unterschiede zwischen gemischten und ungemischten GLMs sind. In SPSS können Benutzer beispielsweise über das Dropdown-Menü Folgendes anpassen: analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear Gehen sie anders mit fehlenden Werten um? Meine abhängige Variable ist binär und ich habe …


4
Daten weisen zwei Trends auf; Wie extrahiere ich unabhängige Trendlinien?
Ich habe eine Reihe von Daten, die nicht in einer bestimmten Reihenfolge angeordnet sind, aber bei einer klaren Darstellung zwei unterschiedliche Trends aufweisen. Eine einfache lineare Regression wäre hier aufgrund der eindeutigen Unterscheidung der beiden Reihen nicht ausreichend. Gibt es eine einfache Möglichkeit, die beiden unabhängigen linearen Trendlinien zu ermitteln? …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.