Statistiken und Big Data

2

Modell mit gemischten Effekten und Verschachtelung

Ich habe Daten aus einem Experiment gesammelt, das wie folgt organisiert ist: Zwei Standorte mit jeweils 30 Bäumen. 15 werden behandelt, 15 werden an jeder Stelle kontrolliert. Von jedem Baum nehmen wir drei Stängelstücke und drei Wurzelstücke, also 6 Proben der Stufe 1 pro Baum, die durch eine von zwei …

34 r mixed-model model nested-data lme4-nlme

2

Interpretation des Diagramms Residuen vs. angepasste Werte zur Überprüfung der Annahmen eines linearen Modells

Betrachten Sie die folgende Abbildung aus Faraways linearen Modellen mit R (2005, S. 59). Das erste Diagramm scheint darauf hinzudeuten, dass die Residuen und die angepassten Werte nicht korreliert sind, da sie in einem homoskedastischen linearen Modell mit normalverteilten Fehlern vorliegen sollten. Daher legen die zweite und dritte Kurve, die …

34 regression residuals assumptions graphical-model

1

Verändert das Downsampling die logistischen Regressionskoeffizienten?

Wenn ich über einen Datensatz mit einer sehr seltenen positiven Klasse verfüge und die negative Klasse heruntersuche, muss ich dann eine logistische Regression durchführen, um die Regressionskoeffizienten anzupassen, um die Tatsache widerzuspiegeln, dass ich die Prävalenz der positiven Klasse geändert habe? Angenommen, ich habe einen Datensatz mit 4 Variablen: Y, …

34 logistic unbalanced-classes case-control-study

3

Warum muss die Korrelationsmatrix positiv semidefinit sein und was bedeutet es, positiv semidefinit zu sein oder nicht?

Ich habe die Bedeutung der positiven semidefiniten Eigenschaft von Korrelations- oder Kovarianzmatrizen untersucht. Ich suche Informationen zu Definition der positiven Halbbestimmtheit; Seine wichtigen Eigenschaften, praktische Implikationen; Die Konsequenz einer negativen Determinante, Auswirkung auf multivariate Analyse- oder Simulationsergebnisse usw.

34 covariance-matrix eigenvalues determinant correlation-matrix

5

Hat die Beta-Distribution ein Konjugat vor?

Ich weiß, dass die Beta-Verteilung mit dem Binomial konjugiert ist. Aber was ist das Konjugat vor der Beta? Vielen Dank.

34 beta-distribution conjugate-prior

2

Was sind die praktischen Unterschiede zwischen den Falschentdeckungsratenverfahren von Benjamini & Hochberg (1995) und Benjamini & Yekutieli (2001)?

In meinem Statistikprogramm werden sowohl die Verfahren Benjamini & Hochberg (1995) als auch Benjamini & Yekutieli (2001) für die Falschentdeckungsrate (FDR) implementiert. Ich habe mein Bestes getan, um die spätere Abhandlung durchzulesen, aber sie ist ziemlich mathematisch dicht und ich bin nicht sicher, ob ich den Unterschied zwischen den Abläufen …

34 post-hoc false-discovery-rate

2

Modellauswahl und Kreuzvalidierung: Der richtige Weg

In CrossValidated gibt es zahlreiche Threads zum Thema Modellauswahl und Kreuzvalidierung. Hier sind ein paar: Interne und externe Kreuzvalidierung und Modellauswahl @ DikranMarsupials beste Antwort auf Feature-Auswahl und Kreuzvalidierung Die Antworten auf diese Themen sind jedoch eher allgemein gehalten und heben hauptsächlich die Probleme hervor, die bei bestimmten Ansätzen zur …

34 cross-validation model-selection

3

Normalität der abhängigen Variablen = Normalität der Residuen?

Dieses Problem scheint die ganze Zeit seinen hässlichen Kopf zu haben, und ich versuche, es für mein eigenes Verständnis von Statistik (und Vernunft!) Zu enthaupten. Die Annahmen allgemeiner linearer Modelle (t-Test, ANOVA, Regression usw.) beinhalten die "Annahme der Normalität", aber ich habe festgestellt, dass dies selten klar beschrieben wird. Ich …

34 normal-distribution residuals normality-assumption

5

Backpropagation vs. genetischer Algorithmus für das Training des neuronalen Netzwerks

Ich habe ein paar Artikel gelesen, in denen die Vor- und Nachteile der einzelnen Methoden erörtert wurden. Einige argumentieren, dass GA keine Verbesserung bei der Suche nach der optimalen Lösung bringt, während andere zeigen, dass sie effektiver ist. Es scheint, dass GA in der Literatur im Allgemeinen bevorzugt wird (obwohl …

34 neural-networks genetic-algorithms backpropagation

3

Übereinstimmende Neigungsbewertung nach mehrfacher Imputation

Ich beziehe mich auf dieses Papier: Hayes JR, Groner JI. "Mithilfe multipler Imputations- und Neigungsbewertungen können Sie die Auswirkung der Verwendung von Autositzen und Sicherheitsgurten auf den Schweregrad von Verletzungen anhand von Daten aus dem Unfallregister testen." J Pediatr Surg. 2008 May; 43 (5): 924 & ndash; 7. In dieser …

34 missing-data propensity-scores

3

Wie kann ich testen, ob ein zufälliger Effekt signifikant ist?

Ich versuche zu verstehen, wann ein zufälliger Effekt verwendet werden soll und wann er nicht erforderlich ist. Ich habe eine Faustregel erhalten, wenn Sie 4 oder mehr Gruppen / Individuen haben, die ich tue (15 einzelne Elche). Einige dieser Elche wurden zwei- oder dreimal für insgesamt 29 Versuche experimentiert. Ich …

34 mixed-model lme4-nlme random-effects-model glmm

5

Können Sie maschinelles Lernen mit CV / Bootstrap trainieren?

Diese Frage mag zu offen sein, um eine endgültige Antwort zu erhalten, aber hoffentlich nicht. Algorithmen für maschinelles Lernen, wie SVM, GBM, Random Forest usw., haben im Allgemeinen einige freie Parameter, die über eine Faustregel hinaus auf jeden Datensatz abgestimmt werden müssen. Dies wird im Allgemeinen mit einer Art Neuabtastungstechnik …

34 machine-learning cross-validation bootstrap optimization resampling

3

Unterschied zwischen verallgemeinerten linearen Modellen und verallgemeinerten linearen gemischten Modellen

Ich frage mich, was die Unterschiede zwischen gemischten und ungemischten GLMs sind. In SPSS können Benutzer beispielsweise über das Dropdown-Menü Folgendes anpassen: analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear Gehen sie anders mit fehlenden Werten um? Meine abhängige Variable ist binär und ich habe …

34 mixed-model generalized-linear-model glmm gee

2

Hierarchisches Clustering mit gemischten Datentypen - Welche Entfernung / Ähnlichkeit ist zu verwenden?

In meinem Datensatz haben wir sowohl kontinuierliche als auch natürlich diskrete Variablen. Ich möchte wissen, ob wir hierarchisches Clustering mit beiden Variablentypen durchführen können. Und wenn ja, welches Entfernungsmaß ist angemessen?

34 clustering similarities distance-functions mixed-type-data

4

Daten weisen zwei Trends auf; Wie extrahiere ich unabhängige Trendlinien?

Ich habe eine Reihe von Daten, die nicht in einer bestimmten Reihenfolge angeordnet sind, aber bei einer klaren Darstellung zwei unterschiedliche Trends aufweisen. Eine einfache lineare Regression wäre hier aufgrund der eindeutigen Unterscheidung der beiden Reihen nicht ausreichend. Gibt es eine einfache Möglichkeit, die beiden unabhängigen linearen Trendlinien zu ermitteln? …

34 time-series python curve-fitting