Statistiken und Big Data

3

Variablen werden häufig angepasst (z. B. standardisiert), bevor ein Modell erstellt wird. Wann ist dies eine gute und wann eine schlechte Idee?

Unter welchen Umständen möchten oder möchten Sie eine Variable vor der Modellanpassung skalieren oder standardisieren? Und welche Vor- / Nachteile hat die Skalierung einer Variablen?

56 modeling predictive-models feature-selection theory standardization

6

Welche Methode kann verwendet werden, um Saisonalität in Daten zu erkennen?

Ich möchte die Saisonabhängigkeit von Daten erkennen, die ich erhalte. Es gibt einige Methoden, die ich gefunden habe, wie das Diagramm der saisonalen Unterreihen und das Autokorrelationsdiagramm, aber die Sache ist, dass ich nicht verstehe, wie man das Diagramm liest. Kann mir jemand helfen? Die andere Sache ist, gibt es …

56 time-series seasonality

13

Was sind die Durchbrüche in der Statistik der letzten 15 Jahre?

Ich erinnere mich noch an das Papier Annals of Statistics on Boosting von Friedman-Hastie-Tibshirani und an die Kommentare anderer Autoren (einschließlich Freund und Schapire) zu denselben Themen. Damals galt Boosting in vielerlei Hinsicht als Durchbruch: rechnerisch machbar, eine Ensemblemethode mit hervorragender und dennoch mysteriöser Performance. Etwa zur gleichen Zeit wurde …

56 mathematical-statistics history

12

Software, die benötigt wird, um Daten aus dem Diagramm zu entfernen [geschlossen]

Hat jemand Erfahrung mit Software (am besten kostenlos, am besten Open Source), die ein Bild von Daten aufnimmt, die auf kartesischen Koordinaten aufgezeichnet sind (ein normaler, alltäglicher Plot), und die Koordinaten der Punkte extrahiert, die in der Grafik aufgezeichnet sind? Dies ist im Wesentlichen ein Data-Mining-Problem und ein umgekehrtes Datenvisualisierungsproblem.

56 data-visualization data-mining software

2

Was ist der Unterschied zwischen einer Teilwahrscheinlichkeit, einer Profilwahrscheinlichkeit und einer Grenzwahrscheinlichkeit?

Ich sehe, dass diese Begriffe verwendet werden, und ich verwechsle sie immer wieder. Gibt es eine einfache Erklärung für die Unterschiede zwischen ihnen?

56 estimation maximum-likelihood

8

Warum weiterhin Hypothesentests unterrichten und anwenden (wenn Konfidenzintervalle verfügbar sind)?

Warum weiterhin Hypothesentests (mit all ihren schwierigen Konzepten und die zu den statistischsten Sünden zählen) für Probleme unterrichten und anwenden, bei denen es einen Intervallschätzer gibt (Vertrauen, Bootstrap, Glaubwürdigkeit oder was auch immer)? Was ist die beste Erklärung (falls vorhanden) für die Schüler? Nur tradition? Die Ansichten werden sehr willkommen …

56 hypothesis-testing confidence-interval teaching

4

Wie ist das Minimum eines Satzes von Zufallsvariablen verteilt?

X1,...,XnX1,...,XnX_1, ..., X_nmin(X1,...,Xn)min(X1,...,Xn)\min(X_1, ..., X_n)

56 distributions random-variable minimum

6

Welche Permutationstest-Implementierung in R soll anstelle von t-Tests (gepaart und ungepaart) verwendet werden?

Ich habe Daten aus einem Experiment, das ich mit t-Tests analysiert habe. Die abhängige Variable ist intervallskaliert und die Daten sind entweder ungepaart (dh 2 Gruppen) oder gepaart (dh innerhalb von Subjekten). ZB (innerhalb von Fächern): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, …

56 r t-test nonparametric permutation-test

5

In welcher Beziehung steht ein Zufallseffektmodell in der Ökonometrie zu gemischten Modellen außerhalb der Ökonometrie?

Früher dachte ich, dass das "Zufallseffektmodell" in der Ökonometrie einem "gemischten Modell mit zufälligem Schnitt" außerhalb der Ökonometrie entspricht, aber jetzt bin ich mir nicht sicher. Macht es? In der Ökonometrie werden Begriffe wie "feste Effekte" und "zufällige Effekte" etwas anders verwendet als in der Literatur zu gemischten Modellen, was …

56 mixed-model econometrics panel-data lme4-nlme plm

8

Wie können Daten simuliert werden, die bestimmte Bedingungen erfüllen, z. B. einen bestimmten Mittelwert und eine bestimmte Standardabweichung?

Diese Frage ist durch meine Frage zur Metaanalyse motiviert . Ich stelle mir jedoch vor, dass dies auch in Lehrkontexten nützlich ist, in denen Sie ein Dataset erstellen möchten, das genau einem vorhandenen veröffentlichten Dataset entspricht. Ich weiß, wie man zufällige Daten aus einer bestimmten Distribution generiert. Wenn ich also …

56 r dataset simulation random-generation

2

Eine genauere Diskussion der Variablenauswahl

Hintergrund Ich mache klinische Forschung in der Medizin und habe mehrere Statistikkurse besucht. Ich habe noch nie eine Arbeit mit linearer / logistischer Regression veröffentlicht und möchte die Variablenauswahl korrekt durchführen. Interpretierbarkeit ist wichtig, also keine ausgefallenen maschinellen Lerntechniken. Ich habe mein Verständnis der Variablenauswahl zusammengefasst. Würde es jemandem etwas …

55 regression feature-selection model-selection

2

Warum funktioniert das Schrumpfen?

Um Probleme bei der Modellauswahl zu lösen, werden durch eine Reihe von Methoden (LASSO, Ridge-Regression usw.) die Koeffizienten der Prädiktorvariablen gegen Null gesenkt. Ich suche nach einer intuitiven Erklärung, warum dies die Vorhersagefähigkeit verbessert. Wenn der wahre Effekt der Variablen tatsächlich sehr groß war, warum führt ein Verkleinern des Parameters …

55 lasso regularization ridge-regression intuition shrinkage

10

Was sind einige Beispiele für anachronistische Praktiken in der Statistik?

Ich beziehe mich auf Praktiken, die immer noch präsent sind, obwohl die Probleme (normalerweise rechnerisch), mit denen sie fertig wurden, größtenteils gelöst wurden. Zum Beispiel wurde Yates 'Kontinuitätskorrektur erfunden, um den exakten Fisher-Test mit dem with 2- Test Sie ist jedoch nicht mehr praktikabel, da die Software jetzt den Fisher-Test …

55 references philosophical

1

Wald-Test für logistische Regression

Nach meinem Verständnis wird der Wald-Test im Rahmen der logistischen Regression verwendet, um festzustellen, ob eine bestimmte Prädiktorvariable signifikant ist oder nicht. Die Nullhypothese, dass der entsprechende Koeffizient Null ist, wird verworfen.XXX Der Test besteht aus der Division des Wertes des Koeffizienten durch den Standardfehler .σσ\sigma Was mich verwirrt, ist, …

55 logistic z-statistic

3

Was ist so cool an de Finettis Repräsentationssatz?

Aus der Theorie der Statistik von Mark J. Schervish (Seite 12): DeFinettis Repräsentationssatz 1.49 ist zwar von zentraler Bedeutung für die Motivierung parametrischer Modelle, wird jedoch in ihrer Implementierung nicht verwendet. Wie ist der Satz von zentraler Bedeutung für parametrische Modelle?

55 probability modeling mathematical-statistics parametric