Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren



13
Was sind die Durchbrüche in der Statistik der letzten 15 Jahre?
Ich erinnere mich noch an das Papier Annals of Statistics on Boosting von Friedman-Hastie-Tibshirani und an die Kommentare anderer Autoren (einschließlich Freund und Schapire) zu denselben Themen. Damals galt Boosting in vielerlei Hinsicht als Durchbruch: rechnerisch machbar, eine Ensemblemethode mit hervorragender und dennoch mysteriöser Performance. Etwa zur gleichen Zeit wurde …

12
Software, die benötigt wird, um Daten aus dem Diagramm zu entfernen [geschlossen]
Hat jemand Erfahrung mit Software (am besten kostenlos, am besten Open Source), die ein Bild von Daten aufnimmt, die auf kartesischen Koordinaten aufgezeichnet sind (ein normaler, alltäglicher Plot), und die Koordinaten der Punkte extrahiert, die in der Grafik aufgezeichnet sind? Dies ist im Wesentlichen ein Data-Mining-Problem und ein umgekehrtes Datenvisualisierungsproblem.


8
Warum weiterhin Hypothesentests unterrichten und anwenden (wenn Konfidenzintervalle verfügbar sind)?
Warum weiterhin Hypothesentests (mit all ihren schwierigen Konzepten und die zu den statistischsten Sünden zählen) für Probleme unterrichten und anwenden, bei denen es einen Intervallschätzer gibt (Vertrauen, Bootstrap, Glaubwürdigkeit oder was auch immer)? Was ist die beste Erklärung (falls vorhanden) für die Schüler? Nur tradition? Die Ansichten werden sehr willkommen …



5
In welcher Beziehung steht ein Zufallseffektmodell in der Ökonometrie zu gemischten Modellen außerhalb der Ökonometrie?
Früher dachte ich, dass das "Zufallseffektmodell" in der Ökonometrie einem "gemischten Modell mit zufälligem Schnitt" außerhalb der Ökonometrie entspricht, aber jetzt bin ich mir nicht sicher. Macht es? In der Ökonometrie werden Begriffe wie "feste Effekte" und "zufällige Effekte" etwas anders verwendet als in der Literatur zu gemischten Modellen, was …

8
Wie können Daten simuliert werden, die bestimmte Bedingungen erfüllen, z. B. einen bestimmten Mittelwert und eine bestimmte Standardabweichung?
Diese Frage ist durch meine Frage zur Metaanalyse motiviert . Ich stelle mir jedoch vor, dass dies auch in Lehrkontexten nützlich ist, in denen Sie ein Dataset erstellen möchten, das genau einem vorhandenen veröffentlichten Dataset entspricht. Ich weiß, wie man zufällige Daten aus einer bestimmten Distribution generiert. Wenn ich also …

2
Eine genauere Diskussion der Variablenauswahl
Hintergrund Ich mache klinische Forschung in der Medizin und habe mehrere Statistikkurse besucht. Ich habe noch nie eine Arbeit mit linearer / logistischer Regression veröffentlicht und möchte die Variablenauswahl korrekt durchführen. Interpretierbarkeit ist wichtig, also keine ausgefallenen maschinellen Lerntechniken. Ich habe mein Verständnis der Variablenauswahl zusammengefasst. Würde es jemandem etwas …

2
Warum funktioniert das Schrumpfen?
Um Probleme bei der Modellauswahl zu lösen, werden durch eine Reihe von Methoden (LASSO, Ridge-Regression usw.) die Koeffizienten der Prädiktorvariablen gegen Null gesenkt. Ich suche nach einer intuitiven Erklärung, warum dies die Vorhersagefähigkeit verbessert. Wenn der wahre Effekt der Variablen tatsächlich sehr groß war, warum führt ein Verkleinern des Parameters …


1
Wald-Test für logistische Regression
Nach meinem Verständnis wird der Wald-Test im Rahmen der logistischen Regression verwendet, um festzustellen, ob eine bestimmte Prädiktorvariable signifikant ist oder nicht. Die Nullhypothese, dass der entsprechende Koeffizient Null ist, wird verworfen.XXX Der Test besteht aus der Division des Wertes des Koeffizienten durch den Standardfehler .σσ\sigma Was mich verwirrt, ist, …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.