Statistiken und Big Data

2

Poisson-Regression zur Abschätzung des relativen Risikos für binäre Ergebnisse

Kurze Zusammenfassung Warum wird logistische Regression (mit Odds Ratios) in Kohortenstudien mit binären Ergebnissen häufiger verwendet als Poisson-Regression (mit relativen Risiken)? Hintergrund Meiner Erfahrung nach lehren Statistik- und Epidemiologiekurse für Studierende und Absolventen im Allgemeinen, dass die logistische Regression zur Modellierung von Daten mit binären Ergebnissen verwendet werden sollte, wobei …

42 logistic poisson-distribution epidemiology odds-ratio relative-risk

2

Konfidenzintervall für die Bernoulli-Probenahme

Ich habe eine zufällige Stichprobe von Bernoulli-Zufallsvariablen , wobei X i iidrv und P ( X i = 1 ) = p sind und p ein unbekannter Parameter ist.X1. . . XNX1...XNX_1 ... X_NXichXiX_iP( Xich= 1 ) = pP(Xi=1)=pP(X_i = 1) = pppp Offensichtlich kann man einen Schätzwert für finden …

42 confidence-interval binomial bernoulli-distribution

5

Welche Bedeutung haben logistische Regressionskoeffizienten?

Ich lese gerade einen Artikel über den Wahlort und die Wahlpräferenz bei den Wahlen 2000 und 2004. Darin befindet sich ein Diagramm, in dem die logistischen Regressionskoeffizienten angezeigt werden. Aus Kursen vor Jahren und ein wenig nachlesenIch verstehe unter logistischer Regression eine Möglichkeit, die Beziehung zwischen mehreren unabhängigen Variablen und …

42 regression logistic interpretation

3

Was ist die objektive Funktion von PCA?

Die Hauptkomponentenanalyse kann eine Matrixzerlegung verwenden, dies ist jedoch nur ein Werkzeug, um dorthin zu gelangen. Wie würden Sie die Hauptkomponenten ohne die Verwendung von Matrixalgebra finden? Was ist die objektive Funktion (Ziel) und welche Einschränkungen gibt es?

42 pca

5

Ist maschinelles Lernen für das Verständnis von Kausalität weniger nützlich und daher für die Sozialwissenschaft weniger interessant?

Mein Verständnis des Unterschieds zwischen maschinellem Lernen / anderen statistischen Vorhersagetechniken und der Art von Statistiken, die von Sozialwissenschaftlern (z. B. Wirtschaftswissenschaftlern) verwendet werden, besteht darin, dass die Wirtschaftswissenschaftler sehr daran interessiert zu sein scheinen, die Wirkung einer oder mehrerer Variablen zu verstehen - beides in Bezug auf Größe und …

42 machine-learning econometrics

8

Wie erkenne ich eine Community in einem gewichteten sozialen Netzwerk / Diagramm?

Ich frage mich, ob jemand vorschlagen könnte, was gute Ausgangspunkte für die Community-Erkennung / Diagrammaufteilung / -Clusterung in einem Diagramm mit gewichteten , ungerichteten Kanten sind. Das fragliche Diagramm hat ungefähr 3 Millionen Kanten und jede Kante drückt den Ähnlichkeitsgrad zwischen den beiden Scheitelpunkten aus, die es verbindet. Insbesondere sind …

42 clustering data-visualization networks partitioning modularity

5

Wie mache ich eine Zeitreihe stationär?

Was sind andere Techniken zum Erstellen einer instationären, stationären Zeitreihe neben dem Aufnehmen von Differenzen? Gewöhnlich bezeichnet man eine Reihe als " integriert von der Ordnung p ", wenn sie durch einen Verzögerungsoperator ortsfest gemacht werden kann .( 1 - L )PXt(1−L)PXt(1-L)^P X_t

42 time-series stationarity

5

Die Prioritäten von Experten einholen

Wie kann ich bei der Anpassung eines Bayes'schen Modells frühere Verteilungen von Experten abrufen?

42 bayesian prior elicitation

8

Wie bringe ich Leute dazu, sich besser um Daten zu kümmern?

An meinem Arbeitsplatz arbeiten Mitarbeiter unterschiedlichster Disziplinen. Daher generieren wir Daten in vielen verschiedenen Formen. Folglich hat jedes Team ein eigenes System zum Speichern von Daten entwickelt. Einige verwenden Access- oder SQL-Datenbanken. Einige Teams sind (zu meinem Entsetzen) fast ausschließlich auf Excel-Tabellen angewiesen. Oft ändern sich die Datenformate von Projekt …

42 dataset reproducible-research quality-control

6

Welcher Algorithmus wird bei der linearen Regression verwendet?

Normalerweise höre ich von "gewöhnlichen kleinsten Quadraten". Ist das der am häufigsten verwendete Algorithmus für die lineare Regression? Gibt es Gründe, einen anderen zu verwenden?

42 regression least-squares algorithms computational-statistics numerics

6

Warum Downsampling?

Angenommen, ich möchte einen Klassifikator lernen, der vorhersagt, ob es sich bei einer E-Mail um Spam handelt. Angenommen, nur 1% der E-Mails sind Spam. Am einfachsten ist es, den einfachen Klassifikator zu erlernen, der besagt, dass es sich bei keiner der E-Mails um Spam handelt. Dieser Klassifikator würde eine Genauigkeit …

42 machine-learning classification

3

Ist es sinnvoll, die Pearson- oder Spearman-Korrelation zwischen zwei Booleschen Vektoren zu berechnen?

Es gibt zwei Boolesche Vektoren, die nur 0 und 1 enthalten. Wenn ich die Pearson- oder Spearman-Korrelation berechne, sind sie sinnvoll oder vernünftig?

42 correlation binary-data pearson-r spearman-rho

2

Verschiedene Möglichkeiten, Interaktionsbegriffe in lm zu schreiben?

Ich habe eine Frage, wie eine Interaktion in einem Regressionsmodell am besten spezifiziert werden kann. Betrachten Sie die folgenden Daten: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), …

42 r regression interaction

5

Korrelationen zwischen kontinuierlichen und kategorialen (nominalen) Variablen

Ich möchte die Korrelation zwischen einer kontinuierlichen (abhängigen Variablen) und einer kategorialen (nominal: Geschlecht, unabhängige Variable) Variablen finden. Fortlaufende Daten werden normalerweise nicht verteilt. Vorher hatte ich es mit dem Spearman's berechnet . Mir wurde jedoch gesagt, dass es nicht richtig ist.ρρ\rho Bei der Suche im Internet habe ich festgestellt, …

42 correlation categorical-data descriptive-statistics biostatistics spearman-rho

5

Wie interpretiert man SVM-Feature-Gewichte?

Ich versuche, die variablen Gewichte zu interpretieren, die durch Anpassen einer linearen SVM gegeben sind. (Ich benutze Scikit-Learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Ich kann in der Dokumentation nichts finden, was genau angibt, wie diese Gewichte berechnet oder interpretiert werden. Hat das Vorzeichen des …

42 svm feature-selection python scikit-learn