Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

2
Poisson-Regression zur Abschätzung des relativen Risikos für binäre Ergebnisse
Kurze Zusammenfassung Warum wird logistische Regression (mit Odds Ratios) in Kohortenstudien mit binären Ergebnissen häufiger verwendet als Poisson-Regression (mit relativen Risiken)? Hintergrund Meiner Erfahrung nach lehren Statistik- und Epidemiologiekurse für Studierende und Absolventen im Allgemeinen, dass die logistische Regression zur Modellierung von Daten mit binären Ergebnissen verwendet werden sollte, wobei …


5
Welche Bedeutung haben logistische Regressionskoeffizienten?
Ich lese gerade einen Artikel über den Wahlort und die Wahlpräferenz bei den Wahlen 2000 und 2004. Darin befindet sich ein Diagramm, in dem die logistischen Regressionskoeffizienten angezeigt werden. Aus Kursen vor Jahren und ein wenig nachlesenIch verstehe unter logistischer Regression eine Möglichkeit, die Beziehung zwischen mehreren unabhängigen Variablen und …

3
Was ist die objektive Funktion von PCA?
Die Hauptkomponentenanalyse kann eine Matrixzerlegung verwenden, dies ist jedoch nur ein Werkzeug, um dorthin zu gelangen. Wie würden Sie die Hauptkomponenten ohne die Verwendung von Matrixalgebra finden? Was ist die objektive Funktion (Ziel) und welche Einschränkungen gibt es?
42 pca 

5
Ist maschinelles Lernen für das Verständnis von Kausalität weniger nützlich und daher für die Sozialwissenschaft weniger interessant?
Mein Verständnis des Unterschieds zwischen maschinellem Lernen / anderen statistischen Vorhersagetechniken und der Art von Statistiken, die von Sozialwissenschaftlern (z. B. Wirtschaftswissenschaftlern) verwendet werden, besteht darin, dass die Wirtschaftswissenschaftler sehr daran interessiert zu sein scheinen, die Wirkung einer oder mehrerer Variablen zu verstehen - beides in Bezug auf Größe und …

8
Wie erkenne ich eine Community in einem gewichteten sozialen Netzwerk / Diagramm?
Ich frage mich, ob jemand vorschlagen könnte, was gute Ausgangspunkte für die Community-Erkennung / Diagrammaufteilung / -Clusterung in einem Diagramm mit gewichteten , ungerichteten Kanten sind. Das fragliche Diagramm hat ungefähr 3 Millionen Kanten und jede Kante drückt den Ähnlichkeitsgrad zwischen den beiden Scheitelpunkten aus, die es verbindet. Insbesondere sind …

5
Wie mache ich eine Zeitreihe stationär?
Was sind andere Techniken zum Erstellen einer instationären, stationären Zeitreihe neben dem Aufnehmen von Differenzen? Gewöhnlich bezeichnet man eine Reihe als " integriert von der Ordnung p ", wenn sie durch einen Verzögerungsoperator ortsfest gemacht werden kann .( 1 - L )PXt(1−L)PXt(1-L)^P X_t


8
Wie bringe ich Leute dazu, sich besser um Daten zu kümmern?
An meinem Arbeitsplatz arbeiten Mitarbeiter unterschiedlichster Disziplinen. Daher generieren wir Daten in vielen verschiedenen Formen. Folglich hat jedes Team ein eigenes System zum Speichern von Daten entwickelt. Einige verwenden Access- oder SQL-Datenbanken. Einige Teams sind (zu meinem Entsetzen) fast ausschließlich auf Excel-Tabellen angewiesen. Oft ändern sich die Datenformate von Projekt …


6
Warum Downsampling?
Angenommen, ich möchte einen Klassifikator lernen, der vorhersagt, ob es sich bei einer E-Mail um Spam handelt. Angenommen, nur 1% der E-Mails sind Spam. Am einfachsten ist es, den einfachen Klassifikator zu erlernen, der besagt, dass es sich bei keiner der E-Mails um Spam handelt. Dieser Klassifikator würde eine Genauigkeit …



5
Korrelationen zwischen kontinuierlichen und kategorialen (nominalen) Variablen
Ich möchte die Korrelation zwischen einer kontinuierlichen (abhängigen Variablen) und einer kategorialen (nominal: Geschlecht, unabhängige Variable) Variablen finden. Fortlaufende Daten werden normalerweise nicht verteilt. Vorher hatte ich es mit dem Spearman's berechnet . Mir wurde jedoch gesagt, dass es nicht richtig ist.ρρ\rho Bei der Suche im Internet habe ich festgestellt, …

5
Wie interpretiert man SVM-Feature-Gewichte?
Ich versuche, die variablen Gewichte zu interpretieren, die durch Anpassen einer linearen SVM gegeben sind. (Ich benutze Scikit-Learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Ich kann in der Dokumentation nichts finden, was genau angibt, wie diese Gewichte berechnet oder interpretiert werden. Hat das Vorzeichen des …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.