Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren


7
Was sind die Zweige der Statistik?
In der Mathematik gibt es Zweige wie Algebra, Analyse, Topologie usw. Im maschinellen Lernen gibt es überwachtes, unbeaufsichtigtes und bestärkendes Lernen. Innerhalb jedes dieser Zweige gibt es feinere Zweige, die die Methoden weiter unterteilen. Ich habe Probleme, eine Parallele zur Statistik zu ziehen. Was wären die Hauptzweige der Statistik (und …



3
Wenn X und Y nicht korreliert sind, sind X ^ 2 und Y auch nicht korreliert?
Wenn zwei Zufallsvariablen und nicht korreliert sind, können wir dann auch wissen, dass und korreliert sind? Meine Hypothese lautet ja.XXXYYYX2X2X^2YYY E [ X Y ] = E [ X ] E [ Y ]X,YX,YX, Y unkorreliert bedeutet oderE[XY]=E[X]E[Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y]E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y] E[XY]=\int xy f_X(x)f_Y(y)dxdy=\int xf_X(x)dx\int yf_Y(y)dy=E[X]E[Y] Bedeutet das auch folgendes? E[X2Y]=∫x2yfX(x)fY(y)dxdy=∫x2fX(x)dx∫yfY(y)dy=E[X2]E[Y]E[X2Y]=∫x2yfX(x)fY(y)dxdy=∫x2fX(x)dx∫yfY(y)dy=E[X2]E[Y] E[X^2Y]=\int …

4
Wann sollte ich Klassen in einem Trainingsdatensatz ausgleichen?
Ich hatte einen Online-Kurs, in dem ich erfuhr, dass unausgeglichene Klassen in den Trainingsdaten zu Problemen führen können, da Klassifizierungsalgorithmen für die Mehrheitsregel gelten, da sie gute Ergebnisse liefern, wenn die Unausgeglichenheit zu groß ist. In einer Aufgabe musste man die Daten durch Unterabtastung der Mehrheitsklasse ausgleichen. In diesem Blog …

7
Was ist der Sinn der Zeitreihenanalyse?
Was ist der Punkt der Zeitreihenanalyse? Es gibt viele andere statistische Methoden wie Regression und maschinelles Lernen, die offensichtliche Anwendungsfälle haben: Die Regression kann Informationen über die Beziehung zwischen zwei Variablen liefern, während das maschinelle Lernen für die Vorhersage hervorragend geeignet ist. In der Zwischenzeit verstehe ich jedoch nicht, wozu …

4
Hat die Zeitschrift "Science" den "Garden of Forking Pathes Analysis" gebilligt?
Die Idee der adaptiven Datenanalyse ist, dass Sie Ihren Plan zur Analyse der Daten ändern, wenn Sie mehr darüber erfahren. Bei der explorativen Datenanalyse (EDA) ist dies im Allgemeinen eine gute Idee (Sie suchen häufig nach unvorhergesehenen Mustern in den Daten), bei einer bestätigenden Studie wird dies jedoch allgemein als …

5
Unterscheidung zwischen zwei Gruppen in Statistik und maschinellem Lernen: Hypothesentest vs. Klassifikation vs. Clustering
Angenommen, ich habe zwei Datengruppen mit der Bezeichnung A und B (jede enthält z. B. 200 Proben und 1 Merkmal), und ich möchte wissen, ob sie unterschiedlich sind. Ich könnte: a) Führen Sie einen statistischen Test (z. B. t-Test) durch, um festzustellen, ob sie sich statistisch unterscheiden. b) Verwenden Sie …

5
Gibt es eine Erklärung dafür, warum es so viele natürliche Phänomene gibt, die der Normalverteilung folgen?
Ich halte das für ein faszinierendes Thema und verstehe es nicht ganz. Welches physikalische Gesetz bewirkt, dass so viele Naturphänomene normalverteilt sind? Es wäre intuitiver, wenn sie gleich verteilt wären. Es ist so schwer für mich, das zu verstehen, und ich habe das Gefühl, dass mir einige Informationen fehlen. Kann …


2
Entspricht die Zurückweisung der Hypothese mit dem p-Wert der Hypothese, die nicht zum Konfidenzintervall gehört?
Während ich formal das Konfidenzintervall einer Schätzung ableitete, kam ich zu einer Formel, die der Berechnung des Werts sehr ähnlich ist.ppp Daher die Frage: Sind sie formal gleichwertig? Dh lehnt eine Hypothese mit einem kritischen Wert gleich nicht zum Konfidenzintervall mit kritischem Wert ?H0=0H0=0H_0 = 0αα\alpha000αα\alpha


4
Wo ist die Graphentheorie in grafischen Modellen?
Einführungen in grafische Modelle beschreiben sie als "... eine Verbindung zwischen Graphentheorie und Wahrscheinlichkeitstheorie". Ich verstehe den Teil der Wahrscheinlichkeitstheorie, habe aber Probleme zu verstehen, wo genau die Graphentheorie hineinpasst. Welche Erkenntnisse aus der Graphentheorie haben dazu beigetragen, unser Verständnis der Wahrscheinlichkeitsverteilungen und der Entscheidungsfindung unter Ungewissheit zu vertiefen? Ich …

5
Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen
Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.