Statistiken und Big Data

3

Warum schneiden naive Bayes-Klassifikatoren so gut ab?

Naive Bayes-Klassifikatoren sind eine beliebte Wahl für Klassifizierungsprobleme. Dafür gibt es viele Gründe, darunter: "Zeitgeist" - weit verbreitetes Bewusstsein nach dem Erfolg von Spam-Filtern vor etwa zehn Jahren Einfach zu schreiben Das Klassifikatormodell ist schnell zu erstellen Das Modell kann mit neuen Trainingsdaten geändert werden, ohne dass das Modell neu …

38 classification naive-bayes

5

Vorhersage in der Cox-Regression

Ich mache eine multivariate Cox-Regression, ich habe meine signifikanten unabhängigen Variablen und Beta-Werte. Das Modell passt sehr gut zu meinen Daten. Jetzt möchte ich mein Modell verwenden und das Überleben einer neuen Beobachtung vorhersagen. Ich bin mir nicht sicher, wie ich das mit einem Cox-Modell machen soll. Bei einer linearen …

38 regression survival prediction cox-model

2

Was ist Modellidentifizierbarkeit?

Ich weiß, dass mit einem Modell, das nicht identifizierbar ist, die Daten durch mehrere unterschiedliche Zuweisungen zu den Modellparametern generiert werden können. Ich weiß, dass es manchmal möglich ist, Parameter so einzuschränken, dass alle identifizierbar sind, wie im Beispiel in Cassella & Berger, 2. Aufl., Abschnitt 11.2. Wie kann ich …

38 identifiability

9

Wie ist die Beziehung zwischen

Wie ist die Beziehung zwischen und in der folgenden Darstellung? Meiner Ansicht nach gibt es eine negative lineare Beziehung. Da wir jedoch viele Ausreißer haben, ist die Beziehung sehr schwach. Habe ich recht? Ich möchte lernen, wie wir Streudiagramme erklären können.XY.YYXXX

38 self-study correlation scatterplot

6

Was ist der Zusammenhang zwischen glaubwürdigen Regionen und Bayes'schen Hypothesentests?

In der Frequenzstatistik besteht ein enger Zusammenhang zwischen Konfidenzintervallen und Tests. Am Beispiel der Inferenz über in der N ( μ , σ 2 ) -Verteilung ist das 1 - α- Konfidenzintervall ˉ x ± t α / 2 ( n - 1 ) ⋅ s / √μμ\muN(μ,σ2)N(μ,σ2)\rm N(\mu,\sigma^2)1−α1−α1-\alpha enthält …

38 hypothesis-testing bayesian confidence-interval frequentist credible-interval

7

Gibt es einen guten Browser / Viewer, um einen R-Datensatz (.rda-Datei) zu sehen?

Ich möchte eine .rda-Datei (R-Datensatz) durchsuchen. Ich weiß über den View(datasetname)Befehl Bescheid . Die voreingestellte R.app für Mac hat keinen sehr guten Browser für Daten (sie öffnet ein Fenster in X11). Ich mag den RStudio-Datenbrowser, der mit dem ViewBefehl geöffnet wird . Es werden jedoch nur 1000 Zeilen angezeigt und …

38 r

4

Ungefähre Auftragsstatistik für normale Zufallsvariablen

Gibt es bekannte Formeln für die Ordnungsstatistik bestimmter Zufallsverteilungen? Insbesondere die Statistik erster und letzter Ordnung einer normalen Zufallsvariablen, aber auch eine allgemeinere Antwort wären wünschenswert. Bearbeiten: Um dies zu verdeutlichen, suche ich nach Näherungsformeln, die mehr oder weniger explizit ausgewertet werden können, nicht nach dem exakten ganzzahligen Ausdruck. Zum …

38 distributions normal-distribution approximation order-statistics

8

Ist es gültig, eine Basisvariable als Kontrollvariable einzuschließen, wenn die Auswirkung einer unabhängigen Variablen auf die Änderungsergebnisse getestet wird?

Ich versuche eine OLS-Regression durchzuführen: DV: Gewichtsänderung über ein Jahr (Anfangsgewicht - Endgewicht) IV: Ob Sie trainieren oder nicht. Es erscheint jedoch vernünftig, dass schwerere Menschen mehr Gewicht pro Trainingseinheit verlieren als dünnere. Daher wollte ich eine Kontrollvariable einfügen: CV: Anfangsstartgewicht. Das Anfangsgewicht wird jetzt jedoch BEIDE verwendet, um die …

38 regression repeated-measures least-squares change-scores

5

Zeitreihe 'Clustering' in R

Ich habe eine Reihe von Zeitreihendaten. Jede Serie deckt den gleichen Zeitraum ab, obwohl die tatsächlichen Daten in jeder Zeitreihe möglicherweise nicht alle genau aufeinander abgestimmt sind. Das heißt, wenn die Zeitreihe in eine 2D-Matrix eingelesen würde, würde dies ungefähr so aussehen: date T1 T2 T3 .... TN 1/1/01 100 …

38 r time-series clustering cointegration

9

Wie kann ich die Summe der Bernoulli-Zufallsvariablen effizient modellieren?

Ich modelliere eine Zufallsvariable ( ), die die Summe einiger ~ 15-40k unabhängiger Bernoulli-Zufallsvariablen ( ) mit jeweils unterschiedlicher Erfolgswahrscheinlichkeit ( ) ist. Formal ist wobei und \ Pr (X_i = 0) = 1-p_i .YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Ich bin daran interessiert, Anfragen wie Pr(Y<=k)Pr(Y<=k)\Pr(Y<=k) (wobei kkk angegeben ist) schnell zu beantworten …

38 r distributions binomial random-variable poisson-binomial

8

Wie können zufällige positiv-semidefinite Korrelationsmatrizen effizient generiert werden?

Ich möchte in der Lage sein, Korrelationsmatrizen mit positivem Semidefinit (PSD) effizient zu erzeugen. Meine Methode verlangsamt sich dramatisch, wenn ich die zu generierenden Matrizen vergrößere. Können Sie effiziente Lösungen vorschlagen? Wenn Sie Beispiele in Matlab kennen, wäre ich Ihnen sehr dankbar. Wie würden Sie beim Generieren einer PSD-Korrelationsmatrix die …

38 random-generation correlation-matrix

3

Unterschied zwischen zufälligen Wäldern und extrem zufälligen Bäumen

Ich habe verstanden, dass Random Forest und Extrem Randomized Trees sich dahingehend unterscheiden, dass die Aufteilung der Bäume im Random Forest deterministisch ist, wohingegen sie im Fall von Extrem Randomized Trees zufällig ist (genauer gesagt, die nächste Aufteilung ist die beste Aufteilung) unter zufälligen gleichmäßigen Aufteilungen in den ausgewählten Variablen …

38 machine-learning correlation references random-forest

2

ImageNet: Was ist die Top-1- und Top-5-Fehlerrate?

In ImageNet-Klassifizierungspapieren sind die Fehlerquoten Top 1 und Top 5 wichtige Maßeinheiten für den Erfolg einiger Lösungen. Doch wie hoch sind diese Fehlerquoten? In der ImageNet-Klassifikation mit Deep Convolutional Neural Networks von Krizhevsky et al. Jede Lösung, die auf einer einzelnen CNN basiert (Seite 7), hat keine Top-5-Fehlerraten, während die …

38 classification neural-networks error measurement-error image-processing

3

Würde PCA für boolesche (binäre) Datentypen funktionieren?

Ich möchte die Dimensionalität von Systemen höherer Ordnung reduzieren und den größten Teil der Kovarianz auf einem vorzugsweise zweidimensionalen oder eindimensionalen Feld erfassen. Ich verstehe, dass dies über die Hauptkomponentenanalyse erfolgen kann, und ich habe PCA in vielen Szenarien verwendet. Ich habe es jedoch nie mit booleschen Datentypen verwendet und …

38 pca data-visualization binary-data dimensionality-reduction correspondence-analysis

3

Wie funktioniert die Sattelpunktnäherung?

Wie funktioniert die Sattelpunktnäherung? Für was für ein Problem ist es gut? (Fühlen Sie sich frei, ein bestimmtes Beispiel oder Beispiele zur Veranschaulichung zu verwenden) Gibt es Nachteile, Schwierigkeiten, Dinge, auf die man achten muss, oder Fallen für die Unachtsamen?

38 distributions mathematical-statistics mgf saddlepoint-approximation partial-moments