Statistiken und Big Data binary-data

1

Was ist die Intuition hinter austauschbaren Proben unter der Nullhypothese?

Permutationstests (auch Randomisierungstest, Re-Randomisierungstest oder exakter Test genannt) sind sehr nützlich und nützlich, wenn die zum Beispiel erforderliche Annahme einer Normalverteilung t-testnicht erfüllt ist und wenn die Transformation der Werte durch Rangfolge der Werte erfolgt Ein nicht parametrischer Test Mann-Whitney-U-testwürde dazu führen, dass mehr Informationen verloren gehen. Eine einzige Annahme, …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

5

Wie mache ich eine Textklassifizierung in einer Klasse?

Ich muss mich mit einem Textklassifizierungsproblem befassen. Ein Webcrawler durchsucht Webseiten einer bestimmten Domain und ich möchte für jede Webseite herausfinden, ob sie nur zu einer bestimmten Klasse gehört oder nicht. Das heißt, wenn ich diese Klasse Positiv nenne , gehört jede gecrawlte Webseite entweder zur Klasse Positiv oder zur …

14 classification text-mining naive-bayes binary-data

1

Auf der Suche nach einem Schritt durch ein Beispiel einer Faktoranalyse für dichotome Daten (binäre Variablen) mit R

Ich habe dichotome Daten, nur binäre Variablen, und mein Chef hat mich gebeten, eine Faktorenanalyse unter Verwendung der tetrachorischen Korrelationsmatrix durchzuführen. Ich habe mir zuvor selbst beigebracht, wie man verschiedene Analysen basierend auf den Beispielen hier und auf der Statistik-Site der UCLA und ähnlichen Sites durchführt, aber ich kann anscheinend …

14 r factor-analysis psychometrics binary-data

1

Varianzaufteilung und longitudinale Änderungen in Korrelation mit binären Daten

Ich analysiere Daten zu 300.000 Schülern in 175 Schulen mit einem logistischen linearen Mischeffektmodell (zufällige Abschnitte). Jeder Schüler kommt genau einmal vor und die Daten erstrecken sich über 6 Jahre. Wie teile ich die Varianz zwischen der Schul- und der Schülerebene ähnlich wie beim VPC / ICC für kontinuierliche Ergebnisse …

14 mixed-model binary-data

3

Was bewirkt die Dichotomisierung von Variablen?

Welche Informationen gehen bei der Dichotomisierung von Variablen verloren? Wie hilft eine Dichotomisierung bei den Analysen?

14 regression data-transformation binary-data

2

Gibt es ein R-Paket für zeitkontinuierliche longitudinale Binärantworten?

Das bildPaket scheint ein hervorragendes Paket für serielle Binärantworten zu sein. Aber es ist für diskrete Zeit. Ich möchte eine glatte Funktion der Zeit für die Wahrscheinlichkeitsverhältnisverbindung der aktuellen Antwort Y mit Binärantworten, die zu früheren Zeiten gemessen wurden, oder zumindest eine Markov-Version erster Ordnung davon spezifizieren. Ich glaube, das …

13 r repeated-measures binary-data panel-data

1

LARS gegen Koordinatenabstieg für das Lasso

Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind jedoch auch andere Erkenntnisse erwünscht. edit: Seitdem ich die Frage …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Wie wählt man die optimale Behälterbreite beim Kalibrieren von Wahrscheinlichkeitsmodellen?

Hintergrund: Hier gibt es einige gute Fragen und Antworten zur Kalibrierung von Modellen, die die Wahrscheinlichkeiten eines eintretenden Ergebnisses vorhersagen. Beispielsweise Brier-Score und seine Zerlegung in Auflösung, Unsicherheit und Zuverlässigkeit . Kalibrierungsdiagramme und isotonische Regression . Diese Methoden erfordern häufig die Verwendung einer Binning-Methode für die vorhergesagten Wahrscheinlichkeiten, sodass das …

12 probability predictive-models binary-data calibration scoring-rules

4

Prognose von binären Zeitreihen

Ich habe eine binäre Zeitreihe mit 1, wenn sich das Auto nicht bewegt, und 0, wenn sich das Auto bewegt. Ich möchte eine Prognose für einen Zeithorizont von bis zu 36 Stunden im Voraus und für jede Stunde erstellen. Mein erster Ansatz war die Verwendung eines Naive Bayes mit den …

12 r time-series forecasting binary-data

2

Optimierung von auc vs logloss bei binären Klassifizierungsproblemen

Ich führe eine binäre Klassifizierungsaufgabe durch, bei der die Ergebniswahrscheinlichkeit angemessen niedrig ist (ca. 3%). Ich versuche zu entscheiden, ob ich durch AUC oder Protokollverlust optimieren möchte. Soweit ich verstanden habe, maximiert AUC die Fähigkeit des Modells, zwischen Klassen zu unterscheiden, während der Logloss die Divergenz zwischen tatsächlichen und geschätzten …

12 classification binary-data auc log-loss

2

Probit zweistufige kleinste Quadrate (2SLS)

Mir wurde gesagt, dass es möglich ist, eine zweistufige IV-Regression durchzuführen, bei der die erste Stufe ein Probit und die zweite Stufe eine OLS ist. Ist es möglich, 2SLS zu verwenden, wenn die erste Stufe ein Probit ist, die zweite Stufe jedoch ein Probit / Poisson-Modell?

12 binary-data instrumental-variables probit 2sls

3

Wie kann ich testen, ob mein Clustering von Binärdaten signifikant ist?

Ich mache Warenkorbanalysen. Mein Datensatz besteht aus Transaktionsvektoren mit den Artikeln, die die Produkte gekauft haben. Wenn ich k-means auf die Transaktionen anwende, erhalte ich immer ein Ergebnis. Eine Zufallsmatrix würde wahrscheinlich auch einige Cluster zeigen. Gibt es eine Möglichkeit zu testen, ob die Clusterbildung, die ich finde, signifikant ist, …

12 clustering statistical-significance binary-data

4

Logistische Regression und Wendepunkt

Wir haben Daten mit einem binären Ergebnis und einigen Kovariaten. Ich habe die Daten mithilfe der logistischen Regression modelliert. Nur eine einfache Analyse, nichts Außergewöhnliches. Die endgültige Ausgabe soll eine Dosis-Wirkungs-Kurve sein, in der wir zeigen, wie sich die Wahrscheinlichkeit für eine bestimmte Kovariate ändert. Etwas wie das: Wir erhielten …

11 regression logistic generalized-linear-model binary-data

1

R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?

Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

Welchen Algorithmus sollte ich verwenden, um einen großen binären Datensatz in wenige Kategorien zu gruppieren?

Ich habe eine große (650K Zeilen * 62 Spalten) Matrix von Binärdaten (nur 0-1 Einträge). Die Matrix ist meist spärlich: ca. 8% sind gefüllt. Ich möchte es in 5 Gruppen gruppieren - sagen wir von 1 bis 5. Ich habe es mit hierarchischem Clustering versucht und es konnte die Größe …

11 clustering dataset k-means binary-data

Als «binary-data» getaggte Fragen