Als «binary-data» getaggte Fragen

Eine binäre Variable nimmt einen von zwei Werten an, die normalerweise als "0" und "1" codiert sind.

9
Messung von Entropie / Information / Mustern einer 2d-Binärmatrix
Ich möchte die Entropie / Informationsdichte / Musterähnlichkeit einer zweidimensionalen binären Matrix messen. Lassen Sie mich zur Verdeutlichung einige Bilder zeigen: Diese Anzeige sollte eine ziemlich hohe Entropie haben: EIN) Dies sollte eine mittlere Entropie haben: B) Diese Bilder sollten schließlich alle eine Entropie nahe Null haben: C) D) E) …




3
Würde PCA für boolesche (binäre) Datentypen funktionieren?
Ich möchte die Dimensionalität von Systemen höherer Ordnung reduzieren und den größten Teil der Kovarianz auf einem vorzugsweise zweidimensionalen oder eindimensionalen Feld erfassen. Ich verstehe, dass dies über die Hauptkomponentenanalyse erfolgen kann, und ich habe PCA in vielen Szenarien verwendet. Ich habe es jedoch nie mit booleschen Datentypen verwendet und …


1
Gibt es eine Faktoranalyse oder eine PCA für ordinale oder binäre Daten?
Ich habe die Hauptkomponentenanalyse (PCA), Exploratory Factor Analysis (EFA) und Confirmatory Factor Analysis (CFA) abgeschlossen und Daten mit einer Likert-Skala (5-Level-Antworten: keine, ein wenig, einige, ..) als kontinuierlich behandelt Variable. Dann wiederholte ich mit Lavaan den CFA, indem ich die Variablen als kategorial definierte. Ich würde gerne wissen, welche Arten …

2
Wie werden beim Clustering sowohl binäre als auch kontinuierliche Variablen zusammen verwendet?
Ich muss in k-means binäre Variablen (Werte 0 & 1) verwenden. K-means arbeitet aber nur mit stetigen Variablen. Ich weiß, dass einige Leute diese binären Variablen immer noch in k-means verwenden, ohne die Tatsache zu ignorieren, dass k-means nur für kontinuierliche Variablen ausgelegt ist. Das ist für mich inakzeptabel. Fragen: …


5
Sollten Sie jemals binäre Variablen standardisieren?
Ich habe einen Datensatz mit einer Reihe von Funktionen. Einige von ihnen sind binär aktiv oder abgefeuert, 0 = inaktiv oder ruhend), und der Rest ist ein reeller Wert, z . B. 4564.342 .(1=(1=(1=0=0=0=4564.3424564.3424564.342 Ich möchte diese Daten einem maschinellen Lernalgorithmus zuführen , damit ich alle wirklich wertvollen Funktionen -bewerten …

3
Visualisierung der Kalibrierung der vorhergesagten Wahrscheinlichkeit eines Modells
Angenommen, ich habe ein Vorhersagemodell, das für jede Klasse eine Wahrscheinlichkeit ergibt. Jetzt erkenne ich, dass es viele Möglichkeiten gibt, ein solches Modell zu bewerten, wenn ich diese Wahrscheinlichkeiten für die Klassifizierung verwenden möchte (Genauigkeit, Erinnerung usw.). Ich erkenne auch, dass eine ROC-Kurve und die Fläche darunter verwendet werden können, …

3
Generieren Sie zufällig korrelierte Daten zwischen einer binären und einer kontinuierlichen Variablen
Ich möchte zwei Variablen erzeugen. Eines ist die binäre Ergebnisvariable (sagen wir Erfolg / Misserfolg) und das andere ist das Alter in Jahren. Ich möchte, dass das Alter positiv mit dem Erfolg korreliert. Zum Beispiel sollte es mehr Erfolge in den höheren Alterssegmenten geben als in den niedrigeren. Idealerweise sollte …

2
Clustering einer binären Matrix
Ich habe eine halbkleine Matrix mit binären Features der Dimension 250k x 100. Jede Zeile ist ein Benutzer, und die Spalten sind binäre "Tags" für ein bestimmtes Benutzerverhalten, z. B. "likes_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 …


4
Die Maschinengenauigkeit zur Steigerung des Gradienten nimmt mit zunehmender Anzahl von Iterationen ab
Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Was ist die Intuition hinter austauschbaren Proben unter der Nullhypothese?
Permutationstests (auch Randomisierungstest, Re-Randomisierungstest oder exakter Test genannt) sind sehr nützlich und nützlich, wenn die zum Beispiel erforderliche Annahme einer Normalverteilung t-testnicht erfüllt ist und wenn die Transformation der Werte durch Rangfolge der Werte erfolgt Ein nicht parametrischer Test Mann-Whitney-U-testwürde dazu führen, dass mehr Informationen verloren gehen. Eine einzige Annahme, …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 


1
Auf der Suche nach einem Schritt durch ein Beispiel einer Faktoranalyse für dichotome Daten (binäre Variablen) mit R
Ich habe dichotome Daten, nur binäre Variablen, und mein Chef hat mich gebeten, eine Faktorenanalyse unter Verwendung der tetrachorischen Korrelationsmatrix durchzuführen. Ich habe mir zuvor selbst beigebracht, wie man verschiedene Analysen basierend auf den Beispielen hier und auf der Statistik-Site der UCLA und ähnlichen Sites durchführt, aber ich kann anscheinend …



2
Gibt es ein R-Paket für zeitkontinuierliche longitudinale Binärantworten?
Das bildPaket scheint ein hervorragendes Paket für serielle Binärantworten zu sein. Aber es ist für diskrete Zeit. Ich möchte eine glatte Funktion der Zeit für die Wahrscheinlichkeitsverhältnisverbindung der aktuellen Antwort Y mit Binärantworten, die zu früheren Zeiten gemessen wurden, oder zumindest eine Markov-Version erster Ordnung davon spezifizieren. Ich glaube, das …

1
LARS gegen Koordinatenabstieg für das Lasso
Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind jedoch auch andere Erkenntnisse erwünscht. edit: Seitdem ich die Frage …

2
Wie wählt man die optimale Behälterbreite beim Kalibrieren von Wahrscheinlichkeitsmodellen?
Hintergrund: Hier gibt es einige gute Fragen und Antworten zur Kalibrierung von Modellen, die die Wahrscheinlichkeiten eines eintretenden Ergebnisses vorhersagen. Beispielsweise Brier-Score und seine Zerlegung in Auflösung, Unsicherheit und Zuverlässigkeit . Kalibrierungsdiagramme und isotonische Regression . Diese Methoden erfordern häufig die Verwendung einer Binning-Methode für die vorhergesagten Wahrscheinlichkeiten, sodass das …

4
Prognose von binären Zeitreihen
Ich habe eine binäre Zeitreihe mit 1, wenn sich das Auto nicht bewegt, und 0, wenn sich das Auto bewegt. Ich möchte eine Prognose für einen Zeithorizont von bis zu 36 Stunden im Voraus und für jede Stunde erstellen. Mein erster Ansatz war die Verwendung eines Naive Bayes mit den …

2
Optimierung von auc vs logloss bei binären Klassifizierungsproblemen
Ich führe eine binäre Klassifizierungsaufgabe durch, bei der die Ergebniswahrscheinlichkeit angemessen niedrig ist (ca. 3%). Ich versuche zu entscheiden, ob ich durch AUC oder Protokollverlust optimieren möchte. Soweit ich verstanden habe, maximiert AUC die Fähigkeit des Modells, zwischen Klassen zu unterscheiden, während der Logloss die Divergenz zwischen tatsächlichen und geschätzten …


3
Wie kann ich testen, ob mein Clustering von Binärdaten signifikant ist?
Ich mache Warenkorbanalysen. Mein Datensatz besteht aus Transaktionsvektoren mit den Artikeln, die die Produkte gekauft haben. Wenn ich k-means auf die Transaktionen anwende, erhalte ich immer ein Ergebnis. Eine Zufallsmatrix würde wahrscheinlich auch einige Cluster zeigen. Gibt es eine Möglichkeit zu testen, ob die Clusterbildung, die ich finde, signifikant ist, …

4
Logistische Regression und Wendepunkt
Wir haben Daten mit einem binären Ergebnis und einigen Kovariaten. Ich habe die Daten mithilfe der logistischen Regression modelliert. Nur eine einfache Analyse, nichts Außergewöhnliches. Die endgültige Ausgabe soll eine Dosis-Wirkungs-Kurve sein, in der wir zeigen, wie sich die Wahrscheinlichkeit für eine bestimmte Kovariate ändert. Etwas wie das: Wir erhielten …

1
R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?
Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.