Statistiken und Big Data binary-data

9

Messung von Entropie / Information / Mustern einer 2d-Binärmatrix

Ich möchte die Entropie / Informationsdichte / Musterähnlichkeit einer zweidimensionalen binären Matrix messen. Lassen Sie mich zur Verdeutlichung einige Bilder zeigen: Diese Anzeige sollte eine ziemlich hohe Entropie haben: EIN) Dies sollte eine mittlere Entropie haben: B) Diese Bilder sollten schließlich alle eine Entropie nahe Null haben: C) D) E) …

53 algorithms binary-data entropy pattern-recognition information

6

Binäre Klassifikation mit stark unausgeglichenen Klassen

Ich habe einen Datensatz in Form von (Features, Binärausgang 0 oder 1), aber 1 kommt ziemlich selten vor. Wenn ich also immer 0 vorhersage, erhalte ich eine Genauigkeit zwischen 70% und 90% (abhängig von den jeweiligen Daten, die ich betrachte) ). Die ML-Methoden geben mir ungefähr die gleiche Genauigkeit, und …

52 machine-learning classification binary-data unbalanced-classes

4

Einstufungswahrscheinlichkeitsschwelle

Ich habe eine Frage zur Klassifizierung im Allgemeinen. Sei f ein Klassifikator, der eine Menge von Wahrscheinlichkeiten mit bestimmten Daten D ausgibt. Normalerweise würde man sagen: Wenn P (c | D)> 0,5, ordnen wir eine Klasse 1 zu, andernfalls 0 (sei dies eine Binärzahl) Einstufung). Meine Frage ist, was ist, …

49 machine-learning classification binary-data threshold

3

Ist es sinnvoll, die Pearson- oder Spearman-Korrelation zwischen zwei Booleschen Vektoren zu berechnen?

Es gibt zwei Boolesche Vektoren, die nur 0 und 1 enthalten. Wenn ich die Pearson- oder Spearman-Korrelation berechne, sind sie sinnvoll oder vernünftig?

42 correlation binary-data pearson-r spearman-rho

3

Würde PCA für boolesche (binäre) Datentypen funktionieren?

Ich möchte die Dimensionalität von Systemen höherer Ordnung reduzieren und den größten Teil der Kovarianz auf einem vorzugsweise zweidimensionalen oder eindimensionalen Feld erfassen. Ich verstehe, dass dies über die Hauptkomponentenanalyse erfolgen kann, und ich habe PCA in vielen Szenarien verwendet. Ich habe es jedoch nie mit booleschen Datentypen verwendet und …

38 pca data-visualization binary-data dimensionality-reduction correspondence-analysis

1

Durchführung von Hauptkomponentenanalysen oder Faktoranalysen für binäre Daten

Ich habe einen Datensatz mit einer großen Anzahl von Ja / Nein-Antworten. Kann ich für diese Art von Daten Hauptkomponenten (PCA) oder andere Datenreduktionsanalysen (z. B. Faktoranalyse) verwenden? Bitte teilen Sie mir mit, wie ich dies mit SPSS mache.

29 spss categorical-data pca factor-analysis binary-data

1

Gibt es eine Faktoranalyse oder eine PCA für ordinale oder binäre Daten?

Ich habe die Hauptkomponentenanalyse (PCA), Exploratory Factor Analysis (EFA) und Confirmatory Factor Analysis (CFA) abgeschlossen und Daten mit einer Likert-Skala (5-Level-Antworten: keine, ein wenig, einige, ..) als kontinuierlich behandelt Variable. Dann wiederholte ich mit Lavaan den CFA, indem ich die Variablen als kategorial definierte. Ich würde gerne wissen, welche Arten …

28 pca factor-analysis ordinal-data binary-data likert

2

Wie werden beim Clustering sowohl binäre als auch kontinuierliche Variablen zusammen verwendet?

Ich muss in k-means binäre Variablen (Werte 0 & 1) verwenden. K-means arbeitet aber nur mit stetigen Variablen. Ich weiß, dass einige Leute diese binären Variablen immer noch in k-means verwenden, ohne die Tatsache zu ignorieren, dass k-means nur für kontinuierliche Variablen ausgelegt ist. Das ist für mich inakzeptabel. Fragen: …

27 r clustering binary-data k-means mixed-type-data

7

Warum wird beispielsweise das Geschlecht in der Regel mit 0/1 anstatt mit 1/2 codiert?

Ich verstehe die Logik der Codierung für die Datenanalyse. Meine Frage unten ist die Verwendung eines bestimmten Codes. Gibt es einen Grund, warum das Geschlecht häufig als 0 für weiblich und 1 für männlich kodiert wird? Warum wird diese Kodierung als "Standard" angesehen? Vergleichen Sie dies mit Female = 1 …

25 data-transformation binary-data categorical-encoding units

5

Sollten Sie jemals binäre Variablen standardisieren?

Ich habe einen Datensatz mit einer Reihe von Funktionen. Einige von ihnen sind binär aktiv oder abgefeuert, 0 = inaktiv oder ruhend), und der Rest ist ein reeller Wert, z . B. 4564.342 .(1=(1=(1=0=0=0=4564.3424564.3424564.342 Ich möchte diese Daten einem maschinellen Lernalgorithmus zuführen , damit ich alle wirklich wertvollen Funktionen -bewerten …

25 machine-learning normalization binary-data

3

Visualisierung der Kalibrierung der vorhergesagten Wahrscheinlichkeit eines Modells

Angenommen, ich habe ein Vorhersagemodell, das für jede Klasse eine Wahrscheinlichkeit ergibt. Jetzt erkenne ich, dass es viele Möglichkeiten gibt, ein solches Modell zu bewerten, wenn ich diese Wahrscheinlichkeiten für die Klassifizierung verwenden möchte (Genauigkeit, Erinnerung usw.). Ich erkenne auch, dass eine ROC-Kurve und die Fläche darunter verwendet werden können, …

23 data-visualization classification predictive-models binary-data calibration

3

Generieren Sie zufällig korrelierte Daten zwischen einer binären und einer kontinuierlichen Variablen

Ich möchte zwei Variablen erzeugen. Eines ist die binäre Ergebnisvariable (sagen wir Erfolg / Misserfolg) und das andere ist das Alter in Jahren. Ich möchte, dass das Alter positiv mit dem Erfolg korreliert. Zum Beispiel sollte es mehr Erfolge in den höheren Alterssegmenten geben als in den niedrigeren. Idealerweise sollte …

23 correlation random-variable random-generation binary-data

2

Clustering einer binären Matrix

Ich habe eine halbkleine Matrix mit binären Features der Dimension 250k x 100. Jede Zeile ist ein Benutzer, und die Spalten sind binäre "Tags" für ein bestimmtes Benutzerverhalten, z. B. "likes_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 …

22 r clustering binary-data

2

Ähnlichkeitskoeffizienten für Binärdaten: Warum Jaccard anstelle von Russell und Rao?

Aus der Encyclopedia of Statistical Sciences geht hervor , dass wir bei dichotomen (binär: 1 = vorhanden; 0 = nicht vorhanden) Attributen (Variablen) eine Kontingenztabelle für zwei beliebige Objekte i und j einer Stichprobe bilden können:ppp j 1 0 ------- 1 | a | b | i ------- 0 | …

20 binary-data similarities association-measure

4

Die Maschinengenauigkeit zur Steigerung des Gradienten nimmt mit zunehmender Anzahl von Iterationen ab

Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

Als «binary-data» getaggte Fragen