Ich möchte die Entropie / Informationsdichte / Musterähnlichkeit einer zweidimensionalen binären Matrix messen. Lassen Sie mich zur Verdeutlichung einige Bilder zeigen: Diese Anzeige sollte eine ziemlich hohe Entropie haben: EIN) Dies sollte eine mittlere Entropie haben: B) Diese Bilder sollten schließlich alle eine Entropie nahe Null haben: C) D) E) …
Ich habe einen Datensatz in Form von (Features, Binärausgang 0 oder 1), aber 1 kommt ziemlich selten vor. Wenn ich also immer 0 vorhersage, erhalte ich eine Genauigkeit zwischen 70% und 90% (abhängig von den jeweiligen Daten, die ich betrachte) ). Die ML-Methoden geben mir ungefähr die gleiche Genauigkeit, und …
Ich habe eine Frage zur Klassifizierung im Allgemeinen. Sei f ein Klassifikator, der eine Menge von Wahrscheinlichkeiten mit bestimmten Daten D ausgibt. Normalerweise würde man sagen: Wenn P (c | D)> 0,5, ordnen wir eine Klasse 1 zu, andernfalls 0 (sei dies eine Binärzahl) Einstufung). Meine Frage ist, was ist, …
Es gibt zwei Boolesche Vektoren, die nur 0 und 1 enthalten. Wenn ich die Pearson- oder Spearman-Korrelation berechne, sind sie sinnvoll oder vernünftig?
Ich möchte die Dimensionalität von Systemen höherer Ordnung reduzieren und den größten Teil der Kovarianz auf einem vorzugsweise zweidimensionalen oder eindimensionalen Feld erfassen. Ich verstehe, dass dies über die Hauptkomponentenanalyse erfolgen kann, und ich habe PCA in vielen Szenarien verwendet. Ich habe es jedoch nie mit booleschen Datentypen verwendet und …
Ich habe einen Datensatz mit einer großen Anzahl von Ja / Nein-Antworten. Kann ich für diese Art von Daten Hauptkomponenten (PCA) oder andere Datenreduktionsanalysen (z. B. Faktoranalyse) verwenden? Bitte teilen Sie mir mit, wie ich dies mit SPSS mache.
Ich habe die Hauptkomponentenanalyse (PCA), Exploratory Factor Analysis (EFA) und Confirmatory Factor Analysis (CFA) abgeschlossen und Daten mit einer Likert-Skala (5-Level-Antworten: keine, ein wenig, einige, ..) als kontinuierlich behandelt Variable. Dann wiederholte ich mit Lavaan den CFA, indem ich die Variablen als kategorial definierte. Ich würde gerne wissen, welche Arten …
Ich muss in k-means binäre Variablen (Werte 0 & 1) verwenden. K-means arbeitet aber nur mit stetigen Variablen. Ich weiß, dass einige Leute diese binären Variablen immer noch in k-means verwenden, ohne die Tatsache zu ignorieren, dass k-means nur für kontinuierliche Variablen ausgelegt ist. Das ist für mich inakzeptabel. Fragen: …
Ich verstehe die Logik der Codierung für die Datenanalyse. Meine Frage unten ist die Verwendung eines bestimmten Codes. Gibt es einen Grund, warum das Geschlecht häufig als 0 für weiblich und 1 für männlich kodiert wird? Warum wird diese Kodierung als "Standard" angesehen? Vergleichen Sie dies mit Female = 1 …
Ich habe einen Datensatz mit einer Reihe von Funktionen. Einige von ihnen sind binär aktiv oder abgefeuert, 0 = inaktiv oder ruhend), und der Rest ist ein reeller Wert, z . B. 4564.342 .(1=(1=(1=0=0=0=4564.3424564.3424564.342 Ich möchte diese Daten einem maschinellen Lernalgorithmus zuführen , damit ich alle wirklich wertvollen Funktionen -bewerten …
Angenommen, ich habe ein Vorhersagemodell, das für jede Klasse eine Wahrscheinlichkeit ergibt. Jetzt erkenne ich, dass es viele Möglichkeiten gibt, ein solches Modell zu bewerten, wenn ich diese Wahrscheinlichkeiten für die Klassifizierung verwenden möchte (Genauigkeit, Erinnerung usw.). Ich erkenne auch, dass eine ROC-Kurve und die Fläche darunter verwendet werden können, …
Ich möchte zwei Variablen erzeugen. Eines ist die binäre Ergebnisvariable (sagen wir Erfolg / Misserfolg) und das andere ist das Alter in Jahren. Ich möchte, dass das Alter positiv mit dem Erfolg korreliert. Zum Beispiel sollte es mehr Erfolge in den höheren Alterssegmenten geben als in den niedrigeren. Idealerweise sollte …
Ich habe eine halbkleine Matrix mit binären Features der Dimension 250k x 100. Jede Zeile ist ein Benutzer, und die Spalten sind binäre "Tags" für ein bestimmtes Benutzerverhalten, z. B. "likes_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 …
Aus der Encyclopedia of Statistical Sciences geht hervor , dass wir bei dichotomen (binär: 1 = vorhanden; 0 = nicht vorhanden) Attributen (Variablen) eine Kontingenztabelle für zwei beliebige Objekte i und j einer Stichprobe bilden können:ppp j 1 0 ------- 1 | a | b | i ------- 0 | …
Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting …
Permutationstests (auch Randomisierungstest, Re-Randomisierungstest oder exakter Test genannt) sind sehr nützlich und nützlich, wenn die zum Beispiel erforderliche Annahme einer Normalverteilung t-testnicht erfüllt ist und wenn die Transformation der Werte durch Rangfolge der Werte erfolgt Ein nicht parametrischer Test Mann-Whitney-U-testwürde dazu führen, dass mehr Informationen verloren gehen. Eine einzige Annahme, …
Ich muss mich mit einem Textklassifizierungsproblem befassen. Ein Webcrawler durchsucht Webseiten einer bestimmten Domain und ich möchte für jede Webseite herausfinden, ob sie nur zu einer bestimmten Klasse gehört oder nicht. Das heißt, wenn ich diese Klasse Positiv nenne , gehört jede gecrawlte Webseite entweder zur Klasse Positiv oder zur …
Ich habe dichotome Daten, nur binäre Variablen, und mein Chef hat mich gebeten, eine Faktorenanalyse unter Verwendung der tetrachorischen Korrelationsmatrix durchzuführen. Ich habe mir zuvor selbst beigebracht, wie man verschiedene Analysen basierend auf den Beispielen hier und auf der Statistik-Site der UCLA und ähnlichen Sites durchführt, aber ich kann anscheinend …
Ich analysiere Daten zu 300.000 Schülern in 175 Schulen mit einem logistischen linearen Mischeffektmodell (zufällige Abschnitte). Jeder Schüler kommt genau einmal vor und die Daten erstrecken sich über 6 Jahre. Wie teile ich die Varianz zwischen der Schul- und der Schülerebene ähnlich wie beim VPC / ICC für kontinuierliche Ergebnisse …
Das bildPaket scheint ein hervorragendes Paket für serielle Binärantworten zu sein. Aber es ist für diskrete Zeit. Ich möchte eine glatte Funktion der Zeit für die Wahrscheinlichkeitsverhältnisverbindung der aktuellen Antwort Y mit Binärantworten, die zu früheren Zeiten gemessen wurden, oder zumindest eine Markov-Version erster Ordnung davon spezifizieren. Ich glaube, das …
Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind jedoch auch andere Erkenntnisse erwünscht. edit: Seitdem ich die Frage …
Hintergrund: Hier gibt es einige gute Fragen und Antworten zur Kalibrierung von Modellen, die die Wahrscheinlichkeiten eines eintretenden Ergebnisses vorhersagen. Beispielsweise Brier-Score und seine Zerlegung in Auflösung, Unsicherheit und Zuverlässigkeit . Kalibrierungsdiagramme und isotonische Regression . Diese Methoden erfordern häufig die Verwendung einer Binning-Methode für die vorhergesagten Wahrscheinlichkeiten, sodass das …
Ich habe eine binäre Zeitreihe mit 1, wenn sich das Auto nicht bewegt, und 0, wenn sich das Auto bewegt. Ich möchte eine Prognose für einen Zeithorizont von bis zu 36 Stunden im Voraus und für jede Stunde erstellen. Mein erster Ansatz war die Verwendung eines Naive Bayes mit den …
Ich führe eine binäre Klassifizierungsaufgabe durch, bei der die Ergebniswahrscheinlichkeit angemessen niedrig ist (ca. 3%). Ich versuche zu entscheiden, ob ich durch AUC oder Protokollverlust optimieren möchte. Soweit ich verstanden habe, maximiert AUC die Fähigkeit des Modells, zwischen Klassen zu unterscheiden, während der Logloss die Divergenz zwischen tatsächlichen und geschätzten …
Mir wurde gesagt, dass es möglich ist, eine zweistufige IV-Regression durchzuführen, bei der die erste Stufe ein Probit und die zweite Stufe eine OLS ist. Ist es möglich, 2SLS zu verwenden, wenn die erste Stufe ein Probit ist, die zweite Stufe jedoch ein Probit / Poisson-Modell?
Ich mache Warenkorbanalysen. Mein Datensatz besteht aus Transaktionsvektoren mit den Artikeln, die die Produkte gekauft haben. Wenn ich k-means auf die Transaktionen anwende, erhalte ich immer ein Ergebnis. Eine Zufallsmatrix würde wahrscheinlich auch einige Cluster zeigen. Gibt es eine Möglichkeit zu testen, ob die Clusterbildung, die ich finde, signifikant ist, …
Wir haben Daten mit einem binären Ergebnis und einigen Kovariaten. Ich habe die Daten mithilfe der logistischen Regression modelliert. Nur eine einfache Analyse, nichts Außergewöhnliches. Die endgültige Ausgabe soll eine Dosis-Wirkungs-Kurve sein, in der wir zeigen, wie sich die Wahrscheinlichkeit für eine bestimmte Kovariate ändert. Etwas wie das: Wir erhielten …
Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …
Ich habe eine große (650K Zeilen * 62 Spalten) Matrix von Binärdaten (nur 0-1 Einträge). Die Matrix ist meist spärlich: ca. 8% sind gefüllt. Ich möchte es in 5 Gruppen gruppieren - sagen wir von 1 bis 5. Ich habe es mit hierarchischem Clustering versucht und es konnte die Größe …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.