Statistiken und Big Data classification

1

Ich studiere 'Einführung in das statistische Lernen' von James, Witten, Hastie, Tibshirani. Auf Seite 139 ihres Buches begannen sie mit der Einführung des Bayes-Theorems . ist keine mathematische Konstante, sondern bezeichnet die vorherige Wahrscheinlichkeit. In dieser Gleichung ist nichts seltsam. πpk(X)=P(Y=k|X=x)=πkfk(x)∑kl=1πlfl(x)pk(X)=P(Y=k|X=x)=πkfk(x)∑l=1kπlfl(x)p_k(X)=P(Y=k|X=x) = \dfrac{\pi_kf_k(x)}{\sum_{l=1}^k \pi_l f_l(x)}ππ\pi Das Buch behauptet, dass es …

9 self-study classification

1

Was ist der Unterschied zwischen "Goldstandard" und "Grundwahrheit"?

Was ist der Unterschied zwischen "Goldstandard" und "Grundwahrheit"? Die beiden Wiki-Artikel (dh Goldstandard und Grundwahrheit ) beziehen beide Konzepte in Bezug auf Modellgenauigkeit / -genauigkeit miteinander in Beziehung. Das ist eine Möglichkeit. Ich habe aber auch festgestellt, dass diese Konzepte synonym verwendet werden, wenn es um beschriftete Datensätze geht: In …

9 classification terminology

2

Reproduzieren Sie das Projektionsdiagramm der linearen Diskriminanzanalyse

Ich habe Probleme mit Projektionspunkten in der linearen Diskriminanzanalyse (LDA). Viele Bücher über multivariate statistische Methoden veranschaulichen die Idee der LDA anhand der folgenden Abbildung. Die Problembeschreibung lautet wie folgt. Zuerst müssen wir die Entscheidungsgrenze zeichnen, eine senkrechte Linie hinzufügen und dann Projektionen von Datenpunkten darauf zeichnen. Ich frage mich, …

9 r machine-learning classification discriminant-analysis

2

Sehr unausgeglichener Testdatensatz und ausgewogene Trainingsdaten in der Klassifizierung

Ich habe ein Trainingsset mit ungefähr 3000 positiven und 3000 negativen Instanzen. Aber mein Testdatensatz ist ziemlich unausgeglichen. Der positive Satz hat nur 50 Instanzen und der negative 1500 Instanzen. Dies führt dazu, dass die Genauigkeit sehr gering ist. Gibt es Ansätze zur Lösung dieses Problems? Ich benutze SVM, um …

9 machine-learning classification data-mining svm

2

SVM-Vertrauen nach Entfernung von der Hyperlinie

Für einen probabilistischen Mehrklassenklassifikator können wir Wahrscheinlichkeiten der Zugehörigkeit eines neuen Punktes zu jeder Klasse y_i erhalten ; Im Fall von 3 Klassen nehmen wir an, dass wir P (y_a | x)> P (y_b | x)> P (y_c | x) erhalten , daher ist die wahrscheinlichste Klasse von x y_a …

9 probability classification svm unsupervised-learning uncertainty

1

Techniken zum inkrementellen Online-Lernen von Klassifikatoren für Stream-Daten

Welche Techniken könnten gut sein, um diesem abstrakten Problem zu begegnen? Sie haben einen Datenstrom eines kontinuierlichen Signals als einen von einem physischen Sensor. Dieses Signal hat reale (diskretisierte) Werte, kein Attribut; Suchtmerkmale (z. B. Leistung, Autokorrelation, Entropie) können extrahiert werden. Sie können einem Fenster des Signals eine Bezeichnung aus …

9 machine-learning classification signal-processing online

1

Kategorisierungs- / Segmentierungstechniken

Lassen Sie mich zunächst sagen, dass ich hier etwas überfordert bin. Wenn diese Frage also neu formuliert oder als Duplikat geschlossen werden muss, lassen Sie es mich bitte wissen. Es kann einfach sein, dass ich nicht das richtige Vokabular habe, um meine Frage auszudrücken. Ich arbeite an einer Bildverarbeitungsaufgabe, bei …

9 classification

2

Scharnierverlust mit One-vs-All-Klassifikator

Ich betrachte derzeit die uneingeschränkte Urform des Ein-gegen-Alles-Klassifikators ∑i = 1N.ich∑k = 1 ,k ≠ yichN.K.L ( 1 + wk⋅ xich- wyich⋅ xich)∑ich=1N.ich∑k=1,k≠yichN.K.L.(1+wk⋅xich- -wyich⋅xich)\sum\limits_{i=1}^{N_I} \sum\limits_{k=1,\atop k \neq y_i}^{N_K} L(1+ \mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i}) wo N.ichN.ichN_I ist die Anzahl der Instanzen, ist die Anzahl der Klassen, ist die Anzahl der Merkmale, ist eine Datenmatrix, …

9 classification loss-functions

1

Wie werden zufällige Wälder und extrem zufällige Bäume unterschiedlich aufgeteilt?

Für zufällige Gesamtstrukturen teilen wir den Knoten nach Gini-Verunreinigung oder Entropie für eine Reihe von Merkmalen auf. Mit dem RandomForestClassifier in sklearn können wir wählen, ob wir das Gini-Kriterium oder das Entropy-Kriterium verwenden möchten. Was ich jedoch über Extra-Trees Classifier gelesen habe, ist ein zufälliger Wert für die Aufteilung (ich …

9 classification python random-forest scikit-learn

1

SVM-Kostenfunktion: alte und neue Definitionen

Ich versuche, verschiedene Definitionen der SVM-Kosten-Verlust-Funktion mit weichen Margen in ursprünglicher Form miteinander in Einklang zu bringen. Es gibt einen "max ()" - Operator, den ich nicht verstehe. Ich habe vor vielen Jahren aus dem Lehrbuch " Introduction to Data Mining " von Tan, Steinbach und Kumar (2006) etwas über …

9 machine-learning classification svm data-mining loss-functions

2

Trainingsfehler im KNN-Klassifikator bei K = 1

Ich habe diese Frage in einem Quiz erhalten und gefragt, was der Trainingsfehler für einen KNN-Klassifikator sein wird, wenn K = 1 ist. Was bedeutet Training für einen KNN-Klassifikator? Mein Verständnis des KNN-Klassifikators war, dass er den gesamten Datensatz berücksichtigt und jeder neuen Beobachtung den Wert der Mehrheit der nächsten …

8 classification supervised-learning k-nearest-neighbour

4

Wie kann man Lasso interpretieren, das alle Koeffizienten auf 0 verkleinert?

Ich habe einen Datensatz mit 338 Prädiktoren und 570 Instanzen (kann leider nicht hochgeladen werden), auf denen ich das Lasso verwende, um die Funktionsauswahl durchzuführen. Insbesondere verwende ich die cv.glmnetFunktion glmnetwie folgt: Dabei mydata_matrixhandelt es sich um eine 570 x 339-Binärmatrix und die Ausgabe ist auch binär: library(glmnet) x_dat <- …

8 r classification lasso glmnet

4

Warum ist eine lineare Trennbarkeit in SVM wünschenswert?

Bezogen auf das obige Bild kann ein Kreis die beiden Klassen deutlich trennen (linkes Bild). Warum dann so viel Mühe auf sich nehmen, um es einer Funktion zuzuordnen, damit es linear trennbar ist (rechtes Bild)? Kann jemand bitte erklären? Ich konnte wirklich nichts im Web oder in Youtube-Vorträgen über das …

8 machine-learning classification svm separation

1

Codieren von kategorialen Merkmalen mit hoher Kardinalität (viele Kategorien), wenn sich die Merkmale in Bezug auf die Kardinalität stark unterscheiden

Ich habe Fragen zur Codierung kategorialer Features durchgesehen, konnte jedoch keine finden, die mein Problem diskutieren. Entschuldigung, wenn ich es verpasst habe. Nehmen wir an, wir haben einen Datensatz mit binären und nominalen Variablen von jeweils ungefähr gleicher Bedeutung. Die meisten Klassifizierer können sich nicht direkt mit kategorialen Typen befassen, …

8 classification categorical-data dimensionality-reduction feature-construction many-categories

1

Regressionsdefinition

Aus Wikipedia: Bei der statistischen Modellierung ist die Regressionsanalyse ein statistischer Prozess zur Schätzung der Beziehungen zwischen Variablen. Es enthält viele Techniken zum Modellieren und Analysieren mehrerer Variablen, wenn der Schwerpunkt auf der Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen (oder "Prädiktoren") liegt. Ist das nicht …

8 regression machine-learning classification definition

Als «classification» getaggte Fragen