Statistiken und Big Data classification

2

Kreuzvalidierung in sehr hohen Dimensionen (um die Anzahl der verwendeten Variablen in sehr hohen Dimensionen auszuwählen)

Meine Frage betrifft die Kreuzvalidierung, wenn es viel mehr Variablen als Beobachtungen gibt. Um Ideen zu fixieren, schlage ich vor, mich auf den Klassifizierungsrahmen in sehr hohen Dimensionen zu beschränken (mehr Merkmale als Beobachtung). Problem: Angenommen, Sie haben für jede Variable ein Maß für die Wichtigkeit als das Interesse des …

8 machine-learning classification cross-validation

1

Höhere Überanpassung durch Datenerweiterung mit Rauschen?

Ich trainiere ein neuronales Netzwerk für die Audioklassifizierung. Ich habe es auf dem UrbanSound8K-Datensatz (Modell 1) trainiert und wollte dann bewerten, wie unterschiedliche Pegel des zusätzlichen Rauschens zu den Eingaben die Vorhersagegenauigkeit beeinflussen. Basisgenauigkeit Modell1 = 65% Wie erwartet führten höhere Geräuschpegel zu einer geringeren Genauigkeit. Dann entschied ich mich …

8 classification neural-networks dataset overfitting

2

Auswählen der Anzahl der Cluster - Kriterien für die Clustervalidierung im Vergleich zu domänentheoretischen Überlegungen

Ich stehe oft vor dem Problem, eine bestimmte Anzahl von Clustern auswählen zu müssen. Die Partition, die ich am Ende wähle, basiert häufiger auf visuellen und theoretischen Bedenken als auf Qualitätskriterien. Ich habe zwei Hauptfragen. Der erste betrifft die allgemeine Idee der Clusterqualität. Soweit ich weiß, schlagen Kriterien wie der …

8 r machine-learning classification clustering hierarchical-clustering

2

Ist es richtig, die Ausgabe des neuronalen Netzwerks als sein Vertrauen in die Vorhersage der Ausgabe zu betrachten?

Angenommen, ich habe ein einzelnes Ausgangssigmoid (tanh), das einen Ausgangsbereich im Bereich von [-1, +1] erzeugt. Ist es richtig, diese Ausgabe als Vertrauensmaß für die Vorhersage der Ausgabe zu betrachten? Der Ausgabewert würde zwischen -1 und +1 liegen, aber obwohl ich eine hohe Genauigkeit habe, sehe ich, dass die Werte …

8 machine-learning classification neural-networks deep-learning isotonic

3

Welche Ausgleichsmethode kann ich auf einen unausgeglichenen Datensatz anwenden?

Ich versuche, ein Klassifizierungsproblem aus dem UCI-Datenbank-Repository zu lösen . Leider (oder zum Glück) habe ich festgestellt, dass mein Datensatz nicht ausgeglichen ist. Ich habe die Daten in 5 Klassen strukturiert, entsprechend der vom Schüler erreichten Endnote: Wenn der Schüler eine Note von 0 bis 7 erhält => Klasse 1 …

8 r machine-learning classification data-mining unbalanced-classes

2

Was ist das beste Maß für ein unausgeglichenes Klassifizierungsproblem mit mehreren Klassen?

Was sind mögliche Klassifizierungsmetriken für ein unausgeglichenes Problem? Aufgrund der Schiefe der Verteilung ist der Genauigkeitswert nicht so aussagekräftig. Wenn ich zum Beispiel alle Klassen bis Klasse 1 vorhersage, könnte ich immer noch eine Genauigkeit von 70% erreichen.

8 classification unbalanced-classes metric

2

Ideen zu Algorithmen für maschinelles Lernen zur Klassifizierung von Produkten

Ich habe eine Liste von Produkten, einschließlich Variablen wie dem Produktnamen (wie auf der Quittung angegeben) und dem Händler, bei dem das Produkt gekauft wurde. Ich habe viele von ihnen manuell in eine feste Gruppe von Kategorien eingeteilt (z. B. alkoholische Getränke, Gemüse, Fleisch usw.). Die Daten sind wie immer …

7 machine-learning classification

1

Ableiten der wichtigsten Merkmale

Gegeben eine Menge von Instanzen. Für jede Instanz habe ich einen Merkmalsvektor bestehend ausnnnmmm (numerische) Merkmale (x1x1x_1, x2x2x_2, ...,xmxmx_m), n >> m. Außerdem habe ich für jeden Fall eine numerische Punktzahlyyy(beobachtbar). Ich würde gerne: Finden Sie heraus, welche Teilmenge von Merkmalen oder eine lineare Kombination davon die Ergebnisse am besten …

7 machine-learning classification supervised-learning

3

Verwendung von ML zur Unterstützung der menschlichen Kennzeichnung in Datensätzen mit stark unausgeglichenen Klassen

Gibt es wissenschaftliche Probleme bei der Verwendung von ML zur Unterstützung menschlicher Anmerkungen? Ich habe einen unbeschrifteten Datensatz mit 3 Klassen, in dem nur 1 von 500 Elementen zu den 2 interessierenden Klassen gehört. Die Beschriftungen sind nicht für alle Elemente der unbeschrifteten Daten trivial erkennbar. Da jedoch die meisten …

7 classification unbalanced-classes data-cleaning active-learning

1

Wie wird festgestellt, dass ein Klassifikator eine hohe Verzerrung oder Varianz aufweist?

Die Verzerrung und Varianz eines Klassifikators bestimmt den Grad, in dem er die Daten unter- bzw. überanpassen kann. Wie könnte man einen Klassifikator bestimmen, der als hohe Verzerrung oder hohe Varianz charakterisiert werden soll? Ich bin mir ziemlich klar darüber, was ein Bias-Varianz-Kompromiss und seine Zerlegung ist und wie er …

7 machine-learning classification bias-variance-tradeoff

1

Klassifizierungsalgorithmus basierend auf durchschnittlichen Entfernungen von einem Testpunkt zu den Punkten in jeder Klasse

Gibt es einen Klassifizierungsalgorithmus, der dem Punktcluster, dessen durchschnittliche Entfernung minimal ist, einen neuen Testvektor zuweist? Lassen Sie es mich besser schreiben: Stellen wir uns vor, wir haben Cluster von jeweils Punkten. Für jeden Cluster k berechne ich den Durchschnitt aller Abstände zwischen und , wobei ein Punkt im Cluster …

7 classification scikit-learn algorithms

2

Warum werden in der binären Klassifikation des Gaußschen Prozesses Sigmoidfunktionen gegenüber Gaußschen Funktionen bevorzugt?

Ich studiere derzeit "Gaußsche Prozesse für maschinelles Lernen" und in Kapitel 3 heißt es, dass das hintere (Gleichung 3.10) und das latente Die Variable posterior (Gleichung 3.9) kann aufgrund der Sigmoidwahrscheinlichkeiten in (3.9) und der Sigmoidfunktion in (3.10) im Allgemeinen nicht analytisch gelöst werden ). Um zu verhindern, dass Personen …

7 machine-learning classification bayesian gaussian-process

1

Gibt es in PCA eine systematische Möglichkeit, Variablen zu löschen, um die Trennung zweier Populationen zu maximieren?

Ich versuche mithilfe der Hauptkomponentenanalyse zu untersuchen, ob es möglich ist, mit gutem Vertrauen zu erraten, aus welcher Population ("Aurignacian" oder "Gravettian") ein neuer Datenpunkt stammt. Ein Datenpunkt wird durch 28 Variablen beschrieben, von denen die meisten relative Häufigkeiten archäologischer Artefakte sind. Die verbleibenden Variablen werden als Verhältnisse anderer Variablen …

7 classification pca multivariate-analysis feature-selection archaeology

4

Gradientenverstärkung - extreme Vorhersagen gegenüber Vorhersagen nahe 0,5

Angenommen, Sie trainieren zwei verschiedene Gradient Boosting Classifier-Modelle für zwei verschiedene Datensätze. Sie verwenden eine einmalige Kreuzvalidierung und zeichnen die Histogramme der Vorhersagen auf, die die beiden Modelle ausgeben. Die Histogramme sehen folgendermaßen aus: und das: In einem Fall sind die Vorhersagen (für Sätze außerhalb der Stichprobe / Validierung) meist …

7 classification cart boosting xgboost

1

Warum verbessert die Reduzierung eines Regressionsmodells in ein Klassifizierungsmodell durch Ausgabediskretisierung ein Modell?

Wenn bei Regressionsproblemen die Ausgabe in Bins / Kategorien / Cluster diskretisiert und als Beschriftungen verwendet wird, wird das Modell auf ein Klassifizierungsmodell reduziert. Meine Frage ist: Was ist die theoretische oder angewandte Motivation für diese Reduzierung? In meinen speziellen Experimenten zur Vorhersage des Standorts anhand von Text habe ich …

7 regression classification categorical-data continuous-data

Als «classification» getaggte Fragen