Als «classification» getaggte Fragen

Die statistische Klassifizierung ist das Problem der Identifizierung der Teilpopulation, zu der neue Beobachtungen gehören, bei der die Identität der Teilpopulation unbekannt ist, auf der Grundlage eines Trainingssatzes von Daten, die Beobachtungen enthalten, deren Teilpopulation bekannt ist. Daher zeigen diese Klassifikationen ein variables Verhalten, das statistisch untersucht werden kann.

2
Kreuzvalidierung in sehr hohen Dimensionen (um die Anzahl der verwendeten Variablen in sehr hohen Dimensionen auszuwählen)
Meine Frage betrifft die Kreuzvalidierung, wenn es viel mehr Variablen als Beobachtungen gibt. Um Ideen zu fixieren, schlage ich vor, mich auf den Klassifizierungsrahmen in sehr hohen Dimensionen zu beschränken (mehr Merkmale als Beobachtung). Problem: Angenommen, Sie haben für jede Variable ein Maß für die Wichtigkeit als das Interesse des …

1
Höhere Überanpassung durch Datenerweiterung mit Rauschen?
Ich trainiere ein neuronales Netzwerk für die Audioklassifizierung. Ich habe es auf dem UrbanSound8K-Datensatz (Modell 1) trainiert und wollte dann bewerten, wie unterschiedliche Pegel des zusätzlichen Rauschens zu den Eingaben die Vorhersagegenauigkeit beeinflussen. Basisgenauigkeit Modell1 = 65% Wie erwartet führten höhere Geräuschpegel zu einer geringeren Genauigkeit. Dann entschied ich mich …

2
Auswählen der Anzahl der Cluster - Kriterien für die Clustervalidierung im Vergleich zu domänentheoretischen Überlegungen
Ich stehe oft vor dem Problem, eine bestimmte Anzahl von Clustern auswählen zu müssen. Die Partition, die ich am Ende wähle, basiert häufiger auf visuellen und theoretischen Bedenken als auf Qualitätskriterien. Ich habe zwei Hauptfragen. Der erste betrifft die allgemeine Idee der Clusterqualität. Soweit ich weiß, schlagen Kriterien wie der …

2
Ist es richtig, die Ausgabe des neuronalen Netzwerks als sein Vertrauen in die Vorhersage der Ausgabe zu betrachten?
Angenommen, ich habe ein einzelnes Ausgangssigmoid (tanh), das einen Ausgangsbereich im Bereich von [-1, +1] erzeugt. Ist es richtig, diese Ausgabe als Vertrauensmaß für die Vorhersage der Ausgabe zu betrachten? Der Ausgabewert würde zwischen -1 und +1 liegen, aber obwohl ich eine hohe Genauigkeit habe, sehe ich, dass die Werte …

3
Welche Ausgleichsmethode kann ich auf einen unausgeglichenen Datensatz anwenden?
Ich versuche, ein Klassifizierungsproblem aus dem UCI-Datenbank-Repository zu lösen . Leider (oder zum Glück) habe ich festgestellt, dass mein Datensatz nicht ausgeglichen ist. Ich habe die Daten in 5 Klassen strukturiert, entsprechend der vom Schüler erreichten Endnote: Wenn der Schüler eine Note von 0 bis 7 erhält => Klasse 1 …



1
Ableiten der wichtigsten Merkmale
Gegeben eine Menge von Instanzen. Für jede Instanz habe ich einen Merkmalsvektor bestehend ausnnnmmm (numerische) Merkmale (x1x1x_1, x2x2x_2, ...,xmxmx_m), n >> m. Außerdem habe ich für jeden Fall eine numerische Punktzahlyyy(beobachtbar). Ich würde gerne: Finden Sie heraus, welche Teilmenge von Merkmalen oder eine lineare Kombination davon die Ergebnisse am besten …

3
Verwendung von ML zur Unterstützung der menschlichen Kennzeichnung in Datensätzen mit stark unausgeglichenen Klassen
Gibt es wissenschaftliche Probleme bei der Verwendung von ML zur Unterstützung menschlicher Anmerkungen? Ich habe einen unbeschrifteten Datensatz mit 3 Klassen, in dem nur 1 von 500 Elementen zu den 2 interessierenden Klassen gehört. Die Beschriftungen sind nicht für alle Elemente der unbeschrifteten Daten trivial erkennbar. Da jedoch die meisten …


1
Klassifizierungsalgorithmus basierend auf durchschnittlichen Entfernungen von einem Testpunkt zu den Punkten in jeder Klasse
Gibt es einen Klassifizierungsalgorithmus, der dem Punktcluster, dessen durchschnittliche Entfernung minimal ist, einen neuen Testvektor zuweist? Lassen Sie es mich besser schreiben: Stellen wir uns vor, wir haben Cluster von jeweils Punkten. Für jeden Cluster k berechne ich den Durchschnitt aller Abstände zwischen und , wobei ein Punkt im Cluster …

2
Warum werden in der binären Klassifikation des Gaußschen Prozesses Sigmoidfunktionen gegenüber Gaußschen Funktionen bevorzugt?
Ich studiere derzeit "Gaußsche Prozesse für maschinelles Lernen" und in Kapitel 3 heißt es, dass das hintere (Gleichung 3.10) und das latente Die Variable posterior (Gleichung 3.9) kann aufgrund der Sigmoidwahrscheinlichkeiten in (3.9) und der Sigmoidfunktion in (3.10) im Allgemeinen nicht analytisch gelöst werden ). Um zu verhindern, dass Personen …

1
Gibt es in PCA eine systematische Möglichkeit, Variablen zu löschen, um die Trennung zweier Populationen zu maximieren?
Ich versuche mithilfe der Hauptkomponentenanalyse zu untersuchen, ob es möglich ist, mit gutem Vertrauen zu erraten, aus welcher Population ("Aurignacian" oder "Gravettian") ein neuer Datenpunkt stammt. Ein Datenpunkt wird durch 28 Variablen beschrieben, von denen die meisten relative Häufigkeiten archäologischer Artefakte sind. Die verbleibenden Variablen werden als Verhältnisse anderer Variablen …

4
Gradientenverstärkung - extreme Vorhersagen gegenüber Vorhersagen nahe 0,5
Angenommen, Sie trainieren zwei verschiedene Gradient Boosting Classifier-Modelle für zwei verschiedene Datensätze. Sie verwenden eine einmalige Kreuzvalidierung und zeichnen die Histogramme der Vorhersagen auf, die die beiden Modelle ausgeben. Die Histogramme sehen folgendermaßen aus: und das: In einem Fall sind die Vorhersagen (für Sätze außerhalb der Stichprobe / Validierung) meist …

1
Warum verbessert die Reduzierung eines Regressionsmodells in ein Klassifizierungsmodell durch Ausgabediskretisierung ein Modell?
Wenn bei Regressionsproblemen die Ausgabe in Bins / Kategorien / Cluster diskretisiert und als Beschriftungen verwendet wird, wird das Modell auf ein Klassifizierungsmodell reduziert. Meine Frage ist: Was ist die theoretische oder angewandte Motivation für diese Reduzierung? In meinen speziellen Experimenten zur Vorhersage des Standorts anhand von Text habe ich …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.