Ich trainiere derzeit ein neuronales Netzwerk und kann mich nicht entscheiden, welches zur Implementierung meiner Early-Stop-Kriterien verwendet werden soll: Validierungsverlust oder Metriken wie Genauigkeit / f1score / auc / was auch immer auf dem Validierungssatz berechnet. Bei meinen Recherchen stieß ich auf Artikel, die beide Standpunkte verteidigten. Keras scheint standardmäßig …
Ich arbeite an einer Textklassifizierung mit 39 Kategorien / Klassen und 8,5 Millionen Datensätzen. (In Zukunft werden Daten und Kategorien zunehmen). Struktur oder Format meiner Daten ist wie folgt. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 …
Angenommen, ich interessiere mich für drei Klassen , , . Mein Datensatz enthält jedoch tatsächlich mehrere weitere reale Klassen .c 2 c 3 ( c j ) n j = 4c1c1c_1c2c2c_2c3c3c_3( cj)nj = 4(cj)j=4n(c_j)_{j=4}^n Die offensichtliche Antwort besteht darin, eine neue Klasse zu definieren , die sich auf alle Klassen …
Ich habe einen Datensatz, der aus Zeitreihen (8 Punkte) mit ungefähr 40 Dimensionen besteht (also ist jede Zeitreihe 8 mal 40). Die entsprechende Ausgabe (die möglichen Ergebnisse für die Kategorien) ist entweder 0 oder 1. Was wäre der beste Ansatz, um einen Klassifikator für Zeitreihen mit mehreren Dimensionen zu entwerfen? …
Mein Datensatz besteht aus Vektorsequenzen. Jeder Vektor hat 50 reelle Dimensionen. Die Anzahl der Vektoren in einer Sequenz reicht von 3-5 bis 10-15. Mit anderen Worten ist die Länge einer Sequenz nicht festgelegt. Einige der Sequenzen (keine Vektoren!) Sind mit einem Klassenlabel versehen. Meine Aufgabe ist es, einen Klassifikator zu …
Problem Ich habe versucht, Naive Bayes für einen beschrifteten Datensatz von Kriminalitätsdaten zu verwenden, habe aber wirklich schlechte Ergebnisse erzielt (7% Genauigkeit). Naive Bayes läuft viel schneller als andere Alogorithmen, die ich verwendet habe, deshalb wollte ich herausfinden, warum die Punktzahl so niedrig war. Forschung Nach dem Lesen stellte ich …
Ich habe einen riesigen Datensatz aus einer relationalen Datenbank, für den ich ein Klassifizierungsmodell erstellen muss. Normalerweise würde ich für diese Situation die induktive Logikprogrammierung (ILP) verwenden, aber aufgrund besonderer Umstände kann ich das nicht tun. Die andere Möglichkeit, dies in Angriff zu nehmen, besteht darin, zu versuchen, die Werte …
Mit welchen frei verfügbaren Datensätzen kann ich einen Textklassifizierer trainieren? Wir versuchen, das Engagement unserer Benutzer zu verbessern, indem wir ihm den verwandtesten Inhalt empfehlen. Daher dachten wir, wenn wir unseren Inhalt anhand einer vordefinierten Worttasche klassifizieren, können wir ihm empfehlen, Inhalte zu nutzen, indem wir sein Feedback zu einer …
Ich entwickle ein Vorhersagemodell mit Java Weka API. Ich kann die Klasse für die neue Instanz mit dem folgenden Code vorhersagen: double predictClass = classifer.classifyInstance(instance) Ich benötige jedoch eine Klassenwahrscheinlichkeit anstelle eines Klassenwerts. Danke im Voraus für deine Unterstützung.
Ich habe Trainingsdaten, die mit Binärwerten gekennzeichnet sind. Ich habe auch das Vertrauen jedes dieser Etiketten gesammelt, dh 0,8 Vertrauen würde bedeuten, dass 80% der menschlichen Etikettierer diesem Etikett zustimmen. Ist es möglich, diese Vertrauensdaten zu verwenden, um die Genauigkeit meines Klassifikators zu verbessern? Würde folgendes funktionieren? 1a) Wenn das …
Ich lerne Support Vector Machines und kann nicht verstehen, wie eine Klassenbezeichnung für einen Datenpunkt in einem binären Klassifikator ausgewählt wird. Wird es im Konsens hinsichtlich der Klassifizierung in jeder Dimension der trennenden Hyperebene gewählt?
Ich suche nach Tools, mit denen ich und mein Team Trainingssätze kommentieren können. Ich arbeite in einer Umgebung mit großen Datenmengen, von denen einige un- oder halbstrukturiert sind. In vielen Fällen gibt es Registrierungen, die helfen, eine fundierte Wahrheit zu finden. In vielen Fällen wird jedoch ein kuratierter Satz benötigt, …
Ich habe ein Klassenungleichgewicht im Verhältnis 1:15, dh eine sehr niedrige Ereignisrate. Um die Abstimmungsparameter von GBM in Scikit Learn auszuwählen, möchte ich Kappa anstelle der F1-Punktzahl verwenden. Mein Verständnis ist, dass Kappa eine bessere Metrik als die F1-Punktzahl für das Klassenungleichgewicht ist. Aber ich konnte Kappa als Evaluierungsmetrik in …
Was ist der beste Weg, um die Ansätze zu kategorisieren, die entwickelt wurden, um das Problem der Ungleichgewichtsklassen zu lösen? Dieser Artikel kategorisiert sie in: Vorverarbeitung: umfasst Oversampling, Undersampling und Hybridmethoden, Kostensensitives Lernen: Umfasst direkte Methoden und Meta-Lernen, das letztere weiter in Schwellenwerte und Stichproben unterteilt. Ensemble-Techniken: Umfasst kostensensitive Ensembles …
Ich habe zwei Datensätze A und B, die hinsichtlich Anzahl der Spalten, Name der Spalten und Werte genau gleich sind. Der einzige Unterschied ist die Reihenfolge dieser Spalten. Anschließend trainiere ich das LightGBM-Modell für jeden der beiden Datensätze mit den folgenden Schritten Teilen Sie jeden Datensatz in Training und Test …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.