Als «scikit-learn» getaggte Fragen

Eine Bibliothek für maschinelles Lernen für Python. Verwenden Sie dieses Tag für alle themenbezogenen Fragen, bei denen (a) Scikit-Learn entweder als kritischer Teil der Frage oder als erwartete Antwort verwendet wird und (b) nicht nur die Verwendung von Scikit-Learn betrifft.

1
Klassifizierungsalgorithmus basierend auf durchschnittlichen Entfernungen von einem Testpunkt zu den Punkten in jeder Klasse
Gibt es einen Klassifizierungsalgorithmus, der dem Punktcluster, dessen durchschnittliche Entfernung minimal ist, einen neuen Testvektor zuweist? Lassen Sie es mich besser schreiben: Stellen wir uns vor, wir haben Cluster von jeweils Punkten. Für jeden Cluster k berechne ich den Durchschnitt aller Abstände zwischen und , wobei ein Punkt im Cluster …

2
Die Lasso-Strafe galt nur für eine Untergruppe von Regressoren
Diese Frage wurde bereits gestellt, aber es gab keine Antworten, daher dachte ich, ich könnte sie noch einmal stellen. Ich bin daran interessiert, eine Lasso-Strafe auf eine Untergruppe der Regressoren anzuwenden, dh mit objektiver Funktion E=||y−X1β1−X2β2||2+λ||β1||1E=||y−X1β1−X2β2||2+λ||β1||1E = ||\mathbf{y} - \mathbf{X}_1 \boldsymbol{\beta}_1 - \mathbf{X}_2 \boldsymbol{\beta}_2||^2 + \lambda ||\boldsymbol{\beta}_1||_1 Dabei wird das …

1
Warum werden die meisten meiner Punkte mit DBSCAN als Rauschen eingestuft?
Ich verwende mehrere Clustering-Algorithmen von sklearn, um einige Daten zu clustern, und kann anscheinend nicht herausfinden, was mit DBSCAN passiert. Meine Daten sind eine Dokument-Term-Matrix von TfidfVectorizer mit einigen hundert vorverarbeiteten Dokumenten. Code: tfv = TfidfVectorizer(stop_words=STOP_WORDS, tokenizer=StemTokenizer()) data = tfv.fit_transform(dataset) db = DBSCAN(eps=eps, min_samples=min_samples) result = db.fit_predict(data) svd = TruncatedSVD(n_components=2).fit_transform(data) …

1
Der beste Weg, um einen durchschnittlichen F-Score mit unausgeglichenen Klassen zu erzielen
Ich habe einen Datensatz mit unausgeglichenen Klassen. Drei Klassen machen etwa 60% der Daten aus. Außerdem habe ich verschiedene Testaufteilungen, die ein Ungleichgewicht verursachen. Zum Beispiel: Zugset: label_1 ... label_n Testsatz: label_1, label_3, label_9 Dies bedeutet, dass obwohl ich nur 3 Etiketten in meinem Testsatz habe, diese möglicherweise als 1 …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.