Scikit-learn ist ein Python-Modul, das ein einfaches und effizientes Tool für maschinelles Lernen, Data Mining und Datenanalyse umfasst. Es basiert auf NumPy, SciPy und Matplotlib. Es wird unter der 3-Klausel-BSD-Lizenz vertrieben.
Ich habe kürzlich angefangen zu lernen, mit sklearnetwas zu arbeiten und bin gerade auf dieses merkwürdige Ergebnis gestoßen. Ich habe den digitsverfügbaren Datensatz verwendet sklearn, um verschiedene Modelle und Schätzmethoden auszuprobieren. Als ich ein Support Vector Machine-Modell mit den Daten getestet habe, stellte ich fest, dass es zwei verschiedene Klassen …
Ich bin Neuling in maschinellem Lernen und Keras und arbeite jetzt an einem Problem der Klassifizierung von Bildern mit Keras. Die Eingabe ist Bild markiert. Nach einer gewissen Vorverarbeitung werden die Trainingsdaten in der Python-Liste wie folgt dargestellt: [["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]] Die Klassenbezeichnungen lauten "Hund", "Katze" und "Vogel". …
Ich würde gerne eine Dimensionsreduktion für fast 1 Million Vektoren mit jeweils 200 Dimensionen durchführen ( doc2vec). Ich verwende dafür die TSNEImplementierung aus dem sklearn.manifoldModul und das Hauptproblem ist die zeitliche Komplexität. Trotzdem method = barnes_hutist die Rechengeschwindigkeit immer noch gering. Irgendwann geht ihm sogar der Speicher aus. Ich lasse …
Ich habe ein Problem damit, eine große Menge von Sätzen nach ihrer Bedeutung in Gruppen zusammenzufassen. Dies ähnelt einem Problem, wenn Sie viele Sätze haben und diese nach ihrer Bedeutung gruppieren möchten. Welche Algorithmen werden dazu vorgeschlagen? Ich kenne die Anzahl der Cluster im Voraus nicht (und da weitere Daten …
Ich habe spärliche Merkmale, die prädiktiv sind, und ich habe einige dichte Merkmale, die auch prädiktiv sind. Ich muss diese Funktionen kombinieren, um die Gesamtleistung des Klassifikators zu verbessern. Wenn ich nun versuche, diese Merkmale zu kombinieren, dominieren die dichten Merkmale tendenziell stärker als die spärlichen Merkmale, wodurch sich die …
Ich erstelle einen Workflow zum Erstellen von Modellen für maschinelles Lernen (in meinem Fall mit Python pandasund sklearnPaketen) aus Daten, die aus einer sehr großen Datenbank (hier Vertica über SQL und pyodbc) abgerufen wurden , und ein wichtiger Schritt in diesem Prozess besteht darin, fehlende Daten zu unterstellen Werte der …
Ich habe ein Klassifizierungsproblem gemacht und den Code und die Tutorials vieler Leute gelesen. Eine Sache, die mir aufgefallen ist, ist, dass viele Leute nehmen np.logoder logvon stetigen Variablen wie loan_amountoder applicant_incomeusw. Ich möchte nur den Grund dahinter verstehen. Hilft es, die Genauigkeit unserer Modellvorhersage zu verbessern? Ist es obligatorisch? …
Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …
Ich möchte das folgende Problem lösen: Ich habe eine Reihe von Sätzen als Datensatz, und ich möchte in der Lage sein, einen neuen Satz einzugeben und den Satz zu finden, der dem neuen Satz im Datensatz am ähnlichsten ist. Ein Beispiel würde so aussehen: Neuer Satz: " I opened a …
Ich versuche, ein RegressionModell zu erstellen , und suche nach einer Möglichkeit, um zu überprüfen, ob eine Korrelation zwischen Features und Zielvariablen besteht. Dies ist meine Probe dataset Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome\ 0 LP001002 Male No 0 Graduate No 5849 1 LP001003 Male Yes 1 Graduate No …
Wird die zufällige Gesamtstrukturimplementierung in scikit-learn unter Verwendung der mittleren Genauigkeit als Bewertungsmethode zum Schätzen des Generalisierungsfehlers mit Out-of-Bag-Stichproben verwendet? Dies wird in der Dokumentation nicht erwähnt, aber die score () -Methode gibt die mittlere Genauigkeit an. Ich habe einen stark unausgeglichenen Datensatz und verwende AUC of ROC als Scoring-Metrik …
Ich schaue mir dieses Tutorial an: https://www.dataquest.io/mission/75/improving-your-submission In Abschnitt 8, in dem die besten Funktionen gefunden werden, wird der folgende Code angezeigt. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, …
Ich habe versucht, Feature-Wichtigkeiten aus zufälligen Wäldern zu verwenden, um eine empirische Feature-Auswahl für ein Regressionsproblem durchzuführen, bei dem alle Features kategorisch sind und viele von ihnen viele Ebenen haben (in der Größenordnung von 100-1000). Da bei der One-Hot-Codierung für jede Ebene eine Dummy-Variable erstellt wird, gelten die Feature-Wichtigkeiten für …
Ich habe einen Pandas-Datenrahmen mit Tonnen von kategorialen Spalten, die ich im Entscheidungsbaum mit Scikit-Learn verwenden möchte. Ich muss sie in numerische Werte konvertieren (nicht einen heißen Vektor). Ich kann es mit LabelEncoder von scikit-learn machen. Das Problem ist, dass es zu viele davon gibt und ich sie nicht manuell …
Ich habe die Feature-Wichtigkeiten in zufälligen Wäldern mit Scikit-Learn aufgezeichnet . Wie kann ich die Plotinformationen zum Entfernen von Features verwenden, um die Vorhersage mithilfe zufälliger Gesamtstrukturen zu verbessern? Dh wie kann man anhand der Plotinformationen erkennen, ob ein Feature nutzlos ist oder die Leistung der zufälligen Gesamtstrukturen noch schlimmer …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.