Ich versuche, SVR mit Scikit Learn (Python) auf einem Trainingsdatensatz mit 595605 Zeilen und 5 Spalten (Features) und einem Testdatensatz mit 397070 Zeilen auszuführen. Die Daten wurden vorverarbeitet und reguliert. Ich kann die Testbeispiele erfolgreich ausführen. Wenn ich jedoch meinen Datensatz verwende und ihn länger als eine Stunde laufen lasse, …
Ich fange gerade erst mit maschinellem Lernen an und beschäftige mich bisher mit linearer Regression über eine Variable. Ich habe gelernt, dass es eine Hypothese gibt: hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x Um gute Werte für die Parameter herauszufinden und wir den Unterschied zwischen dem berechneten Ergebnis und dem tatsächlichen Ergebnis unserer Testdaten minimieren möchten. …
Ich benutze schon seit einiger Zeit Pandas. Aber ich verstehe nicht, was der Unterschied zwischen isna()und isnull()bei Pandas ist. Und, was noch wichtiger ist, welche, um fehlende Werte im Datenrahmen zu identifizieren. Worin besteht der grundlegende Unterschied, wie ein Wert entweder als naoder erkannt wird null?
Ich benutze SQL seit 1996, daher bin ich möglicherweise voreingenommen. Ich habe MySQL und SQLite 3 ausgiebig verwendet, aber auch Microsoft SQL Server und Oracle. Die überwiegende Mehrheit der Operationen, die ich mit Pandas durchgeführt habe, ist mit SQL einfacher durchzuführen. Dazu gehört das Filtern eines Datasets, das Auswählen bestimmter …
Kann jemand die Gründe für Gini-Verunreinigung gegen Informationsgewinn (basierend auf Entropie) praktisch erklären ? Welche Metrik ist in verschiedenen Szenarien besser geeignet, wenn Entscheidungsbäume verwendet werden?
Was sind die Unterschiede zwischen einem "Data Scientist" und einem "Machine Learning Engineer"? Im letzten Jahr tauchte der "Ingenieur für maschinelles Lernen" häufig in Stellenausschreibungen auf. Dies macht sich insbesondere in San Francisco bemerkbar, wo wohl der Begriff "Data Scientist" entstand. Irgendwann hat "Data Scientist" "Statistiker" überholt, und ich frage …
Das Problem, mit dem ich mich beschäftige, ist die Vorhersage von Zeitreihenwerten. Ich betrachte jeweils eine Zeitreihe und möchte anhand von beispielsweise 15% der Eingabedaten deren zukünftige Werte vorhersagen. Bisher bin ich auf zwei Modelle gestoßen: LSTM (Long Short Term Memory; eine Klasse wiederkehrender neuronaler Netze) ARIMA Ich habe beide …
Ich fing an, den Bereich unter der Kurve (AUC) zu untersuchen und bin ein wenig verwirrt über seine Nützlichkeit. Als ich zum ersten Mal darauf hingewiesen wurde, schien die AUC ein hervorragendes Maß für die Leistung zu sein. Bei meinen Recherchen habe ich jedoch festgestellt, dass einige behaupten, dass ihr …
Ich mache einige Probleme bei der Anwendung von Decision Tree / Random Forest. Ich versuche, ein Problem zu lösen, bei dem sowohl Zahlen als auch Zeichenfolgen (z. B. der Name des Landes) als Merkmale verwendet werden. Jetzt nimmt die Bibliothek, scikit-learn, nur Zahlen als Parameter, aber ich möchte die Zeichenfolgen …
Ich erstelle ein Regressionsmodell und muss das Folgende berechnen, um auf Korrelationen zu prüfen Korrelation zwischen 2 mehrstufigen kategorialen Variablen Korrelation zwischen einer mehrstufigen kategorialen Variablen und einer stetigen Variablen VIF (Varianzinflationsfaktor) für mehrstufige kategoriale Variablen Ich glaube, es ist falsch, den Pearson-Korrelationskoeffizienten für die obigen Szenarien zu verwenden, da …
Dies ist eine kleine konzeptionelle Frage, die mich schon seit einiger Zeit beschäftigt: Wie können wir uns durch eine Max-Pooling-Schicht in einem neuronalen Netzwerk rückwärts ausbreiten? Ich bin auf Max-Pooling-Ebenen gestoßen, als ich dieses Tutorial für die nn-Bibliothek von Torch 7 durchgesehen habe . Die Bibliothek abstrahiert die Gradientenberechnung und …
Problem Hintergrund: Ich arbeite an einem Projekt, das Protokolldateien umfasst, die denen im IT-Überwachungsbereich ähneln (nach meinem besten Verständnis des IT-Bereichs). Diese Protokolldateien sind Zeitreihendaten, die in Hunderten / Tausenden von Zeilen mit verschiedenen Parametern organisiert sind. Jeder Parameter ist numerisch (float) und es gibt einen nicht trivialen / fehlerfreien …
Ich versuche, etwas über RNNs zu lernen und verwende Keras. Ich verstehe die Grundvoraussetzung von Vanille-RNN- und LSTM-Schichten, habe jedoch Probleme, einen bestimmten technischen Punkt für das Training zu verstehen. In der Keras-Dokumentation heißt es, dass die Eingabe in eine RNN-Ebene eine Form haben muss (batch_size, timesteps, input_dim). Dies legt …
Wie könnte ich mit Sklearn eine Datenmatrix und den entsprechenden Beschriftungsvektor zufällig in einen X_train, X_test, X_val, y_train, y_test, y_val aufteilen? Soweit ich weiß, sklearn.cross_validation.train_test_splitist nur in der Lage, in zwei, nicht in drei zu spalten ...
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.