Data Science

5

Wie zeichne Deep Learning Netzwerkarchitektur Diagramme?

Ich habe mein Modell gebaut. Jetzt möchte ich das Netzwerkarchitekturdiagramm für meine Forschungsarbeit zeichnen. Beispiel ist unten gezeigt:

78 machine-learning neural-network deep-learning svm software-recommendation

11

SVM, das scikit learn verwendet, wird endlos ausgeführt und schließt die Ausführung nie ab

Ich versuche, SVR mit Scikit Learn (Python) auf einem Trainingsdatensatz mit 595605 Zeilen und 5 Spalten (Features) und einem Testdatensatz mit 397070 Zeilen auszuführen. Die Daten wurden vorverarbeitet und reguliert. Ich kann die Testbeispiele erfolgreich ausführen. Wenn ich jedoch meinen Datensatz verwende und ihn länger als eine Stunde laufen lasse, …

76 python svm scikit-learn

5

Warum verwenden Kostenfunktionen den quadratischen Fehler?

Ich fange gerade erst mit maschinellem Lernen an und beschäftige mich bisher mit linearer Regression über eine Variable. Ich habe gelernt, dass es eine Hypothese gibt: hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x Um gute Werte für die Parameter herauszufinden und wir den Unterschied zwischen dem berechneten Ergebnis und dem tatsächlichen Ergebnis unserer Testdaten minimieren möchten. …

73 machine-learning linear-regression loss-function

1

Unterschied zwischen isna () und isnull () bei Pandas

Ich benutze schon seit einiger Zeit Pandas. Aber ich verstehe nicht, was der Unterschied zwischen isna()und isnull()bei Pandas ist. Und, was noch wichtiger ist, welche, um fehlende Werte im Datenrahmen zu identifizieren. Worin besteht der grundlegende Unterschied, wie ein Wert entweder als naoder erkannt wird null?

70 python pandas dataframe

11

Warum bevorzugen die Leute Pandas gegenüber SQL?

Ich benutze SQL seit 1996, daher bin ich möglicherweise voreingenommen. Ich habe MySQL und SQLite 3 ausgiebig verwendet, aber auch Microsoft SQL Server und Oracle. Die überwiegende Mehrheit der Operationen, die ich mit Pandas durchgeführt habe, ist mit SQL einfacher durchzuführen. Dazu gehört das Filtern eines Datasets, das Auswählen bestimmter …

69 pandas sql

8

Wann sollte ich Gini Impurity anstelle von Information Gain verwenden?

Kann jemand die Gründe für Gini-Verunreinigung gegen Informationsgewinn (basierend auf Entropie) praktisch erklären ? Welche Metrik ist in verschiedenen Szenarien besser geeignet, wenn Entscheidungsbäume verwendet werden?

66 machine-learning decision-trees

8

Datenwissenschaftler gegen Ingenieur des maschinellen Lernens

Was sind die Unterschiede zwischen einem "Data Scientist" und einem "Machine Learning Engineer"? Im letzten Jahr tauchte der "Ingenieur für maschinelles Lernen" häufig in Stellenausschreibungen auf. Dies macht sich insbesondere in San Francisco bemerkbar, wo wohl der Begriff "Data Scientist" entstand. Irgendwann hat "Data Scientist" "Statistiker" überholt, und ich frage …

66 machine-learning

5

Zeitreihenvorhersage mit ARIMA gegen LSTM

Das Problem, mit dem ich mich beschäftige, ist die Vorhersage von Zeitreihenwerten. Ich betrachte jeweils eine Zeitreihe und möchte anhand von beispielsweise 15% der Eingabedaten deren zukünftige Werte vorhersagen. Bisher bin ich auf zwei Modelle gestoßen: LSTM (Long Short Term Memory; eine Klasse wiederkehrender neuronaler Netze) ARIMA Ich habe beide …

64 time-series deep-learning rnn prediction

3

Vorteile der AUC gegenüber der Standardgenauigkeit

Ich fing an, den Bereich unter der Kurve (AUC) zu untersuchen und bin ein wenig verwirrt über seine Nützlichkeit. Als ich zum ersten Mal darauf hingewiesen wurde, schien die AUC ein hervorragendes Maß für die Leistung zu sein. Bei meinen Recherchen habe ich jedoch festgestellt, dass einige behaupten, dass ihr …

64 machine-learning accuracy

6

Zeichenfolgen als Merkmale im Entscheidungsbaum / zufälligen Wald

Ich mache einige Probleme bei der Anwendung von Decision Tree / Random Forest. Ich versuche, ein Problem zu lösen, bei dem sowohl Zahlen als auch Zeichenfolgen (z. B. der Name des Landes) als Merkmale verwendet werden. Jetzt nimmt die Bibliothek, scikit-learn, nur Zahlen als Parameter, aber ich möchte die Zeichenfolgen …

64 machine-learning python scikit-learn random-forest decision-trees

1

Wie erhält man eine Korrelation zwischen zwei kategorialen Variablen und einer kategorialen Variablen und einer stetigen Variablen?

Ich erstelle ein Regressionsmodell und muss das Folgende berechnen, um auf Korrelationen zu prüfen Korrelation zwischen 2 mehrstufigen kategorialen Variablen Korrelation zwischen einer mehrstufigen kategorialen Variablen und einer stetigen Variablen VIF (Varianzinflationsfaktor) für mehrstufige kategoriale Variablen Ich glaube, es ist falsch, den Pearson-Korrelationskoeffizienten für die obigen Szenarien zu verwenden, da …

63 r statistics correlation

3

Backprop durch Max-Pooling-Ebenen?

Dies ist eine kleine konzeptionelle Frage, die mich schon seit einiger Zeit beschäftigt: Wie können wir uns durch eine Max-Pooling-Schicht in einem neuronalen Netzwerk rückwärts ausbreiten? Ich bin auf Max-Pooling-Ebenen gestoßen, als ich dieses Tutorial für die nn-Bibliothek von Torch 7 durchgesehen habe . Die Bibliothek abstrahiert die Gradientenberechnung und …

62 neural-network backpropagation

8

Open Source-Anomalieerkennung in Python

Problem Hintergrund: Ich arbeite an einem Projekt, das Protokolldateien umfasst, die denen im IT-Überwachungsbereich ähneln (nach meinem besten Verständnis des IT-Bereichs). Diese Protokolldateien sind Zeitreihendaten, die in Hunderten / Tausenden von Zeilen mit verschiedenen Parametern organisiert sind. Jeder Parameter ist numerisch (float) und es gibt einen nicht trivialen / fehlerfreien …

61 machine-learning python data-mining anomaly-detection library

2

Training eines RNN mit Beispielen unterschiedlicher Länge in Keras

Ich versuche, etwas über RNNs zu lernen und verwende Keras. Ich verstehe die Grundvoraussetzung von Vanille-RNN- und LSTM-Schichten, habe jedoch Probleme, einen bestimmten technischen Punkt für das Training zu verstehen. In der Keras-Dokumentation heißt es, dass die Eingabe in eine RNN-Ebene eine Form haben muss (batch_size, timesteps, input_dim). Dies legt …

60 python keras rnn training

9

Aufteilen von Zug- / Test- / Validierungssätzen in Sklearn

Wie könnte ich mit Sklearn eine Datenmatrix und den entsprechenden Beschriftungsvektor zufällig in einen X_train, X_test, X_val, y_train, y_test, y_val aufteilen? Soweit ich weiß, sklearn.cross_validation.train_test_splitist nur in der Lage, in zwei, nicht in drei zu spalten ...

59 machine-learning scikit-learn