Meine 'maschinelles Lernen'-Aufgabe besteht darin, harmlosen Internet-Verkehr von böswilligem Verkehr zu trennen. Im realen Szenario ist der größte Teil (sagen wir 90% oder mehr) des Internetverkehrs harmlos. Daher hatte ich das Gefühl, dass ich auch für das Training meiner Modelle ein ähnliches Daten-Setup wählen sollte. Aber ich bin auf ein …
Ich bin ein Doktorand der Geophysik und arbeite mit großen Mengen von Bilddaten (Hunderte von GB, Zehntausende von Dateien). Ich kenne svnund gitverstehe mich ziemlich gut mit einer Projekthistorie, kombiniert mit der Fähigkeit, einfach zusammenzuarbeiten und Schutz vor Festplattenbeschädigung zu haben. Ich finde es gitauch sehr hilfreich, konsistente Backups zu …
Ich benutze RStudio für die R-Programmierung. Ich erinnere mich an solide IDEs von anderen Technologie-Stacks wie Visual Studio oder Eclipse. Ich habe zwei Fragen: Welche anderen IDEs als RStudio werden verwendet? Hat einer von ihnen spürbare Vorteile gegenüber RStudio? Ich meine hauptsächlich das Debuggen / Erstellen / Bereitstellen von Funktionen, …
Was sind die gängigen / bewährten Methoden für den Umgang mit Zeitdaten für maschinelles Lernen? Wenn sich beispielsweise in einem Datensatz eine Spalte mit einem Zeitstempel des Ereignisses befindet, z. B. "2014-05-05", wie können Sie nützliche Funktionen aus dieser Spalte extrahieren, falls vorhanden? Danke im Voraus!
Ich arbeite derzeit als Datenwissenschaftler in einem Einzelhandelsunternehmen (mein erster Job als DS, daher kann diese Frage auf meine mangelnde Erfahrung zurückzuführen sein). Sie haben einen enormen Rückstand an wirklich wichtigen datenwissenschaftlichen Projekten, die sich bei ihrer Umsetzung sehr positiv auswirken würden. Aber. Daten-Pipelines gibt es im Unternehmen nicht. Sie …
Wie viele Parameter hat ein einzelner gestapelter LSTM? Die Anzahl der Parameter legt eine Untergrenze für die Anzahl der erforderlichen Trainingsbeispiele fest und beeinflusst auch die Trainingszeit. Daher ist es für Trainingsmodelle mit LSTMs hilfreich, die Anzahl der Parameter zu kennen.
Motivation Ich arbeite mit Datensätzen, die personenbezogene Daten (PII) enthalten, und muss manchmal einen Teil eines Datensatzes mit Dritten auf eine Weise teilen, die PII nicht gefährdet und meinem Arbeitgeber eine Haftung auferlegt. Unser üblicher Ansatz besteht darin, Daten vollständig zurückzuhalten oder in einigen Fällen ihre Auflösung zu verringern. B. …
f( x ) = max ( x , α x ) mit α ∈ ( 0 , 1 )f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Keras hat jedoch beide Funktionen in den Dokumenten . Undichte ReLU Quelle von LeakyReLU : return K.relu(inputs, …
Ich habe ein wenig über LSTMs und ihre Verwendung für Zeitreihen nachgelesen und es war interessant, aber gleichzeitig schwierig. Eine Sache, die ich bisher nicht verstanden habe, ist der Ansatz, zusätzliche Funktionen zu einer Liste von Zeitreihenfunktionen hinzuzufügen. Angenommen, Sie haben Ihren Datensatz wie folgt eingerichtet: t-3, t-2, t-1, Ausgabe …
Ich möchte ein neuronales Netz zur Bildklassifizierung verwenden. Ich beginne mit vorab geschultem CaffeNet und trainiere es für meine Bewerbung. Wie soll ich die Eingabebilder vorbereiten? In diesem Fall handelt es sich bei allen Bildern um dasselbe Objekt, jedoch mit Abweichungen (siehe Qualitätskontrolle). Sie haben etwas andere Maßstäbe / Auflösungen …
Es sieht so aus, als ob die Kosinusähnlichkeit von zwei Merkmalen nur ihr Skalierungsprodukt ist, das durch das Produkt ihrer Größenordnung skaliert wird. Wann macht Cosinus-Ähnlichkeit eine bessere Abstandsmetrik als das Skalarprodukt? Dh haben das Skalarprodukt und die Kosinusähnlichkeit unterschiedliche Stärken oder Schwächen in unterschiedlichen Situationen?
Ich habe ValueError erhalten, als ich Testdaten mit einem RandomForest-Modell vorhersagte. Mein Code: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Der Fehler: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Wie finde ich die schlechten Werte im Testdatensatz? …
Ich habe oft gelesen, dass bei Deep-Learning-Modellen die übliche Praxis darin besteht, Mini-Batches (im Allgemeinen kleine, 32/64) über mehrere Trainingsepochen anzuwenden. Ich kann den Grund dafür nicht wirklich ergründen. Wenn ich mich nicht irre, gibt die Stapelgröße die Anzahl der Trainingsinstanzen an, die das Modell während einer Trainingsiteration gesehen hat. …
Ich las diesen Blog-Beitrag mit dem Titel: Die Finanzwelt will die Black Boxes von AI öffnen , wobei der Autor ML-Modelle wiederholt als "Black Boxes" bezeichnet. Eine ähnliche Terminologie wurde an mehreren Stellen für ML-Modelle verwendet. Wieso ist es so? Es ist nicht so, dass die ML-Ingenieure nicht wissen, was …
Ich bin ein RSprachprogrammierer. Ich gehöre auch zu der Gruppe von Leuten, die als Data Scientists gelten, aber aus anderen akademischen Disziplinen als CS stammen. Dies funktioniert in meiner Rolle als Data Scientist sehr gut. Als ich meine Karriere in Randeren Skriptsprachen / Web-Sprachen begann und nur Grundkenntnisse in diesen …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.