Data Science

5

Soll ich mich für einen 'ausgeglichenen' Datensatz oder einen 'repräsentativen' Datensatz entscheiden?

Meine 'maschinelles Lernen'-Aufgabe besteht darin, harmlosen Internet-Verkehr von böswilligem Verkehr zu trennen. Im realen Szenario ist der größte Teil (sagen wir 90% oder mehr) des Internetverkehrs harmlos. Daher hatte ich das Gefühl, dass ich auch für das Training meiner Modelle ein ähnliches Daten-Setup wählen sollte. Aber ich bin auf ein …

48 machine-learning dataset unbalanced-classes

9

Umgang mit der Versionskontrolle großer (binärer) Datenmengen

Ich bin ein Doktorand der Geophysik und arbeite mit großen Mengen von Bilddaten (Hunderte von GB, Zehntausende von Dateien). Ich kenne svnund gitverstehe mich ziemlich gut mit einer Projekthistorie, kombiniert mit der Fähigkeit, einfach zusammenzuarbeiten und Schutz vor Festplattenbeschädigung zu haben. Ich finde es gitauch sehr hilfreich, konsistente Backups zu …

46 bigdata databases binary version-control

9

IDE-Alternativen für die R-Programmierung (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)

Ich benutze RStudio für die R-Programmierung. Ich erinnere mich an solide IDEs von anderen Technologie-Stacks wie Visual Studio oder Eclipse. Ich habe zwei Fragen: Welche anderen IDEs als RStudio werden verwendet? Hat einer von ihnen spürbare Vorteile gegenüber RStudio? Ich meine hauptsächlich das Debuggen / Erstellen / Bereitstellen von Funktionen, …

46 r tools rstudio programming

10

Maschinelles Lernen - Features Engineering aus Datums- / Zeitdaten

Was sind die gängigen / bewährten Methoden für den Umgang mit Zeitdaten für maschinelles Lernen? Wenn sich beispielsweise in einem Datensatz eine Spalte mit einem Zeitstempel des Ereignisses befindet, z. B. "2014-05-05", wie können Sie nützliche Funktionen aus dieser Spalte extrahieren, falls vorhanden? Danke im Voraus!

45 machine-learning time-series feature-selection

9

Wie viel Data Wrangling macht ein Data Scientist?

Ich arbeite derzeit als Datenwissenschaftler in einem Einzelhandelsunternehmen (mein erster Job als DS, daher kann diese Frage auf meine mangelnde Erfahrung zurückzuführen sein). Sie haben einen enormen Rückstand an wirklich wichtigen datenwissenschaftlichen Projekten, die sich bei ihrer Umsetzung sehr positiv auswirken würden. Aber. Daten-Pipelines gibt es im Unternehmen nicht. Sie …

44 data-wrangling

3

Anzahl der Parameter in einem LSTM-Modell

Wie viele Parameter hat ein einzelner gestapelter LSTM? Die Anzahl der Parameter legt eine Untergrenze für die Anzahl der erforderlichen Trainingsbeispiele fest und beeinflusst auch die Trainingszeit. Daher ist es für Trainingsmodelle mit LSTMs hilfreich, die Anzahl der Parameter zu kennen.

43 deep-learning rnn

6

Wie kann ich Namen in einen vertraulichen Datensatz umwandeln, um ihn anonym zu machen, aber einige der Eigenschaften der Namen beibehalten?

Motivation Ich arbeite mit Datensätzen, die personenbezogene Daten (PII) enthalten, und muss manchmal einen Teil eines Datensatzes mit Dritten auf eine Weise teilen, die PII nicht gefährdet und meinem Arbeitgeber eine Haftung auferlegt. Unser üblicher Ansatz besteht darin, Daten vollständig zurückzuhalten oder in einigen Fällen ihre Auflösung zu verringern. B. …

42 data-cleaning anonymization

1

Was ist der Unterschied zwischen LeakyReLU und PReLU?

f( x ) = max ( x , α x ) mit α ∈ ( 0 , 1 )f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Keras hat jedoch beide Funktionen in den Dokumenten . Undichte ReLU Quelle von LeakyReLU : return K.relu(inputs, …

42 neural-network

4

Hinzufügen von Funktionen zum Zeitreihenmodell LSTM

Ich habe ein wenig über LSTMs und ihre Verwendung für Zeitreihen nachgelesen und es war interessant, aber gleichzeitig schwierig. Eine Sache, die ich bisher nicht verstanden habe, ist der Ansatz, zusätzliche Funktionen zu einer Liste von Zeitreihenfunktionen hinzuzufügen. Angenommen, Sie haben Ihren Datensatz wie folgt eingerichtet: t-3, t-2, t-1, Ausgabe …

42 machine-learning neural-network deep-learning time-series

2

Wie bereite ich Bilder für ein neuronales Netzwerk vor?

Ich möchte ein neuronales Netz zur Bildklassifizierung verwenden. Ich beginne mit vorab geschultem CaffeNet und trainiere es für meine Bewerbung. Wie soll ich die Eingabebilder vorbereiten? In diesem Fall handelt es sich bei allen Bildern um dasselbe Objekt, jedoch mit Abweichungen (siehe Qualitätskontrolle). Sie haben etwas andere Maßstäbe / Auflösungen …

41 neural-network image-classification preprocessing convnet

6

Kosinusähnlichkeit versus Punktprodukt als Abstandsmetrik

Es sieht so aus, als ob die Kosinusähnlichkeit von zwei Merkmalen nur ihr Skalierungsprodukt ist, das durch das Produkt ihrer Größenordnung skaliert wird. Wann macht Cosinus-Ähnlichkeit eine bessere Abstandsmetrik als das Skalarprodukt? Dh haben das Skalarprodukt und die Kosinusähnlichkeit unterschiedliche Stärken oder Schwächen in unterschiedlichen Situationen?

41 classification

8

ValueError: Eingabe enthält NaN, unendlich oder einen für dtype zu großen Wert ('float32')

Ich habe ValueError erhalten, als ich Testdaten mit einem RandomForest-Modell vorhersagte. Mein Code: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Der Fehler: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Wie finde ich die schlechten Werte im Testdatensatz? …

41 python random-forest pandas

4

Warum ist die Mini-Batch-Größe besser als ein einzelner „Batch“ mit allen Trainingsdaten?

Ich habe oft gelesen, dass bei Deep-Learning-Modellen die übliche Praxis darin besteht, Mini-Batches (im Allgemeinen kleine, 32/64) über mehrere Trainingsepochen anzuwenden. Ich kann den Grund dafür nicht wirklich ergründen. Wenn ich mich nicht irre, gibt die Stapelgröße die Anzahl der Trainingsinstanzen an, die das Modell während einer Trainingsiteration gesehen hat. …

40 machine-learning deep-learning

10

Warum werden maschinelle Lernmodelle als Blackboxes bezeichnet?

Ich las diesen Blog-Beitrag mit dem Titel: Die Finanzwelt will die Black Boxes von AI öffnen , wobei der Autor ML-Modelle wiederholt als "Black Boxes" bezeichnet. Eine ähnliche Terminologie wurde an mehreren Stellen für ML-Modelle verwendet. Wieso ist es so? Es ist nicht so, dass die ML-Ingenieure nicht wissen, was …

40 machine-learning terminology

11

Data Science in C (oder C ++)

Ich bin ein RSprachprogrammierer. Ich gehöre auch zu der Gruppe von Leuten, die als Data Scientists gelten, aber aus anderen akademischen Disziplinen als CS stammen. Dies funktioniert in meiner Rolle als Data Scientist sehr gut. Als ich meine Karriere in Randeren Skriptsprachen / Web-Sprachen begann und nur Grundkenntnisse in diesen …

40 machine-learning bigdata statistics programming c