Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

5
Soll ich mich für einen 'ausgeglichenen' Datensatz oder einen 'repräsentativen' Datensatz entscheiden?
Meine 'maschinelles Lernen'-Aufgabe besteht darin, harmlosen Internet-Verkehr von böswilligem Verkehr zu trennen. Im realen Szenario ist der größte Teil (sagen wir 90% oder mehr) des Internetverkehrs harmlos. Daher hatte ich das Gefühl, dass ich auch für das Training meiner Modelle ein ähnliches Daten-Setup wählen sollte. Aber ich bin auf ein …




9
Wie viel Data Wrangling macht ein Data Scientist?
Ich arbeite derzeit als Datenwissenschaftler in einem Einzelhandelsunternehmen (mein erster Job als DS, daher kann diese Frage auf meine mangelnde Erfahrung zurückzuführen sein). Sie haben einen enormen Rückstand an wirklich wichtigen datenwissenschaftlichen Projekten, die sich bei ihrer Umsetzung sehr positiv auswirken würden. Aber. Daten-Pipelines gibt es im Unternehmen nicht. Sie …

3
Anzahl der Parameter in einem LSTM-Modell
Wie viele Parameter hat ein einzelner gestapelter LSTM? Die Anzahl der Parameter legt eine Untergrenze für die Anzahl der erforderlichen Trainingsbeispiele fest und beeinflusst auch die Trainingszeit. Daher ist es für Trainingsmodelle mit LSTMs hilfreich, die Anzahl der Parameter zu kennen.

6
Wie kann ich Namen in einen vertraulichen Datensatz umwandeln, um ihn anonym zu machen, aber einige der Eigenschaften der Namen beibehalten?
Motivation Ich arbeite mit Datensätzen, die personenbezogene Daten (PII) enthalten, und muss manchmal einen Teil eines Datensatzes mit Dritten auf eine Weise teilen, die PII nicht gefährdet und meinem Arbeitgeber eine Haftung auferlegt. Unser üblicher Ansatz besteht darin, Daten vollständig zurückzuhalten oder in einigen Fällen ihre Auflösung zu verringern. B. …

1
Was ist der Unterschied zwischen LeakyReLU und PReLU?
f( x ) = max ( x , α x ) mit α ∈ ( 0 , 1 )f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Keras hat jedoch beide Funktionen in den Dokumenten . Undichte ReLU Quelle von LeakyReLU : return K.relu(inputs, …



6
Kosinusähnlichkeit versus Punktprodukt als Abstandsmetrik
Es sieht so aus, als ob die Kosinusähnlichkeit von zwei Merkmalen nur ihr Skalierungsprodukt ist, das durch das Produkt ihrer Größenordnung skaliert wird. Wann macht Cosinus-Ähnlichkeit eine bessere Abstandsmetrik als das Skalarprodukt? Dh haben das Skalarprodukt und die Kosinusähnlichkeit unterschiedliche Stärken oder Schwächen in unterschiedlichen Situationen?

8
ValueError: Eingabe enthält NaN, unendlich oder einen für dtype zu großen Wert ('float32')
Ich habe ValueError erhalten, als ich Testdaten mit einem RandomForest-Modell vorhersagte. Mein Code: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Der Fehler: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Wie finde ich die schlechten Werte im Testdatensatz? …

4
Warum ist die Mini-Batch-Größe besser als ein einzelner „Batch“ mit allen Trainingsdaten?
Ich habe oft gelesen, dass bei Deep-Learning-Modellen die übliche Praxis darin besteht, Mini-Batches (im Allgemeinen kleine, 32/64) über mehrere Trainingsepochen anzuwenden. Ich kann den Grund dafür nicht wirklich ergründen. Wenn ich mich nicht irre, gibt die Stapelgröße die Anzahl der Trainingsinstanzen an, die das Modell während einer Trainingsiteration gesehen hat. …


11
Data Science in C (oder C ++)
Ich bin ein RSprachprogrammierer. Ich gehöre auch zu der Gruppe von Leuten, die als Data Scientists gelten, aber aus anderen akademischen Disziplinen als CS stammen. Dies funktioniert in meiner Rolle als Data Scientist sehr gut. Als ich meine Karriere in Randeren Skriptsprachen / Web-Sprachen begann und nur Grundkenntnisse in diesen …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.