Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

4
Pandas: Wie kann ich mehrstufige Spalten erstellen?
Ich habe einen Pandas DataFrame mit folgenden Spalten: n_0 n_1 p_0 p_1 e_0 e_1 Ich möchte es in Spalten und Unterspalten umwandeln: 0 n p e 1 n p e Ich habe in der Dokumentation gesucht und bin völlig verloren, wie ich dies implementieren soll. Hat jemand irgendwelche Vorschläge?
8 pandas 

3
Gute Bücher für Hadoop, Spark und Spark Streaming [geschlossen]
Geschlossen . Diese Frage basiert auf Meinungen . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Kann jemand gute Bücher vorschlagen, um die Grundlagen …


4
Ähnlichkeit der Berufsbezeichnung
Ich versuche, eine Metrik zwischen Berufsbezeichnungen im IT-Bereich zu definieren. Dazu benötige ich eine Metrik zwischen Wörtern von Berufsbezeichnungen, die nicht zusammen in derselben Berufsbezeichnung erscheinen, z. B. eine Metrik zwischen den Wörtern Senior, Primary, Lead, Head, VP, Director, Zeug, Principal, Chief, oder die Wörter Analyst, Experte, Modellierer, Forscher, Wissenschaftler, …

3
Vergleich von Experimenten, die über verschiedene Infrastrukturen laufen
Ich entwickle einen verteilten Algorithmus. Um die Effizienz zu verbessern, hängt er sowohl von der Anzahl der Festplatten (eine pro Maschine) als auch von einer effizienten Lastausgleichsstrategie ab. Mit mehr Festplatten können wir den Zeitaufwand für E / A reduzieren. Mit einer effizienten Lastausgleichsrichtlinie können wir Aufgaben ohne großen Aufwand …

2
Filtern von Spam aus abgerufenen Daten
Ich habe einmal gehört, dass das Filtern von Spam mithilfe von Blacklists kein guter Ansatz ist, da einige Benutzer, die nach Einträgen in Ihrem Datensatz suchen, möglicherweise nach bestimmten Informationen aus den blockierten Quellen suchen. Außerdem wäre es eine Belastung, den aktuellen Status jedes blockierten Spammers kontinuierlich zu überprüfen und …

2
Speicherfehler bei Verwendung mehrerer Ebenen im CNN-Modell
Auf meinem Dell Core i7 - 16 GB RAM - 4 GB 960 m GPU-Laptop arbeite ich an einem Projekt zur Klassifizierung von Lungen-CT-Bildern mithilfe von 3D-CNN. Ich verwende die CPU-Version von Tensorflow. Die Bilder werden als Numpy-Array-Größe (25,50,50) vorbereitet. Mein CNN-Modell hatte 2 Conv-Schichten, zwei Maxpool-Schichten, eine FC-Schicht und …


1
Frage zum Bias-Varianz-Kompromiss und zu Optimierungsmitteln
Ich habe mich also gefragt, wie man zum Beispiel das Modell, das sie zu erstellen versuchen, am besten optimieren kann, wenn man mit Problemen konfrontiert wird, die durch hohe Voreingenommenheit oder hohe Varianz verursacht werden. Jetzt können Sie natürlich mit dem Regularisierungsparameter spielen, um ein zufriedenstellendes Ende zu erreichen, aber …

1
Wie funktioniert ein Encoder-Decoder-Netzwerk?
Angenommen, ich habe ein Encoder-Decoder-Netzwerk auf einem Cat- Datensatz trainiert, wobei der Rekonstruktionsfehler als Verlustfunktion verwendet wurde. Das Netzwerk ist vollständig trainiert und der Decoder kann gute Katzenbilder rekonstruieren . Was ist nun, wenn ich dasselbe Netzwerk verwende und ein Hundebild eingebe ? Wird das Netzwerk in der Lage sein …


1
Datenerweiterung bei Verwendung von flow_from_directory in CNN
Ich möchte einen kleinen Datensatz verwenden, um ein CNN-Modell zu erstellen. Daher verwende ich die Datenerweiterung, um den Zugdatensatz zu vergrößern. Soll ich alle Augmentationstechniken (Argumente) verwenden , die aufgeführt hier ? Ich habe festgestellt, dass das Hinzufügen vieler Argumente die Genauigkeit des Modells verringert und das Trainingsset schwieriger macht …

1
Unter welchen Umständen ist Lemmatisierung kein ratsamer Schritt bei der Arbeit mit Textdaten?
Gibt es unter Berücksichtigung möglicher Rechenbeschränkungen allgemeine Anwendungen, bei denen die Lemmatisierung ein kontraproduktiver Schritt bei der Analyse von Textdaten wäre? Wäre Lemmatisierung beispielsweise etwas, das beim Erstellen eines kontextsensitiven Modells nicht durchgeführt wird? Als Referenz ist Lemmatisierung per dictinory.com der Vorgang des Gruppierens der gebogenen Formen von (einem Wort) …

3
Welche Ausreißererkennung kann diese Ausreißer erkennen?
Ich habe einen Vektor und möchte darin Ausreißer erkennen. Die folgende Abbildung zeigt die Verteilung des Vektors. Rote Punkte sind Ausreißer. Blaue Punkte sind normale Punkte. Gelbe Punkte sind ebenfalls normal. Ich benötige eine Ausreißererkennungsmethode (eine nicht parametrische Methode), mit der nur rote Punkte als Ausreißer erkannt werden können. Ich …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.