Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

4
Ist Feature Engineering bei Verwendung von XGBoost noch nützlich?
Ich habe das Material zu XGBoost gelesen. Es scheint, dass diese Methode keine variable Skalierung erfordert, da sie auf Bäumen basiert und diese komplexe Nichtlinearitätsmuster-Interaktionen erfassen kann. Und es kann sowohl numerische als auch kategoriale Variablen verarbeiten, und es scheint auch, dass redundante Variablen diese Methode nicht zu sehr beeinflussen. …



1
Berechnen Sie die Kosinusähnlichkeit in Apache Spark
Ich habe einen DataFrame mit IDF bestimmter Wörter berechnet. Zum Beispiel (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Geben Sie nun eine Abfrage Q, ich kann die TF-IDF dieser Abfrage berechnen. Wie berechne ich die Kosinusähnlichkeit der Abfrage mit allen Dokumenten im Datenrahmen (es gibt fast eine Million Dokumente)? Ich könnte …



1
Verstärkungslernen mit neuronalen Netzen verstehen (Q-Learning)
Ich versuche, Verstärkungslernen und Markov-Entscheidungsprozesse (MDP) zu verstehen, wenn ein neuronales Netz als Funktionsnäherungswert verwendet wird. Ich habe Schwierigkeiten mit der Beziehung zwischen dem MDP, in dem die Umgebung auf probabilistische Weise untersucht wird, wie dies auf Lernparameter zurückgeführt wird und wie die endgültige Lösung / Richtlinien gefunden werden. Kann …

2
Schritte des maschinellen Lernens
Welche der folgenden Schritte ist beim Erstellen eines Vorhersagemodells die richtige? Option 1: Beseitigen Sie zuerst die offensichtlich schlechtesten Prädiktoren und verarbeiten Sie die verbleibenden bei Bedarf vor, trainieren Sie dann verschiedene Modelle mit Kreuzvalidierung, wählen Sie die wenigen besten aus, identifizieren Sie die jeweils verwendeten Top-Prädiktoren, trainieren Sie diese …

1
Warum verwendet die Rekonstruktion in Autoencodern dieselbe Aktivierungsfunktion wie die Vorwärtsaktivierung und nicht die umgekehrte?
Angenommen, Sie haben eine Eingabeebene mit n Neuronen und die erste verborgene Ebene hat Neuronen, typischerweise m &lt; n . Dann berechnen Sie die Aktivierung a j des j- ten Neurons in der verborgenen Schicht durchmmmm &lt; nm&lt;nm < neinjeinja_jjjj , wobei f eine Aktivierungsfunktion wie tanh oder sigmoid ist …

1
Python Seaborn: Wie werden Fehlerbalken in Barplots berechnet?
Ich verwende die Seaborn-Bibliothek, um Balkendiagramme in Python zu erstellen. Ich frage mich, welche Statistiken zur Berechnung der Fehlerbalken verwendet werden, kann aber in der Barplot-Dokumentation des Seaborn keinen Hinweis darauf finden . Ich weiß, dass die Balkenwerte in meinem Fall basierend auf dem Mittelwert berechnet werden (die Standardoption), und …

1
Grundlegendes zu Ausfall und Gefälle
Ich schaue mir an, wie man Dropout in einem tiefen neuronalen Netzwerk implementiert, und fand etwas, das nicht intuitiv ist. In der Vorwärtsphase fallen Dropout-Maskenaktivierungen mit einem zufälligen Tensor von 1s und 0s an, um das Netz zu zwingen, den Durchschnitt der Gewichte zu lernen. Dies hilft dem Netz, besser …

4
Clustering für gemischte numerische und nominale diskrete Daten
Meine Daten enthalten binäre (numerische) und nominelle / kategoriale Umfrageantworten. Alle Antworten sind diskret und auf individueller Ebene. Die Daten haben eine Form (n = 7219, p = 105). Paar Dinge: Ich versuche, eine Clustering-Technik mit einem Ähnlichkeitsmaß zu identifizieren, das für kategoriale und numerische Binärdaten funktioniert. Es gibt Techniken …

2
Unzulässige Größe der zufälligen Gesamtstruktur beim Speichern auf der Festplatte
Beim Speichern auf der Festplatte mit cPickle: /programming/20662023/save-python-random-forest-model-to-file beträgt meine zufällige Gesamtstruktur 6,57 GB. with open('rforest.cpickle', 'wb') as f: cPickle.dump(rforest, f) Ich möchte die Gesamtstruktur selbst verwenden, um Vorhersagen über eine auf Heroku gehostete Python-API zu treffen - natürlich ist diese Dateigröße nicht akzeptabel. Warum ist die Datei so groß? …



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.