Ich habe das Material zu XGBoost gelesen. Es scheint, dass diese Methode keine variable Skalierung erfordert, da sie auf Bäumen basiert und diese komplexe Nichtlinearitätsmuster-Interaktionen erfassen kann. Und es kann sowohl numerische als auch kategoriale Variablen verarbeiten, und es scheint auch, dass redundante Variablen diese Methode nicht zu sehr beeinflussen. …
Ich bin der Meinung, dass diese Frage mit der Theorie der Kreuzvalidierung zusammenhängt. Ich stelle meinen empirischen Befund , hier und schrieb eine Frage an die Theorie der Kreuzvalidierung im Zusammenhang gibt . Ich habe zwei Modelle M1 und M2. Ich verwende denselben Datensatz, um sie zu trainieren, und führe …
Ich stehe kurz vor meinem Abschluss und hatte etwas über maschinelles Lernen gelernt und damit Forschungsprojekte durchgeführt. Ich frage mich über die Best Practices in der Branche, wenn maschinelle Lernaufgaben mit großen Datenmengen (wie 100 GB oder TB) ausgeführt werden. Schätzen Sie, ob andere Datenwissenschaftler ihre Erfahrungen teilen können. Hier …
Ich habe einen DataFrame mit IDF bestimmter Wörter berechnet. Zum Beispiel (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Geben Sie nun eine Abfrage Q, ich kann die TF-IDF dieser Abfrage berechnen. Wie berechne ich die Kosinusähnlichkeit der Abfrage mit allen Dokumenten im Datenrahmen (es gibt fast eine Million Dokumente)? Ich könnte …
Gibt es eine Ressource mit einer Liste von Feature-Engineering-Techniken? Eine Kartierung der Art der Daten, des Modells und der Feature-Engineering-Technik wäre eine Goldmine
Ich versuche, Verstärkungslernen und Markov-Entscheidungsprozesse (MDP) zu verstehen, wenn ein neuronales Netz als Funktionsnäherungswert verwendet wird. Ich habe Schwierigkeiten mit der Beziehung zwischen dem MDP, in dem die Umgebung auf probabilistische Weise untersucht wird, wie dies auf Lernparameter zurückgeführt wird und wie die endgültige Lösung / Richtlinien gefunden werden. Kann …
Welche der folgenden Schritte ist beim Erstellen eines Vorhersagemodells die richtige? Option 1: Beseitigen Sie zuerst die offensichtlich schlechtesten Prädiktoren und verarbeiten Sie die verbleibenden bei Bedarf vor, trainieren Sie dann verschiedene Modelle mit Kreuzvalidierung, wählen Sie die wenigen besten aus, identifizieren Sie die jeweils verwendeten Top-Prädiktoren, trainieren Sie diese …
Angenommen, Sie haben eine Eingabeebene mit n Neuronen und die erste verborgene Ebene hat Neuronen, typischerweise m < n . Dann berechnen Sie die Aktivierung a j des j- ten Neurons in der verborgenen Schicht durchmmmm < nm<nm < neinjeinja_jjjj , wobei f eine Aktivierungsfunktion wie tanh oder sigmoid ist …
Ich verwende die Seaborn-Bibliothek, um Balkendiagramme in Python zu erstellen. Ich frage mich, welche Statistiken zur Berechnung der Fehlerbalken verwendet werden, kann aber in der Barplot-Dokumentation des Seaborn keinen Hinweis darauf finden . Ich weiß, dass die Balkenwerte in meinem Fall basierend auf dem Mittelwert berechnet werden (die Standardoption), und …
Ich schaue mir an, wie man Dropout in einem tiefen neuronalen Netzwerk implementiert, und fand etwas, das nicht intuitiv ist. In der Vorwärtsphase fallen Dropout-Maskenaktivierungen mit einem zufälligen Tensor von 1s und 0s an, um das Netz zu zwingen, den Durchschnitt der Gewichte zu lernen. Dies hilft dem Netz, besser …
Meine Daten enthalten binäre (numerische) und nominelle / kategoriale Umfrageantworten. Alle Antworten sind diskret und auf individueller Ebene. Die Daten haben eine Form (n = 7219, p = 105). Paar Dinge: Ich versuche, eine Clustering-Technik mit einem Ähnlichkeitsmaß zu identifizieren, das für kategoriale und numerische Binärdaten funktioniert. Es gibt Techniken …
Beim Speichern auf der Festplatte mit cPickle: /programming/20662023/save-python-random-forest-model-to-file beträgt meine zufällige Gesamtstruktur 6,57 GB. with open('rforest.cpickle', 'wb') as f: cPickle.dump(rforest, f) Ich möchte die Gesamtstruktur selbst verwenden, um Vorhersagen über eine auf Heroku gehostete Python-API zu treffen - natürlich ist diese Dateigröße nicht akzeptabel. Warum ist die Datei so groß? …
Ich lerne Support Vector Machines und kann nicht verstehen, wie eine Klassenbezeichnung für einen Datenpunkt in einem binären Klassifikator ausgewählt wird. Wird es im Konsens hinsichtlich der Klassifizierung in jeder Dimension der trennenden Hyperebene gewählt?
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Daten Wissenschaft Stapel Börse. Geschlossen vor 5 Jahren . Ich war schon immer an maschinellem Lernen interessiert, aber ich kann nicht herausfinden, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.