Data Science

5

Unterschied zwischen dem Richtliniennetzwerk von AlphaGo und dem Wertnetzwerk

Ich habe eine allgemeine Zusammenfassung zu Googles AlphaGo gelesen ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) und bin auf die Begriffe "Richtlinie" gestoßen network "und" value network ". Auf hoher Ebene verstehe ich, dass das Richtliniennetzwerk verwendet wird, um Bewegungen vorzuschlagen, und das Wertnetzwerk verwendet wird, um "die Tiefe des Suchbaums zu verringern [und …

25 machine-learning reinforcement-learning

3

Gini-Koeffizient gegen Gini-Verunreinigung - Entscheidungsbäume

Das Problem bezieht sich auf die Erstellung von Entscheidungsbäumen. Laut Wikipedia sollte ' Gini-Koeffizient ' nicht mit ' Gini-Verunreinigung ' verwechselt werden . Beide Kennzahlen können jedoch beim Erstellen eines Entscheidungsbaums verwendet werden. Diese können unsere Auswahl bei der Aufteilung der Elementmenge unterstützen. 1) 'Gini-Verunreinigung' - Es handelt sich um …

25 data-mining

4

Word2Vec für die Erkennung benannter Entitäten

Ich möchte die word2vec-Implementierung von Google verwenden, um ein System zur Erkennung benannter Entitäten zu erstellen. Ich habe gehört, dass rekursive neuronale Netze mit Backpropagation durch Struktur für Aufgaben zur Erkennung benannter Entitäten gut geeignet sind, aber ich konnte für diesen Modelltyp keine angemessene Implementierung oder ein geeignetes Lernprogramm finden. …

25 machine-learning python neural-network nlp

3

Warum brauchen wir XGBoost und Random Forest?

Bei einigen Konzepten war mir nicht klar: XGBoost wandelt schwache Lernende in starke Lernende um. Was ist der Vorteil davon? Kombinieren Sie viele schwache Lernende, anstatt nur einen einzigen Baum zu verwenden? Random Forest verwendet verschiedene Stichproben aus einem Baum, um einen Baum zu erstellen. Was ist der Vorteil dieser …

25 machine-learning data-mining random-forest decision-trees xgboost

5

VM-Image für Data Science-Projekte

Da für datenwissenschaftliche Aufgaben zahlreiche Tools zur Verfügung stehen und es umständlich ist, alles zu installieren und ein perfektes System aufzubauen. Gibt es ein Linux / Mac OS-Image mit Python, R und anderen Open-Source-Data-Science-Tools, das für die Benutzer sofort verfügbar ist? Ein Ubuntu oder ein leichtes Betriebssystem mit der neuesten …

24 python r tools

4

Überanpassung von Random Forest?

Ich habe über zufällige Wälder gelesen, aber ich kann keine endgültige Antwort auf das Problem der Überanpassung finden. Laut dem Originalpapier von Breiman sollten sie nicht überanpassen, wenn die Anzahl der Bäume im Wald erhöht wird, aber es scheint, dass es keinen Konsens darüber gibt. Dies schafft mir einige Verwirrung …

24 machine-learning random-forest

4

Scikit-Learn: SGDClassifier dazu bringen, eine logistische Regression vorherzusagen

Eine Möglichkeit, eine logistische Regression zu trainieren, besteht in der Verwendung einer stochastischen Gradientenabnahme, zu der scikit-learn eine Schnittstelle bietet. Was ich möchte , ist zu tun , nehmen Sie einen Scikit-Learn des SGDClassifier und haben sie das gleiche wie eine logistische Regression punkten hier . Ich muss jedoch einige …

24 python logistic-regression scikit-learn gradient-descent

9

Irgendeine Online-R-Konsole?

Ich suche eine Online-Konsole für die Sprache R. Wie ich den Code schreibe und den Server ausführen soll und mir die Ausgabe liefern soll. Ähnlich wie auf der Website Datacamp.

24 r statistics

3

Warum interessieren sich NLP- und Machine Learning-Communities für Deep Learning?

Ich hoffe, Sie können mir helfen, da ich einige Fragen zu diesem Thema habe. Ich bin neu auf dem Gebiet des tiefen Lernens und während ich einige Tutorials gemacht habe, kann ich Konzepte nicht miteinander in Beziehung setzen oder voneinander unterscheiden.

24 machine-learning data-mining neural-network nlp deep-learning

3

Bewährte Methoden zum Speichern von Python-Modellen für maschinelles Lernen

Was sind die bewährten Methoden zum Speichern, Speichern und Weitergeben von Modellen für maschinelles Lernen? In Python speichern wir im Allgemeinen die Binärdarstellung des Modells mit pickle oder joblib. Modelle können in meinem Fall ~ 100Mo groß sein. Außerdem kann die JobLib ein Modell in mehreren Dateien speichern, es sei …

24 python databases binary

4

Bedeutung latenter Merkmale?

Ich lerne etwas über Matrixfaktorisierung für Empfehlungssysteme und sehe, dass der Begriff latent featureszu häufig vorkommt, verstehe aber nicht, was er bedeutet. Ich weiß, was ein Feature ist, aber ich verstehe die Idee latenter Features nicht. Könnten Sie es bitte erklären? Oder zeigst du mir wenigstens eine Zeitung / einen …

24 machine-learning data-mining recommender-system

4

Ist es immer besser, den gesamten Datensatz zum Trainieren des endgültigen Modells zu verwenden?

Eine übliche Technik nach dem Training, der Validierung und dem Testen des bevorzugten Modells für maschinelles Lernen besteht darin, den gesamten Datensatz einschließlich der Testuntermenge zu verwenden, um ein endgültiges Modell für die Bereitstellung zu trainieren , z. B. für ein Produkt. Meine Frage ist: Ist es immer das Beste, …

24 machine-learning dataset training accuracy

3

Data Science-Projektideen [geschlossen]

Geschlossen . Diese Frage ist meinungsbasiert . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Ich weiß nicht, ob dies der richtige Ort ist, …

23 machine-learning bigdata dataset

3

Erfordert die Modellierung mit Random Forests eine Kreuzvalidierung?

Soweit ich gesehen habe, gehen die Meinungen darüber auseinander. Best Practice würde sicherlich die Verwendung von Kreuzvalidierung vorschreiben (insbesondere wenn RFs mit anderen Algorithmen auf demselben Datensatz verglichen werden). Andererseits besagt die ursprüngliche Quelle, dass die Tatsache, dass der OOB-Fehler während des Modelltrainings berechnet wird, als Indikator für die Leistung …

23 random-forest cross-validation

4

Was macht kolumnare Datenbanken datenwissenschaftlich?

Welche Vorteile bieten spaltenweise Datenspeicher, die sich besser für Data Science und Analytics eignen?

23 databases tools