Data Science

1

Die Bedeutung von Merkmalen über zufällige Gesamtstruktur und lineare Regression ist unterschiedlich

Hat Lasso angewendet, um die Features zu bewerten und die folgenden Ergebnisse zu erzielen: rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 Beachten Sie, dass der Datensatz 3 Beschriftungen hat. Die Rangfolge der Features für die verschiedenen Labels ist gleich. Wenden Sie dann eine zufällige …

9 feature-selection random-forest linear-regression

1

Wie kann ich eine mehrwertige kategoriale Variable aus dem Pandas-Datenrahmen binär codieren?

Angenommen, wir haben den folgenden Datenrahmen mit mehreren Werten für eine bestimmte Spalte: categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] Wie können wir so einen Tisch bekommen? "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 1 1 …

9 python pandas

1

Funktionsauswahl für Support Vector Machines

Meine Frage ist dreifach Im Kontext von "Kernelized" unterstützen Vektormaschinen Ist die Auswahl von Variablen / Merkmalen wünschenswert - insbesondere, da wir den Parameter C regulieren, um eine Überanpassung zu verhindern, und das Hauptmotiv für die Einführung von Kerneln in eine SVM darin besteht, die Dimensionalität des Problems zu erhöhen. …

9 svm feature-selection scikit-learn

4

Bücher über Reinforcement Learning

Ich habe schon seit einiger Zeit versucht, das Lernen von Verstärkung zu verstehen, aber irgendwie kann ich mir nicht vorstellen, wie man ein Programm für das Lernen von Verstärkung schreibt, um ein Problem der Gitterwelt zu lösen. Können Sie mir einige Lehrbücher vorschlagen, die mir helfen würden, eine klare Vorstellung …

9 machine-learning books reinforcement-learning

5

Irgendeine Idee über die Anwendung eines tiefen Traums?

Kürzlich hat Google interessante tiefe Träume veröffentlicht. Sehen Sie neben der Kunstgeneration wie http://deepdreamgenerator.com/ mögliche Anwendungen von Deep Dream in Computer Vision oder maschinellem Lernen?

9 machine-learning deep-learning

2

Gibt es eine Methode, die der Dimensionsreduktion entgegengesetzt ist?

Ich bin neu im Bereich des maschinellen Lernens, habe aber meinen Teil zur Signalverarbeitung beigetragen. Bitte lassen Sie mich wissen, wenn diese Frage falsch beschriftet wurde. Ich habe zweidimensionale Daten, die durch mindestens drei Variablen definiert sind, wobei ein stark nichtlineares Modell viel zu kompliziert ist, um es zu simulieren. …

9 machine-learning scikit-learn

2

Beziehung zwischen VC-Dimension und Freiheitsgraden

Ich studiere maschinelles Lernen und glaube, dass es eine starke Beziehung zwischen dem Konzept der VC-Dimension und dem klassischeren (statistischen) Konzept der Freiheitsgrade gibt. Kann jemand einen solchen Zusammenhang erklären?

9 machine-learning self-study

1

Verwenden von Vowpal Wabbit für NER

Das Vowpal Wabbit (VW) unterstützt offenbar die Sequenz-Tagging-Funktion über SEARN . Das Problem ist, dass ich nirgendwo eine detaillierte Parameterliste mit Erklärungen und einigen Beispielen finden kann. Das Beste, was ich finden konnte, ist Zinkovs Blogeintrag mit einem sehr kurzen Beispiel. Die Haupt-Wiki-Seite erwähnt SEARN kaum. Im ausgecheckten Quellcode habe …

9 machine-learning nlp

2

Komplementäre naive Bayes in Python implementieren?

Problem Ich habe versucht, Naive Bayes für einen beschrifteten Datensatz von Kriminalitätsdaten zu verwenden, habe aber wirklich schlechte Ergebnisse erzielt (7% Genauigkeit). Naive Bayes läuft viel schneller als andere Alogorithmen, die ich verwendet habe, deshalb wollte ich herausfinden, warum die Punktzahl so niedrig war. Forschung Nach dem Lesen stellte ich …

9 machine-learning classification python naive-bayes-classifier

1

Gibt es unbeaufsichtigte Lernalgorithmen für zeitlich geordnete Daten?

Jede Beobachtung in meinen Daten wurde mit einer Differenz von 0,1 Sekunden gesammelt. Ich nenne es keine Zeitreihe, weil es keinen Datums- und Zeitstempel hat. In den Beispielen für Clustering-Algorithmen (die ich online gefunden habe) und PCA haben die Probendaten 1 Beobachtung pro Fall und sind nicht zeitgesteuert. Aber meine …

9 algorithms

3

R zufällige Gesamtstruktur auf Amazon ec2 Fehler: Vektor mit einer Größe von 5,4 GB kann nicht zugeordnet werden

Ich trainiere zufällige randomForest()Waldmodelle in R mit 1000 Bäumen und Datenrahmen mit etwa 20 Prädiktoren und 600K Zeilen. Auf meinem Laptop funktioniert alles einwandfrei, aber wenn ich zu amazon ec2 wechsle, um dasselbe auszuführen, wird folgende Fehlermeldung angezeigt: Error: cannot allocate vector of size 5.4 Gb Execution halted Ich verwende …

9 r random-forest

2

Clustering von Dokumenten unter Verwendung der aus Latent Dirichlet Allocation abgeleiteten Themen

Ich möchte Latent Dirichlet Allocation für ein Projekt verwenden und verwende Python mit der Gensim-Bibliothek. Nachdem ich die Themen gefunden habe, möchte ich die Dokumente mit einem Algorithmus wie k-means gruppieren (idealerweise möchte ich einen guten für überlappende Cluster verwenden, damit jede Empfehlung begrüßt wird). Ich habe es geschafft, die …

9 python clustering lda

7

Karrierewechsel zu Big Data Analytics

Ich bin ein 35 Jahre alter IT-Experte, der rein technisch ist. Ich kann gut programmieren, neue Technologien lernen, verstehen und implementieren. Ich mochte Mathematik in der Schule nicht, deshalb habe ich in Mathematik nicht gut abgeschnitten. Ich bin sehr daran interessiert, eine Karriere in der Big Data-Analytik zu verfolgen. Ich …

9 career

2

Gibt es Unterschiede in der Regularisierung von MLP zwischen Batch- und Einzelaktualisierungen?

Ich habe gerade etwas über Regularisierung als Ansatz zur Kontrolle der Überanpassung gelernt und möchte die Idee in eine einfache Implementierung von Backpropagation und Multilayer Perceptron (MLP) integrieren, die ich zusammengestellt habe. Um eine Überanpassung zu vermeiden, überprüfe ich derzeit das Netzwerk und behalte das bisher beste Ergebnis im Validierungssatz. …

9 neural-network

1

Signalcodierung lernen

Ich habe eine große Anzahl von Samples, die Manchester-codierte Bitströme als Audiosignale darstellen. Die Frequenz, mit der sie codiert werden, ist die primäre Frequenzkomponente, wenn sie hoch ist, und im Hintergrund ist eine konstante Menge an weißem Rauschen zu sehen. Ich habe diese Streams manuell dekodiert, aber ich habe mich …

9 machine-learning data-mining scalability algorithms feature-selection