Data Science

2

Warum sollte die Initialisierung von Gewichten und Bias bei 0 gewählt werden?

Ich lese das: Um unser neuronales Netzwerk zu trainieren, werden wir jeden Parameter W (l) ijWij (l) und jeden b (l) ibi (l) auf einen kleinen Zufallswert nahe Null initialisieren (sagen wir gemäß einem Normalen (0, ϵ2) Normalen (0)) , ϵ2) Verteilung für einige kleine ϵϵ, sagen wir 0,01) von …

12 deep-learning stanford-nlp randomized-algorithms

4

Erkennen von Anomalien mit dem neuronalen Netzwerk

Ich habe einen großen mehrdimensionalen Datensatz, der jeden Tag generiert wird. Was wäre ein guter Ansatz, um im Vergleich zu früheren Tagen irgendeine Art von "Anomalie" zu entdecken? Ist dies ein geeignetes Problem, das mit neuronalen Netzen angegangen werden könnte? Anregungen sind willkommen. Zusätzliche Informationen: Es gibt keine Beispiele, daher …

12 tensorflow keras anomaly-detection

1

Wie sollte der Bias initialisiert und reguliert werden?

Ich habe ein paar Artikel über die Kernel-Initialisierung gelesen und in vielen Artikeln wird erwähnt, dass sie die L2-Regularisierung des Kernels verwenden (oft mitλ=0.0001λ=0.0001\lambda = 0.0001 ). Tut irgendjemand etwas anderes, als die Verzerrung mit konstanter Null zu initialisieren und sie nicht zu regulieren? Kernel-Initialisierungspapiere Mischkin und Matas: Du brauchst …

12 neural-network

6

Ist Excel ausreichend für Data Science?

Ich bereite mich gerade auf einen Einführungskurs in die Datenwissenschaft mit der Programmiersprache R vor. Mein Publikum besteht aus Studenten mit Schwerpunkt Wirtschaft. Ein typischer Business-Student hat keine Computer-Programmiererfahrung, hat jedoch einige Kurse belegt, die Excel verwenden. Persönlich fühle ich mich mit R (oder anderen Programmiersprachen) sehr wohl, weil ich …

12 programming excel

4

Alternativen zu TF-IDF und Cosine Ähnlichkeit beim Vergleich von Dokumenten unterschiedlicher Formate

Ich habe an einem kleinen, persönlichen Projekt gearbeitet, das die beruflichen Fähigkeiten eines Benutzers aufgreift und basierend auf diesen Fähigkeiten die für ihn idealste Karriere vorschlägt. Ich benutze eine Datenbank mit Stellenangeboten, um dies zu erreichen. Im Moment funktioniert der Code wie folgt: 1) Verarbeiten Sie den Text jeder Stellenanzeige, …

12 nlp text-mining similarity cosine-distance

2

Kann es zu einer Überanpassung kommen, auch wenn der Validierungsverlust weiterhin sinkt?

Ich habe ein Faltungs + LSTM-Modell in Keras, ähnlich wie dieses (Ref. 1), das ich für einen Kaggle-Wettbewerb verwende. Die Architektur ist unten dargestellt. Ich habe es auf meinem etikettierten Satz von 11000 Proben trainiert (zwei Klassen, anfängliche Prävalenz ist ~ 9: 1, daher habe ich die 1 auf etwa …

12 keras cross-validation overfitting

3

Wie wird RBM zur Klassifizierung verwendet?

Im Moment spiele ich mit Restricted Boltzmann Machines und da ich schon dabei bin, möchte ich versuchen, handschriftliche Ziffern damit zu klassifizieren. Das Modell, das ich erstellt habe, ist jetzt ein ziemlich ausgefallenes generatives Modell, aber ich weiß nicht, wie ich damit weitermachen soll. In diesem Artikel sagt der Autor, …

12 classification rbm

1

Betreutes Lernen versus Bestärkungslernen für ein einfaches selbstfahrendes RC-Auto

Ich baue aus Spaß ein ferngesteuertes, selbstfahrendes Auto. Ich verwende einen Raspberry Pi als Bordcomputer. und ich benutze verschiedene Plug-Ins, wie eine Himbeer-Pi-Kamera und Abstandssensoren, um Rückmeldung über die Umgebung des Autos zu erhalten. Ich benutze OpenCV, um die Video-Frames in Tensoren umzuwandeln, und ich benutze TensorFlow von Google, um …

12 reinforcement-learning supervised-learning

3

Wie wählt man einen Klassifikator nach der Kreuzvalidierung?

Sollten wir bei der k-fachen Kreuzvalidierung nur den Klassifikator mit der höchsten Testgenauigkeit verwenden? Was ist im Allgemeinen der beste Ansatz, um einen Klassifikator aus einer Kreuzvalidierung zu gewinnen?

12 machine-learning cross-validation

2

Auf wie viele Dimensionen soll beim PCA reduziert werden?

Wie wählt man K für PCA? K ist die Anzahl der Dimensionen, auf die projiziert werden soll. Die einzige Voraussetzung ist, nicht zu viele Informationen zu verlieren. Ich verstehe, dass es von den Daten abhängt, aber ich suche eher einen einfachen allgemeinen Überblick darüber, welche Merkmale bei der Auswahl von …

12 pca

1

Klassifizieren Sie Kunden anhand von 2 Funktionen UND einer Zeitreihe von Ereignissen

Ich brauche Hilfe bei meinem nächsten Schritt in einem Algorithmus, den ich entwerfe. Aufgrund von NDAs kann ich nicht viel preisgeben, aber ich werde versuchen, allgemein und verständlich zu sein. Grundsätzlich habe ich nach mehreren Schritten in den Algorithmen Folgendes: Für jeden Kunden, den ich habe, und Ereignisse, die sie …

12 classification clustering time-series

1

MinHashing vs SimHashing

Angenommen, ich habe fünf Gruppen, die ich gruppieren möchte. Ich verstehe, dass die hier beschriebene SimHashing-Technik: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ ergeben könnte drei Cluster ( {A}, {B,C,D}und {E}), zum Beispiel, wenn seine Ergebnisse sind: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 Ebenso die in Kapitel …

12 clustering similarity

5

Beste Julia-Bibliothek für neuronale Netze

Ich habe diese Bibliothek für den Aufbau und die Analyse von neuronalen Netzen verwendet. Es wird jedoch nicht unterstützt, mehrschichtige neuronale Netze usw. aufzubauen. Daher würde ich gerne wissen, welche Bibliotheken für fortgeschrittene neuronale Netze und Deep Learning in Julia gut geeignet sind.

12 machine-learning neural-network julia

1

Hashing Trick - was passiert eigentlich

Wenn ML-Algorithmen, z. B. Vowpal Wabbit oder einige der Faktorisierungsmaschinen, die Klickratenwettbewerbe gewinnen ( Kaggle ), erwähnen, dass Features gehasht sind, was bedeutet das eigentlich für das Modell? Nehmen wir an, es gibt eine Variable, die die ID eines Internet-Zusatzes darstellt, der Werte wie '236BG231' annimmt. Dann verstehe ich, dass …

12 machine-learning predictive-modeling kaggle

7

Was ist ein "alter Name" eines Datenwissenschaftlers?

Begriffe wie "Data Science" und "Data Scientist" werden heutzutage zunehmend verwendet. Viele Unternehmen stellen Datenwissenschaftler ein. Aber ich denke nicht, dass es ein völlig neuer Job ist. Es gab Daten aus der Vergangenheit und jemand musste sich mit Daten befassen. Ich denke, der Begriff "Data Scientist" wird populärer, weil er …

12 bigdata