Data Science

3

Warum konvolutieren, wenn Max Pooling das Bild sowieso nur herunterrechnen wird?

Die Idee, Filter anzuwenden, um so etwas wie Kanten zu identifizieren, ist eine ziemlich coole Idee. Beispielsweise können Sie ein Bild von einer 7 aufnehmen. Mit einigen Filtern können Sie transformierte Bilder erhalten, die unterschiedliche Eigenschaften des Originalbilds betonen. Die ursprüngliche 7: kann vom Netzwerk erlebt werden als: Beachten Sie, …

13 neural-network

1

Vergessen Sie die Schicht in einem wiederkehrenden neuronalen Netzwerk (RNN) -

Ich versuche, die Dimensionen der einzelnen Variablen in einer RNN in der Vergessen-Ebene herauszufinden, bin mir jedoch nicht sicher, ob ich auf dem richtigen Weg bin. Das nächste Bild und die folgende Gleichung stammen aus Colahs Blogpost "Understanding LSTM Networks" : wo: xtxtx_t ist die Eingabe desVektorsder Größem ∗ 1m∗1m*1 …

13 neural-network rnn

1

Was ist der Unterschied zwischen einer heißen Codierung und einer ausgelassenen Codierung?

Ich lese eine Präsentation und empfehle, keine Kodierung wegzulassen, aber mit einer heißen Kodierung ist es in Ordnung. Ich dachte, sie wären beide gleich. Kann jemand beschreiben, was die Unterschiede zwischen ihnen sind?

13 machine-learning data-mining feature-selection feature-extraction feature-engineering

4

Wie initialisiere ich ein neues word2vec-Modell mit vorab trainierten Modellgewichten?

Ich verwende die Gensim Library in Python, um das word2vector-Modell zu verwenden und zu trainieren. Kürzlich habe ich versucht, meine Modellgewichte mit einem vorab trainierten word2vec-Modell zu initialisieren, z. B. mit einem vorab trainierten Modell von GoogleNewDataset. Ich habe ein paar Wochen damit zu kämpfen. Ich habe gerade herausgefunden, dass …

13 python nlp word-embeddings word2vec gensim

4

Entscheidungsbaum vs. KNN

In welchen Fällen ist es besser, einen Entscheidungsbaum und in anderen Fällen einen KNN zu verwenden? Warum in bestimmten Fällen einen von ihnen verwenden? Und der andere in verschiedenen Fällen? (Betrachtet man die Funktionalität, nicht den Algorithmus) Hat jemand Erklärungen oder Hinweise dazu?

13 machine-learning data-mining decision-trees

4

Können wir die Vorteile des Transfer-Lernens beim Training von word2vec-Modellen nutzen?

Ich suche nach vorab trainierten Gewichten für bereits trainierte Modelle wie Google News-Daten usw. Es fiel mir schwer, ein neues Modell mit einer ausreichenden Datenmenge (10 GB usw.) für mich selbst zu trainieren. Ich möchte also vom Transferlernen profitieren, bei dem ich vorab trainierte Ebenengewichte erhalten und diese Gewichte für …

13 machine-learning bigdata word2vec

2

Ethisch und kosteneffiziente Skalierung von Datenproblemen

Nur wenige Dinge im Leben machen mir Spaß, strukturierte und unstrukturierte Daten aus dem Internet zu kratzen und in meinen Modellen zu verwenden. Mit dem Data Science Toolkit (oder RDSTKfür R-Programmierer) kann ich beispielsweise viele gute standortbasierte Daten mithilfe von IPs oder Adressen abrufen, und mit dem Paket tm.webmining.pluginfür R …

13 text-mining scraping

8

Ist Python für Big Data geeignet?

Ich habe in diesem Beitrag gelesen: Ist die R-Sprache für Big Data geeignet, die Big Data ausmacht 5TB, und obwohl sie gute Informationen über die Machbarkeit der Arbeit mit dieser Art von Daten Rliefert, enthält sie nur sehr wenige Informationen über Python. Ich habe mich gefragt, ob ich Pythonmit so …

13 bigdata python

3

Beste Methode zum Klassifizieren von Datasets mit gemischten Attributtypen

Ich würde gerne wissen, wie man einen Datensatz, der aus gemischten Attributtypen besteht, am besten klassifiziert, z. B. in Textform und numerisch. Ich weiß, dass ich Text in Boolean konvertieren kann, aber der Wortschatz ist vielfältig und die Daten werden zu spärlich. Ich habe auch versucht, die Attributtypen separat zu …

13 machine-learning classification

2

Gibt es APIs zum Crawlen von Abstracts auf Papier?

Wenn ich eine sehr lange Liste von Papiernamen habe, wie könnte ich eine Zusammenfassung dieser Papiere aus dem Internet oder einer Datenbank erhalten? Die Papiernamen sind wie "Bewertung des Nutzens im Web Mining für den Bereich der öffentlichen Gesundheit". Kennt jemand eine API, die mir eine Lösung geben kann? Ich …

13 data-mining machine-learning

2

Wie implementiere ich eine Eins-zu-Viele- und eine Viele-zu-Viele-Sequenzvorhersage in Keras?

Ich habe Mühe, den Keras-Codierungsunterschied für die Eins-zu-Viele-Sequenzkennzeichnung (z. B. Klassifizierung einzelner Bilder) und die Viele-zu-Viele-Sequenzkennzeichnung (z. B. Klassifizierung von Bildsequenzen) zu interpretieren. Ich sehe häufig zwei verschiedene Arten von Codes: Bei Typ 1 wird kein TimeDistributed wie folgt angewendet: model=Sequential() model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1], border_mode="valid", input_shape=[1, 56,14])) model.add(Activation("relu")) model.add(Convolution2D(nb_filters, kernel_size[0], …

13 keras rnn lstm sequence

2

Warum werden Variablen von Zug- und Testdaten mit dem Großbuchstaben (in Python) definiert?

Ich hoffe, diese Frage ist auf dieser Seite am besten geeignet ... In Python wird der Klassenname normalerweise mit dem Großbuchstaben als erstem Zeichen definiert class Vehicle: ... Im Bereich des maschinellen Lernens werden Zug- und Testdaten jedoch häufig als Xund Y- nicht xund definiert y. Zum Beispiel lese ich …

13 python dataset

3

Wie unterscheiden sich Deep-Learning-NNs jetzt (2016) von denen, die ich vor 4 Jahren (2012) studiert habe?

In Wikipedia und deeplearning4j heißt es, dass Deep-Learning-NN (DLNN) NN sind, die> 1 verborgene Schicht haben. Diese Art von NN war für mich an der Universität Standard, während DLNN derzeit sehr hochgespielt sind. War schon da, hab das gemacht - was ist die große Sache? Ich habe auch gehört, dass …

13 neural-network deep-learning

2

Wie passen paarweise eingestufte Modelle in xgBoost?

Soweit ich weiß, müssen drei Dinge im Datensatz enthalten sein, um das Erlernen von Ranglistenmodellen zu trainieren: Label oder Relevanz Gruppen- oder Abfrage-ID Merkmalsvektor Beispielsweise verwendet das Microsoft Learning to Rank-Dataset dieses Format (Bezeichnung, Gruppen-ID und Funktionen). 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... Ich probiere xgBoost …

13 search ranking xgboost gbm

4

Wie skaliere ich ein Array vorzeichenbehafteter Ganzzahlen im Bereich von 0 bis 1?

Ich verwende Brain , um ein neuronales Netzwerk mit einem Funktionsumfang zu trainieren, der sowohl positive als auch negative Werte enthält. Aber Brain benötigt Eingabewerte zwischen 0 und 1. Wie kann ich meine Daten am besten normalisieren?

13 machine-learning neural-network feature-scaling normalization javascript