Data Science

5

Was sind einige Standardmethoden zum Berechnen des Abstands zwischen Dokumenten?

Wenn ich "Dokument" sage, denke ich an Webseiten wie Wikipedia-Artikel und Nachrichten. Ich bevorzuge Antworten, die entweder lexikalische Entfernungsmetriken aus Vanille oder semantische Entfernungsmetriken nach dem neuesten Stand der Technik enthalten, wobei letztere stärker bevorzugt werden.

34 machine-learning data-mining nlp text-mining similarity

7

Organisierte Prozesse zur Datenbereinigung

Durch meine eingeschränkte Beschäftigung mit Data Science mit R wurde mir klar, dass die Bereinigung fehlerhafter Daten ein sehr wichtiger Teil der Vorbereitung von Daten für die Analyse ist. Gibt es Best Practices oder Verfahren zum Bereinigen von Daten vor deren Verarbeitung? Wenn ja, gibt es automatisierte oder halbautomatisierte Tools, …

34 r data-cleaning

5

Öffnen einer 20-GB-Datei zur Analyse mit Pandas

Ich versuche gerade, eine Datei mit Pandas und Python für maschinelles Lernen zu öffnen. Es wäre ideal, wenn ich sie alle in einem DataFrame hätte. Jetzt ist die Datei 18 GB groß und mein RAM ist 32 GB, aber ich bekomme immer wieder Speicherfehler. Aus Ihrer Erfahrung ist es möglich? …

33 python bigdata pandas anaconda

3

Multi GPU in Keras

Wie können Sie in der Keras-Bibliothek (oder im Tensorflow) programmieren, um das Training auf mehrere GPUs aufzuteilen? Angenommen, Sie befinden sich in einer Amazon ec2-Instanz mit 8 GPUs und möchten alle verwenden, um schneller zu trainieren. Ihr Code ist jedoch nur für eine einzelne CPU oder GPU bestimmt.

33 python deep-learning tensorflow keras gpu

4

Intuitive Erklärung des Verlusts durch Noise Contrastive Estimation (NCE)?

Ich habe über NCE (eine Form der Stichprobenauswahl) aus diesen beiden Quellen gelesen: Tensorflow-Zuschreibung Original Papier Kann mir jemand bei Folgendem helfen: Eine einfache Erklärung der Funktionsweise von NCE (Ich fand es schwierig, das oben Genannte zu analysieren und zu verstehen. Etwas Intuitives, das zur dort vorgestellten Mathematik führt, wäre …

32 deep-learning tensorflow word-embeddings sampling loss-function

5

Was sind die Anwendungsfälle für Apache Spark vs Hadoop

Mit Hadoop 2.0 und YARN ist Hadoop angeblich nicht mehr nur an Kartenreduzierungslösungen gebunden. Was sind die Anwendungsfälle für Apache Spark und Hadoop, wenn man bedenkt, dass beide auf HDFS basieren? Ich habe die Einführungsdokumentation für Spark gelesen, bin aber gespannt, ob jemand auf ein Problem gestoßen ist, das mit …

30 apache-hadoop distributed knowledge-base

1

Was ist das beste Keras-Modell für die Klassifizierung mehrerer Klassen?

Ich arbeite an der Forschung, wo Bedarf zum Klassifizieren eines von drei Ereignisse WINNER = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Mein aktuelles Modell ist: …

30 python neural-network classification clustering keras

1

Papier: Was ist der Unterschied zwischen Layer-Normalisierung, wiederkehrender Batch-Normalisierung (2016) und Batch-normalisierter RNN (2015)?

In letzter Zeit gibt es ein Papier zur Ebenennormalisierung . Es gibt auch eine Implementierung auf Keras. Aber ich erinnere mich, dass es Artikel mit dem Titel Recurrent Batch Normalization (Cooijmans, 2016) und Batch Normalized Recurrent Neural Networks (Laurent, 2015) gibt. Was ist der Unterschied zwischen diesen drei? Es gibt …

30 deep-learning rnn normalization batch-normalization

5

Deep Learning vs. Steigungserhöhung: Wann was verwenden?

Ich habe ein Problem mit großen Datenmengen (z. B. 50 Millionen Zeilen und 200 Spalten). Das Dataset besteht aus ungefähr 100 numerischen Spalten und 100 kategorialen Spalten sowie einer Antwortspalte, die ein Binärklassenproblem darstellt. Die Kardinalität jeder der kategorialen Spalten beträgt weniger als 50. Ich möchte a priori wissen, ob …

30 machine-learning classification deep-learning

5

Was ist die Q-Funktion und was ist die V-Funktion beim Bestärkungslernen?

Es scheint mir, dass die VVV Funktion leicht durch die QQQ Funktion ausgedrückt werden kann und daher die Funktion für mich überflüssig zu sein scheint. Allerdings lerne ich noch nicht viel, also habe ich wohl etwas falsch gemacht.VVV Definitionen Q- und V-Learning stehen im Kontext von Markov-Entscheidungsprozessen . Ein MDP …

30 machine-learning reinforcement-learning

3

Warum sollten Sie im Softmax-Klassifikator die Funktion exp verwenden, um eine Normalisierung durchzuführen?

Warum Softmax im Gegensatz zur Standardnormalisierung verwenden? Im Kommentarbereich der oberen Antwort auf diese Frage hat @Kilian Batzner zwei Fragen aufgeworfen, die mich ebenfalls sehr verwirren. Es scheint, dass niemand eine Erklärung abgesehen von numerischen Vorteilen gibt. Ich habe die Gründe für die Verwendung von Cross-Entropy Loss herausgefunden, aber wie …

30 machine-learning deep-learning

7

Warum sollten die Daten für maschinelles Lernen gemischt werden?

Bei maschinellen Lernaufgaben ist es üblich, Daten zu mischen und zu normalisieren. Der Zweck der Normalisierung ist klar (für den gleichen Bereich von Merkmalswerten). Aber nachdem ich viel gekämpft hatte, fand ich keinen wertvollen Grund, Daten zu mischen. Ich habe diesen Beitrag hier gelesen und erörtert, wann wir Daten mischen …

30 machine-learning neural-network deep-learning

5

Konvertieren Sie eine Liste von Listen in einen Pandas-Datenrahmen

Ich versuche, eine Liste von Listen, die wie folgt aussieht, in einen Pandas-Datenrahmen zu konvertieren [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', …

30 pandas

1

Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

Kurzanleitung zum Trainieren stark unausgeglichener Datensätze

Ich habe ein Klassifizierungsproblem mit ungefähr 1000 positiven und 10000 negativen Proben im Trainingssatz. Dieser Datensatz ist also ziemlich unausgeglichen. Normaler Zufallswald versucht nur, alle Testproben als Mehrheitsklasse zu markieren. Hier finden Sie einige gute Antworten zu Unterabtastungen und gewichteten Zufallsforsten: Was bedeutet es, ein Tree Ensemble mit stark voreingenommenen …

29 machine-learning classification dataset unbalanced-classes