Data Science machine-learning

8

Clustering von Geostandortkoordinaten (Lat, lange Paare)

Was ist der richtige Ansatz und Clustering-Algorithmus für das Geolocation-Clustering? Ich verwende den folgenden Code, um Geolocation-Koordinaten zu clustern: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) …

51 machine-learning python clustering k-means geospatial

8

Warum ist Überanpassung beim maschinellen Lernen schlecht?

In der Logik wird häufig angegeben, dass die Generalisierungsfähigkeit eines Modells durch Überanpassung eingeschränkt ist. Dies kann jedoch nur bedeuten, dass die Überanpassung ein Modell nach einer bestimmten Komplexität an der Verbesserung hindert. Wird das Modell durch Überanpassung ungeachtet der Komplexität der Daten schlechter, und wenn ja, warum ist dies …

49 machine-learning predictive-modeling

9

Gibt es eine Domäne, in der Bayes'sche Netzwerke neuronale Netzwerke übertreffen?

Neuronale Netze erzielen Spitzenergebnisse bei Computer Vision-Aufgaben (siehe MNIST , ILSVRC , Kaggle Galaxy Challenge ). Sie scheinen jeden anderen Ansatz in Computer Vision zu übertreffen. Es gibt aber auch andere Aufgaben: Kaggle Molecular Activity Challenge Regression: Kaggle Rain Vorhersage , auch der 2. Platz 2. und 3. Platz erfassen …

48 machine-learning pgm

4

Neuronale Netze: Welche Kostenfunktion soll verwendet werden?

Ich benutze TensorFlow für Experimente hauptsächlich mit neuronalen Netzen. Obwohl ich bereits einige Experimente durchgeführt habe (XOR-Problem, MNIST, einiges an Regression, ...), habe ich Schwierigkeiten, die "richtige" Kostenfunktion für bestimmte Probleme zu wählen, da ich insgesamt als Anfänger gelten könnte. Bevor ich zu TensorFlow kam, habe ich einige vollständig verbundene …

48 machine-learning python neural-network statistics tensorflow

5

Soll ich mich für einen 'ausgeglichenen' Datensatz oder einen 'repräsentativen' Datensatz entscheiden?

Meine 'maschinelles Lernen'-Aufgabe besteht darin, harmlosen Internet-Verkehr von böswilligem Verkehr zu trennen. Im realen Szenario ist der größte Teil (sagen wir 90% oder mehr) des Internetverkehrs harmlos. Daher hatte ich das Gefühl, dass ich auch für das Training meiner Modelle ein ähnliches Daten-Setup wählen sollte. Aber ich bin auf ein …

48 machine-learning dataset unbalanced-classes

10

Maschinelles Lernen - Features Engineering aus Datums- / Zeitdaten

Was sind die gängigen / bewährten Methoden für den Umgang mit Zeitdaten für maschinelles Lernen? Wenn sich beispielsweise in einem Datensatz eine Spalte mit einem Zeitstempel des Ereignisses befindet, z. B. "2014-05-05", wie können Sie nützliche Funktionen aus dieser Spalte extrahieren, falls vorhanden? Danke im Voraus!

45 machine-learning time-series feature-selection

4

Hinzufügen von Funktionen zum Zeitreihenmodell LSTM

Ich habe ein wenig über LSTMs und ihre Verwendung für Zeitreihen nachgelesen und es war interessant, aber gleichzeitig schwierig. Eine Sache, die ich bisher nicht verstanden habe, ist der Ansatz, zusätzliche Funktionen zu einer Liste von Zeitreihenfunktionen hinzuzufügen. Angenommen, Sie haben Ihren Datensatz wie folgt eingerichtet: t-3, t-2, t-1, Ausgabe …

42 machine-learning neural-network deep-learning time-series

4

Warum ist die Mini-Batch-Größe besser als ein einzelner „Batch“ mit allen Trainingsdaten?

Ich habe oft gelesen, dass bei Deep-Learning-Modellen die übliche Praxis darin besteht, Mini-Batches (im Allgemeinen kleine, 32/64) über mehrere Trainingsepochen anzuwenden. Ich kann den Grund dafür nicht wirklich ergründen. Wenn ich mich nicht irre, gibt die Stapelgröße die Anzahl der Trainingsinstanzen an, die das Modell während einer Trainingsiteration gesehen hat. …

40 machine-learning deep-learning

10

Warum werden maschinelle Lernmodelle als Blackboxes bezeichnet?

Ich las diesen Blog-Beitrag mit dem Titel: Die Finanzwelt will die Black Boxes von AI öffnen , wobei der Autor ML-Modelle wiederholt als "Black Boxes" bezeichnet. Eine ähnliche Terminologie wurde an mehreren Stellen für ML-Modelle verwendet. Wieso ist es so? Es ist nicht so, dass die ML-Ingenieure nicht wissen, was …

40 machine-learning terminology

11

Data Science in C (oder C ++)

Ich bin ein RSprachprogrammierer. Ich gehöre auch zu der Gruppe von Leuten, die als Data Scientists gelten, aber aus anderen akademischen Disziplinen als CS stammen. Dies funktioniert in meiner Rolle als Data Scientist sehr gut. Als ich meine Karriere in Randeren Skriptsprachen / Web-Sprachen begann und nur Grundkenntnisse in diesen …

40 machine-learning bigdata statistics programming c

10

Können Algorithmen für maschinelles Lernen Sportergebnisse oder -spiele vorhersagen?

Ich habe eine Vielzahl von NFL-Datensätzen, von denen ich denke, dass sie ein gutes Nebenprojekt sind, aber ich habe noch nichts damit gemacht. Als ich auf diese Seite kam, dachte ich an Algorithmen für maschinelles Lernen und fragte mich, wie gut sie das Ergebnis von Fußballspielen oder sogar das nächste …

40 machine-learning sports

5

GBM gegen XGBOOST? Hauptunterschiede?

Ich versuche, die Hauptunterschiede zwischen GBM und XGBOOST zu verstehen. Ich habe versucht, es zu googeln, konnte aber keine guten Antworten finden, die die Unterschiede zwischen den beiden Algorithmen erklären und erklären, warum xgboost fast immer eine bessere Leistung als GBM erbringt. Was macht XGBOOST so schnell?

40 machine-learning algorithms xgboost ensemble-modeling gbm

3

Wann man was benutzt - Maschinelles Lernen [geschlossen]

Kürzlich hat er in einem Kurs für maschinelles Lernen von Professor Oriol Pujol an der UPC / Barcelona die gängigsten Algorithmen, Prinzipien und Konzepte für eine breite Palette von Aufgaben im Zusammenhang mit maschinellem Lernen beschrieben. Hier teile ich sie mit dir und frage dich: Gibt es ein umfassendes Framework, …

39 machine-learning algorithms

2

Wie ist die Ausgabe von XGBoost zu interpretieren?

Ich habe ein xgboost-Modell ausgeführt. Ich weiß nicht genau, wie ich die Ausgabe von interpretieren soll xgb.importance. Was ist die Bedeutung von Gain, Cover und Frequency und wie interpretieren wir sie? Was bedeuten Split, RealCover und RealCover%? Ich habe einige zusätzliche Parameter hier Gibt es andere Parameter, die mehr über …

37 machine-learning xgboost

13

Datenwissenschaftsbezogene lustige Zitate

Es war üblich, dass Benutzer verschiedener Communities lustige Dinge über ihre Felder zitierten. Es kann Spaß machen, Ihre lustigen Dinge über maschinelles Lernen, Deep Learning, Data Science und die Dinge, mit denen Sie jeden Tag konfrontiert sind, zu teilen!

35 machine-learning neural-network deep-learning

Als «machine-learning» getaggte Fragen