Als «dataset» getaggte Fragen

Ein Datensatz ist eine Sammlung von Daten, häufig in Tabellen- oder Matrixform. Dieses Tag ist NICHT für Datenanforderungen vorgesehen ("Wo finde ich einen Datensatz zu ...") -> siehe OpenData

3
NASDAQ-Handelsdaten
Ich versuche, Bestandsdaten zu finden, mit denen ich üben kann. Gibt es dafür eine gute Ressource? Ich habe folgendes gefunden: ftp://emi.nasdaq.com/ITCH/ aber es hat nur das aktuelle Jahr. Ich habe bereits eine Möglichkeit, das Protokoll zu analysieren, möchte aber weitere Daten zum Vergleichen haben. Es muss nicht dasselbe Format haben, …


2
Benchmark-Datensätze für die kollaborative Filterung
Ich möchte einen neuen Algorithmus für die kollaborative Filterung testen . Ein typischer Anwendungsfall besteht darin, Filme zu empfehlen, die auf den Vorlieben von Benutzern basieren, die dem jeweiligen Benutzer ähnlich sind. Welche gängigen Benchmark-Datensätze verwenden Forscher häufig, um ihre Algorithmen zu testen? Ich weiß, dass in Computer Vision häufig …


4
Schlagen Sie Trainingsdatensätze für Textklassifizierer vor
Mit welchen frei verfügbaren Datensätzen kann ich einen Textklassifizierer trainieren? Wir versuchen, das Engagement unserer Benutzer zu verbessern, indem wir ihm den verwandtesten Inhalt empfehlen. Daher dachten wir, wenn wir unseren Inhalt anhand einer vordefinierten Worttasche klassifizieren, können wir ihm empfehlen, Inhalte zu nutzen, indem wir sein Feedback zu einer …


1
So teilen Sie Zug / Test in Empfehlungssystemen
Ich arbeite mit dem MovieLens10M-Datensatz und sage Benutzerbewertungen voraus. Wie sollte ich meine Trainings- und Testdaten aufteilen, wenn ich meinen Algorithmus fair bewerten möchte? Ich glaube, dass die Daten standardmäßig in Zug-Test-Sets aufgeteilt sind, in denen 'Test' Filme enthält, die zuvor im Trainingssatz nicht gesehen wurden. Wie muss ich meine …

2
Der beste Weg, um große Datenmengen mit R von Twitter zu speichern?
Ich arbeite an einem Projekt, das darauf abzielt, einen großen Datensatz (dh Tweet-Daten, die ein paar Tage alt sind) von Twitter mithilfe der twitteR-Bibliothek auf R. abzurufen. Es ist schwierig, Tweets zu speichern, da mein Computer nur über 8 GB Speicher verfügt . Es ging der Speicher aus, noch bevor …
8 r  dataset 

3
Interaktive grafische Darstellung beim Protokollieren von Daten
Ich möchte grafisch darstellen und interaktiv Live- / kontinuierlich gemessene Daten untersuchen. Es gibt einige Optionen, wobei plot.ly am benutzerfreundlichsten ist. Plot.ly verfügt über eine fantastische und benutzerfreundliche Benutzeroberfläche (leicht skalierbar, pannbar, leicht zoombar / an den Bildschirm anpassbar), kann jedoch die großen Datenmengen, die ich sammle, nicht verarbeiten. Kennt …

1
Generieren Sie Vorhersagen, die orthogonal (nicht korreliert) zu einer bestimmten Variablen sind
Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

1
Wie berechnen Sie, wie dicht oder dünn ein Datensatz ist?
Ich beschäftige mich eingehender mit der kollaborativen Filterung. Ein wirklich interessantes Papier ist "Eine vergleichende Studie über kollaborative Filteralgorithmen" http://arxiv.org/pdf/1205.3193.pdf Um auszuwählen, welcher CF-Algorithmus verwendet werden soll, bezieht sich das Papier auf die Dichte des Datensatzes. Es wird nicht erklärt, wie Sie die Dichte Ihres Datensatzes tatsächlich berechnen. Kann mir …

4
Ähnlichkeit der Berufsbezeichnung
Ich versuche, eine Metrik zwischen Berufsbezeichnungen im IT-Bereich zu definieren. Dazu benötige ich eine Metrik zwischen Wörtern von Berufsbezeichnungen, die nicht zusammen in derselben Berufsbezeichnung erscheinen, z. B. eine Metrik zwischen den Wörtern Senior, Primary, Lead, Head, VP, Director, Zeug, Principal, Chief, oder die Wörter Analyst, Experte, Modellierer, Forscher, Wissenschaftler, …

1
Auf einem mehrsprachigen Stimmungskorpus
Ich möchte einen Stimmungskorpus für Nachrichtenartikel in mehreren Sprachen (~ 100.000 pro Sprache für ein Experiment zum maschinellen Lernen) zusammenstellen, in dem jeder Artikel als positiv, neutral oder negativ gekennzeichnet ist. Ich habe hoch und niedrig gesucht, konnte aber so etwas nicht finden. Ich habe bereits die Nachrichtenartikel in jeder …

1
Wie kann ich die ImageNet ILSVRC 2012-Daten abrufen, die für die Klassifizierungsherausforderung verwendet wurden?
Ich würde gerne sehen, ob ich einige der Bildnetzergebnisse reproduzieren kann. Ich konnte jedoch die Daten (die Liste der URLs), die für das Training / Testen in den ILSVRC 2012 (oder höher) Klassifizierungsherausforderungen verwendet wurden, nicht finden. Ich habe nur http://www.image-net.org/download-imageurls gefunden . Wo werden die Daten für die Klassifizierungsherausforderung …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.