Ein Datensatz ist eine Sammlung von Daten, häufig in Tabellen- oder Matrixform. Dieses Tag ist NICHT für Datenanforderungen vorgesehen ("Wo finde ich einen Datensatz zu ...") -> siehe OpenData
Ich versuche, Bestandsdaten zu finden, mit denen ich üben kann. Gibt es dafür eine gute Ressource? Ich habe folgendes gefunden: ftp://emi.nasdaq.com/ITCH/ aber es hat nur das aktuelle Jahr. Ich habe bereits eine Möglichkeit, das Protokoll zu analysieren, möchte aber weitere Daten zum Vergleichen haben. Es muss nicht dasselbe Format haben, …
Ich schreibe ein Skript, um Live-Daten im Laufe der Zeit in einer einzigen HDF5-Datei aufzuzeichnen, die meinen gesamten Datensatz für dieses Projekt enthält. Ich arbeite mit Python 3.6 und habe beschlossen, ein Befehlszeilentool clickzum Sammeln der Daten zu erstellen . Ich mache mir Sorgen, was passiert, wenn das Datenerfassungsskript in …
Ich möchte einen neuen Algorithmus für die kollaborative Filterung testen . Ein typischer Anwendungsfall besteht darin, Filme zu empfehlen, die auf den Vorlieben von Benutzern basieren, die dem jeweiligen Benutzer ähnlich sind. Welche gängigen Benchmark-Datensätze verwenden Forscher häufig, um ihre Algorithmen zu testen? Ich weiß, dass in Computer Vision häufig …
Für unser Abschlussprojekt in Data Science haben wir Folgendes vorgeschlagen: Geben Sie den Amazon Reviews-Datensatz an . Wir planen, einen Algorithmus zu entwickeln (der grob auf dem personalisierten PageRank basiert), der eine strategische Position für die Platzierung von Anzeigen bei Amazon festlegt. Zum Beispiel gibt es bei Amazon Millionen von …
Mit welchen frei verfügbaren Datensätzen kann ich einen Textklassifizierer trainieren? Wir versuchen, das Engagement unserer Benutzer zu verbessern, indem wir ihm den verwandtesten Inhalt empfehlen. Daher dachten wir, wenn wir unseren Inhalt anhand einer vordefinierten Worttasche klassifizieren, können wir ihm empfehlen, Inhalte zu nutzen, indem wir sein Feedback zu einer …
Ich arbeite mit dem MovieLens10M-Datensatz und sage Benutzerbewertungen voraus. Wie sollte ich meine Trainings- und Testdaten aufteilen, wenn ich meinen Algorithmus fair bewerten möchte? Ich glaube, dass die Daten standardmäßig in Zug-Test-Sets aufgeteilt sind, in denen 'Test' Filme enthält, die zuvor im Trainingssatz nicht gesehen wurden. Wie muss ich meine …
Ich arbeite an einem Projekt, das darauf abzielt, einen großen Datensatz (dh Tweet-Daten, die ein paar Tage alt sind) von Twitter mithilfe der twitteR-Bibliothek auf R. abzurufen. Es ist schwierig, Tweets zu speichern, da mein Computer nur über 8 GB Speicher verfügt . Es ging der Speicher aus, noch bevor …
Ich möchte grafisch darstellen und interaktiv Live- / kontinuierlich gemessene Daten untersuchen. Es gibt einige Optionen, wobei plot.ly am benutzerfreundlichsten ist. Plot.ly verfügt über eine fantastische und benutzerfreundliche Benutzeroberfläche (leicht skalierbar, pannbar, leicht zoombar / an den Bildschirm anpassbar), kann jedoch die großen Datenmengen, die ich sammle, nicht verarbeiten. Kennt …
Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …
Ich beschäftige mich eingehender mit der kollaborativen Filterung. Ein wirklich interessantes Papier ist "Eine vergleichende Studie über kollaborative Filteralgorithmen" http://arxiv.org/pdf/1205.3193.pdf Um auszuwählen, welcher CF-Algorithmus verwendet werden soll, bezieht sich das Papier auf die Dichte des Datensatzes. Es wird nicht erklärt, wie Sie die Dichte Ihres Datensatzes tatsächlich berechnen. Kann mir …
Ich versuche, eine Metrik zwischen Berufsbezeichnungen im IT-Bereich zu definieren. Dazu benötige ich eine Metrik zwischen Wörtern von Berufsbezeichnungen, die nicht zusammen in derselben Berufsbezeichnung erscheinen, z. B. eine Metrik zwischen den Wörtern Senior, Primary, Lead, Head, VP, Director, Zeug, Principal, Chief, oder die Wörter Analyst, Experte, Modellierer, Forscher, Wissenschaftler, …
Ich möchte einen Stimmungskorpus für Nachrichtenartikel in mehreren Sprachen (~ 100.000 pro Sprache für ein Experiment zum maschinellen Lernen) zusammenstellen, in dem jeder Artikel als positiv, neutral oder negativ gekennzeichnet ist. Ich habe hoch und niedrig gesucht, konnte aber so etwas nicht finden. Ich habe bereits die Nachrichtenartikel in jeder …
Ich würde gerne sehen, ob ich einige der Bildnetzergebnisse reproduzieren kann. Ich konnte jedoch die Daten (die Liste der URLs), die für das Training / Testen in den ILSVRC 2012 (oder höher) Klassifizierungsherausforderungen verwendet wurden, nicht finden. Ich habe nur http://www.image-net.org/download-imageurls gefunden . Wo werden die Daten für die Klassifizierungsherausforderung …
Wie verwenden wir eine Hot-Codierung, wenn die Anzahl der Werte, die eine kategoriale Variable annehmen kann, groß ist? In meinem Fall sind es 56 Werte. Wie üblich müsste ich dem Trainingsdatensatz 56 Spalten (56 Binärmerkmale) hinzufügen, was die Komplexität und damit die Trainingszeit immens erhöht. Wie gehen wir mit solchen …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.