Als «dataset» getaggte Fragen

Ein Datensatz ist eine Sammlung von Daten, häufig in Tabellen- oder Matrixform. Dieses Tag ist NICHT für Datenanforderungen vorgesehen ("Wo finde ich einen Datensatz zu ...") -> siehe OpenData

30
Öffentlich verfügbare Datensätze
Eines der häufigsten Probleme in der Datenwissenschaft ist das Sammeln von Daten aus verschiedenen Quellen in einem irgendwie bereinigten (halbstrukturierten) Format und das Kombinieren von Metriken aus verschiedenen Quellen, um eine Analyse auf höherer Ebene durchzuführen. Betrachtet man die Bemühungen der anderen Personen, insbesondere andere Fragen auf dieser Website, so …

5
Soll ich mich für einen 'ausgeglichenen' Datensatz oder einen 'repräsentativen' Datensatz entscheiden?
Meine 'maschinelles Lernen'-Aufgabe besteht darin, harmlosen Internet-Verkehr von böswilligem Verkehr zu trennen. Im realen Szenario ist der größte Teil (sagen wir 90% oder mehr) des Internetverkehrs harmlos. Daher hatte ich das Gefühl, dass ich auch für das Training meiner Modelle ein ähnliches Daten-Setup wählen sollte. Aber ich bin auf ein …

1
Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?
Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Kurzanleitung zum Trainieren stark unausgeglichener Datensätze
Ich habe ein Klassifizierungsproblem mit ungefähr 1000 positiven und 10000 negativen Proben im Trainingssatz. Dieser Datensatz ist also ziemlich unausgeglichen. Normaler Zufallswald versucht nur, alle Testproben als Mehrheitsklasse zu markieren. Hier finden Sie einige gute Antworten zu Unterabtastungen und gewichteten Zufallsforsten: Was bedeutet es, ein Tree Ensemble mit stark voreingenommenen …

7
Öffentlich verfügbare Datasets / APIs für soziale Netzwerke
Als Erweiterung unserer umfangreichen Liste öffentlich verfügbarer Datasets würde ich gerne wissen, ob es eine Liste öffentlich verfügbarer Datasets / Crawler-APIs für soziale Netzwerke gibt. Es wäre sehr schön, wenn neben einem Link zum Datensatz / API auch Merkmale der verfügbaren Daten hinzugefügt würden. Solche Informationen sollten und sind nicht …


3
Data Science-Projektideen [geschlossen]
Geschlossen . Diese Frage ist meinungsbasiert . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Ich weiß nicht, ob dies der richtige Ort ist, …

3
Wie kann ein synthetischer Datensatz mithilfe eines mit dem Originaldatensatz erlernten maschinellen Lernmodells generiert werden?
Im Allgemeinen basiert das maschinelle Lernmodell auf Datensätzen. Ich möchte wissen, ob es eine Möglichkeit gibt, einen synthetischen Datensatz mit einem derart geschulten Modell für maschinelles Lernen zu generieren, bei dem die ursprünglichen Datensatzmerkmale beibehalten werden. [Originaldaten -> Modell für maschinelles Lernen erstellen -> ml-Modell verwenden, um synthetische Daten zu …

3
Datensatz für die Erkennung benannter Entitäten in informellem Text
Ich suche derzeit nach beschrifteten Datensätzen, um ein Modell zu trainieren, um benannte Entitäten aus informellem Text zu extrahieren (ähnlich wie Tweets). Da in den Dokumenten in meinem Datensatz häufig Groß- und Kleinschreibung und Grammatik fehlen, suche ich nach Daten außerhalb des Bereichs, die ein bisschen "informeller" sind als die …
18 dataset  nlp 


5
Vergrößere die seaborn Heatmap
Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 



3
Muss ich bei einer unsymmetrischen Klasse eine Stichprobe für meine Validierungs- / Testdatensätze verwenden?
Ich bin ein Anfänger im maschinellen Lernen und stehe vor einer Situation. Ich arbeite an einem Real Time Bidding-Problem mit dem IPinYou-Dataset und versuche, eine Klickvorhersage zu erstellen. Die Sache ist, wie Sie vielleicht wissen, dass der Datensatz sehr unausgeglichen ist: Rund 1300 negative Beispiele (ohne Klick) für 1 positives …

2
Analysieren von A / B-Testergebnissen, die nicht normal verteilt sind, unter Verwendung eines unabhängigen T-Tests
Ich habe eine Reihe von Ergebnissen aus einem A / B-Test (eine Kontrollgruppe, eine Merkmalsgruppe), die nicht zu einer Normalverteilung passen. Tatsächlich ähnelt die Verteilung eher der Landau-Verteilung. Ich glaube, dass der unabhängige T-Test erfordert, dass die Stichproben mindestens annähernd normal verteilt sind, was mich davon abhält, den T-Test als …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.