Data Science dataset

30

Eines der häufigsten Probleme in der Datenwissenschaft ist das Sammeln von Daten aus verschiedenen Quellen in einem irgendwie bereinigten (halbstrukturierten) Format und das Kombinieren von Metriken aus verschiedenen Quellen, um eine Analyse auf höherer Ebene durchzuführen. Betrachtet man die Bemühungen der anderen Personen, insbesondere andere Fragen auf dieser Website, so …

167 open-source dataset

5

Soll ich mich für einen 'ausgeglichenen' Datensatz oder einen 'repräsentativen' Datensatz entscheiden?

Meine 'maschinelles Lernen'-Aufgabe besteht darin, harmlosen Internet-Verkehr von böswilligem Verkehr zu trennen. Im realen Szenario ist der größte Teil (sagen wir 90% oder mehr) des Internetverkehrs harmlos. Daher hatte ich das Gefühl, dass ich auch für das Training meiner Modelle ein ähnliches Daten-Setup wählen sollte. Aber ich bin auf ein …

48 machine-learning dataset unbalanced-classes

1

Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

Kurzanleitung zum Trainieren stark unausgeglichener Datensätze

Ich habe ein Klassifizierungsproblem mit ungefähr 1000 positiven und 10000 negativen Proben im Trainingssatz. Dieser Datensatz ist also ziemlich unausgeglichen. Normaler Zufallswald versucht nur, alle Testproben als Mehrheitsklasse zu markieren. Hier finden Sie einige gute Antworten zu Unterabtastungen und gewichteten Zufallsforsten: Was bedeutet es, ein Tree Ensemble mit stark voreingenommenen …

29 machine-learning classification dataset unbalanced-classes

7

Öffentlich verfügbare Datasets / APIs für soziale Netzwerke

Als Erweiterung unserer umfangreichen Liste öffentlich verfügbarer Datasets würde ich gerne wissen, ob es eine Liste öffentlich verfügbarer Datasets / Crawler-APIs für soziale Netzwerke gibt. Es wäre sehr schön, wenn neben einem Link zum Datensatz / API auch Merkmale der verfügbaren Daten hinzugefügt würden. Solche Informationen sollten und sind nicht …

26 open-source dataset crawling

4

Ist es immer besser, den gesamten Datensatz zum Trainieren des endgültigen Modells zu verwenden?

Eine übliche Technik nach dem Training, der Validierung und dem Testen des bevorzugten Modells für maschinelles Lernen besteht darin, den gesamten Datensatz einschließlich der Testuntermenge zu verwenden, um ein endgültiges Modell für die Bereitstellung zu trainieren , z. B. für ein Produkt. Meine Frage ist: Ist es immer das Beste, …

24 machine-learning dataset training accuracy

3

Data Science-Projektideen [geschlossen]

Geschlossen . Diese Frage ist meinungsbasiert . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Ich weiß nicht, ob dies der richtige Ort ist, …

23 machine-learning bigdata dataset

3

Wie kann ein synthetischer Datensatz mithilfe eines mit dem Originaldatensatz erlernten maschinellen Lernmodells generiert werden?

Im Allgemeinen basiert das maschinelle Lernmodell auf Datensätzen. Ich möchte wissen, ob es eine Möglichkeit gibt, einen synthetischen Datensatz mit einem derart geschulten Modell für maschinelles Lernen zu generieren, bei dem die ursprünglichen Datensatzmerkmale beibehalten werden. [Originaldaten -> Modell für maschinelles Lernen erstellen -> ml-Modell verwenden, um synthetische Daten zu …

19 machine-learning dataset

3

Datensatz für die Erkennung benannter Entitäten in informellem Text

Ich suche derzeit nach beschrifteten Datensätzen, um ein Modell zu trainieren, um benannte Entitäten aus informellem Text zu extrahieren (ähnlich wie Tweets). Da in den Dokumenten in meinem Datensatz häufig Groß- und Kleinschreibung und Grammatik fehlen, suche ich nach Daten außerhalb des Bereichs, die ein bisschen "informeller" sind als die …

18 dataset nlp

3

Gibt es ein Tool zum Aufräumen von Daten für Python / Pandas, das dem Tool R tidyr ähnelt?

Ich arbeite an einer Kaggle-Herausforderung, bei der einige Variablen durch Zeilen anstelle von Spalten dargestellt werden (Telstra Network Disruption). Ich bin derzeit auf der Suche nach dem Äquivalent von gather (), separate () und spread (), die in R Tidyr Tool gefunden werden können.

18 r python dataset data-cleaning pandas

5

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Gibt es eine Personenklasse in ImageNet? Gibt es irgendwelche Klassen, die sich auf Menschen beziehen?

Wenn ich mir eine der vielen Quellen für die Imagenet-Klassen im Internet anschaue, kann ich keine einzige Klasse finden, die sich auf Menschen bezieht (und nein, Harvestman ist nicht jemand, der erntet, aber ich wusste, dass es eine Art von Papa-Langbein ist Spinne :-). Wie ist das möglich? Ich hätte …

14 machine-learning deep-learning dataset convnet image-classification

5

Hochladen des Bilderordners von meinem System in Google Colab

Ich möchte ein Deep-Learning-Modell auf einem Datensatz trainieren, der ungefähr 3000 Bilder enthält. Da der Datensatz sehr groß ist, möchte ich Google Colab verwenden, da es von der GPU unterstützt wird. Wie lade ich diesen vollständigen Bildordner in mein Notizbuch hoch und verwende ihn?

14 machine-learning neural-network deep-learning dataset colab

3

Muss ich bei einer unsymmetrischen Klasse eine Stichprobe für meine Validierungs- / Testdatensätze verwenden?

Ich bin ein Anfänger im maschinellen Lernen und stehe vor einer Situation. Ich arbeite an einem Real Time Bidding-Problem mit dem IPinYou-Dataset und versuche, eine Klickvorhersage zu erstellen. Die Sache ist, wie Sie vielleicht wissen, dass der Datensatz sehr unausgeglichen ist: Rund 1300 negative Beispiele (ohne Klick) für 1 positives …

13 machine-learning dataset sampling

2

Analysieren von A / B-Testergebnissen, die nicht normal verteilt sind, unter Verwendung eines unabhängigen T-Tests

Ich habe eine Reihe von Ergebnissen aus einem A / B-Test (eine Kontrollgruppe, eine Merkmalsgruppe), die nicht zu einer Normalverteilung passen. Tatsächlich ähnelt die Verteilung eher der Landau-Verteilung. Ich glaube, dass der unabhängige T-Test erfordert, dass die Stichproben mindestens annähernd normal verteilt sind, was mich davon abhält, den T-Test als …

13 dataset statistics ab-test

Als «dataset» getaggte Fragen