Anfragen nach Datensätzen sind auf dieser Site nicht zum Thema. Verwenden Sie dieses Tag für Fragen zum Erstellen, Verarbeiten oder Verwalten von Datasets.
Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
Der "Iris" -Datensatz ist den meisten hier wohl bekannt - er ist einer der kanonischen Testdatensätze und ein Beispieldatensatz für alles von der Datenvisualisierung bis zum maschinellen Lernen. Zum Beispiel wurde es von allen in dieser Frage für eine Diskussion der durch die Behandlung getrennten Streudiagramme verwendet. Was macht den …
Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …
Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
Da die Wissenschaft per Definition reproduzierbar sein muss, wird zunehmend erkannt, dass Daten und Code ein wesentlicher Bestandteil der Reproduzierbarkeit sind, wie dies vom Yale Roundtable für die gemeinsame Nutzung von Daten und Code erörtert wurde . Wenn ich ein Manuskript für eine Zeitschrift überprüfe, für die keine gemeinsame Nutzung …
In vielen Anwendungen des maschinellen Lernens haben die sogenannten Datenerweiterungsmethoden die Erstellung besserer Modelle ermöglicht. Nehmen Sie zum Beispiel einen Trainingssatz mit Bildern von Katzen und Hunden an. Durch Drehen, Spiegeln, Anpassen des Kontrasts usw. ist es möglich, zusätzliche Bilder aus den Originalbildern zu generieren.100100100 Bei Bildern ist die Datenerweiterung …
Nach der Durchführung der Hauptkomponentenanalyse (PCA) möchte ich einen neuen Vektor auf den PCA-Raum projizieren (dh seine Koordinaten im PCA-Koordinatensystem finden). Ich habe PCA in R-Sprache mit berechnet prcomp. Jetzt sollte ich meinen Vektor mit der PCA-Rotationsmatrix multiplizieren können. Sollen die Hauptkomponenten in dieser Matrix in Zeilen oder Spalten angeordnet …
Ich habe einige Nachforschungen über Über- und Unteranpassung angestellt und ich habe verstanden, was sie genau sind, aber ich kann die Gründe nicht finden. Was sind die Hauptgründe für Über- und Unterausstattung? Warum treten diese beiden Probleme beim Trainieren eines Modells auf?
Was sind die Hauptunterschiede zwischen Daten mit geringer Dichte und fehlenden Daten? Und wie beeinflusst es das maschinelle Lernen? Genauer gesagt, welche Auswirkung haben spärliche Daten und fehlende Daten auf Klassifizierungsalgorithmen und Regressionsalgorithmen (Vorhersage von Zahlen). Ich spreche von einer Situation, in der der Prozentsatz fehlender Daten erheblich ist und …
"Fernüberwachung" ist ein Lernschema, bei dem ein Klassifikator anhand eines schwach gekennzeichneten Trainingssatzes gelernt wird (Trainingsdaten werden automatisch anhand von Heuristiken / Regeln gekennzeichnet). Ich denke, dass sowohl beaufsichtigtes Lernen als auch semi-beaufsichtigtes Lernen eine solche "Fernüberwachung" beinhalten können, wenn ihre beschrifteten Daten heuristisch / automatisch beschriftet sind. Auf dieser …
Ich bin neu im maschinellen Lernen und suche nach Datensätzen, mit denen ich die Unterschiede zwischen verschiedenen Algorithmen für maschinelles Lernen (Decision Trees, Boosting, SVM und Neuronale Netze) vergleichen und gegenüberstellen kann. Wo finde ich solche Datensätze? Wonach sollte ich suchen, wenn ich einen Datensatz in Betracht ziehe? Es wäre …
Ich habe mir viele R-Datensätze, Postings in DASL und anderswo angesehen und finde nicht sehr viele gute Beispiele für interessante Datensätze, die die Analyse der Kovarianz für experimentelle Daten veranschaulichen. Es gibt zahlreiche "Spielzeug" -Datensätze mit erfundenen Daten in statistischen Lehrbüchern. Ich hätte gerne ein Beispiel, wo: Die Daten sind …
Hintergrund Ich überwache die Eingabe von Daten aus der Primärliteratur in eine Datenbank . Der Dateneingabeprozess ist fehleranfällig, insbesondere weil Benutzer den Versuchsplan interpretieren, Daten aus Grafiken und Tabellen extrahieren und Ergebnisse in standardisierte Einheiten umwandeln müssen. Daten werden über eine Weboberfläche in eine MySQL-Datenbank eingegeben. Bisher wurden mehr als …
Verschlossen . Diese Frage und ihre Antworten sind gesperrt, da die Frage nicht zum Thema gehört, aber von historischer Bedeutung ist. Derzeit werden keine neuen Antworten oder Interaktionen akzeptiert. Ich suche nach Social Network-Datensätzen (Twitter, Friendfeed, Facebook, LastFM usw.) für Klassifizierungsaufgaben, vorzugsweise im arff-Format. Meine Suche über UCI und Google …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.