Als «dataset» getaggte Fragen

Anfragen nach Datensätzen sind auf dieser Site nicht zum Thema. Verwenden Sie dieses Tag für Fragen zum Erstellen, Verarbeiten oder Verwalten von Datasets.

3
Die Idee, die Daten zu erstellen, hat einen Mittelwert von Null
Ich sehe oft Leute, die eine Dimension / ein Feature eines Datensatzes auf einen Mittelwert von Null setzen, indem sie den Mittelwert aus allen Elementen entfernen. Aber ich habe nie verstanden, warum das so ist? Was bewirkt dies als Vorverarbeitungsschritt? Verbessert es die Klassifizierungsleistung? Hilft es, etwas über den Datensatz …

2
Warum testen manche Leute regressionsähnliche Modellannahmen an ihren Rohdaten und andere Leute testen sie an den Residuen?
Ich bin ein Doktorand in experimenteller Psychologie und ich bemühe mich sehr, meine Fähigkeiten und Kenntnisse im Analysieren meiner Daten zu verbessern. Bis zu meinem 5. Jahr in Psychologie dachte ich, dass die regressionsähnlichen Modelle (zB ANOVA) die folgenden Dinge annehmen: Normalität der Daten Varianzhomogenität für die Daten und so …


1
Unterschiede zwischen PROC Mixed und lme / lmer in R - Freiheitsgraden
Hinweis: Diese Frage ist ein Repost, da meine vorherige Frage aus rechtlichen Gründen gelöscht werden musste. Beim Vergleich von PROC MIXED von SAS mit der Funktion lmeaus dem nlmePaket in R bin ich auf einige verwirrende Unterschiede gestoßen. Insbesondere unterscheiden sich die Freiheitsgrade in den verschiedenen Tests zwischen PROC MIXEDund …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 


2
Best Practices zum Erstellen von "ordentlichen Daten"
Hadley Wickham schrieb im vergangenen Jahr in JSS einen herausragenden Artikel mit dem Titel "Tidy Data" ( Link ) über Datenmanipulation und das Versetzen der Daten in einen "optimalen" Zustand, um eine Analyse durchzuführen. Ich habe mich jedoch gefragt, welche Best Practices für die Darstellung von Tabellendaten in einer Arbeitsumgebung …
12 dataset  tables 

2
Ist die Aufteilung der Daten in Test- und Trainingssätze eine reine Statistiksache?
Ich bin ein Physikstudent, der maschinelles Lernen / Datenwissenschaft studiert, daher meine ich nicht, dass diese Frage Konflikte auslöst :) Ein großer Teil eines Physik-Bachelor-Programms besteht jedoch darin, Labore / Experimente durchzuführen, was eine Menge Daten bedeutet Verarbeitung und statistische Analyse. Ich bemerke jedoch einen starken Unterschied zwischen der Art …

2
Optimales Binning in Bezug auf eine bestimmte Antwortvariable
Ich suche nach einer optimalen Binning-Methode (Diskretisierung) einer kontinuierlichen Variablen in Bezug auf eine gegebene Antwort- (Ziel-) Binärvariable und mit einer maximalen Anzahl von Intervallen als Parameter. Beispiel: Ich habe eine Reihe von Beobachtungen von Personen mit den Variablen "height" (fortlaufende Zahl) und "has_back_pains" (binär). Ich möchte die Höhe in …

3
Praktisches PCA-Tutorial mit Daten
Wenn Sie im Internet nach einem PCA-Tutorial suchen, erhalten Sie Tausende von Ergebnissen (sogar Videos). Viele der Tutorials sind sehr gut. Ich kann jedoch kein praktisches Beispiel finden, in dem PCA anhand einiger Datensätze erklärt wird, die ich zur Demonstration verwenden kann. Ich benötige ein Tutorial, das einen kleinen Datensatz …

14
Wie viele Informationen können Sie aus einem Namen gewinnen?
Ein Name: zuerst, möglicherweise eine Mitte und ein Nachname. Ich bin gespannt, wie viele Informationen Sie aus einem Namen mithilfe öffentlich verfügbarer Datensätze abrufen können. Ich weiß, dass Sie mit US-Volkszählungsdaten mit einer geringen bis hohen Wahrscheinlichkeit (abhängig von der Eingabe) Folgendes erreichen können: 1) Geschlecht. 2) Rennen. Facebook hat …


3
Gute Bücher über Datenvorverarbeitung und Techniken zur Erkennung von Ausreißern
Kennt jemand, wie der Titel schon sagt, ein gutes, aktuelles Buch, das die Datenvorverarbeitung im Allgemeinen und insbesondere Ausreißererkennungstechniken behandelt? Das Buch muss sich nicht ausschließlich darauf konzentrieren, aber es sollte sich ausführlich mit den oben genannten Themen befassen - ich würde mich nicht über etwas freuen, das ein Ausgangspunkt …



2
Sollten Datentypen (nominal / ordinal / Intervall / Verhältnis) wirklich als Variablentypen betrachtet werden?
Hier sind zum Beispiel die Definitionen, die ich aus Standardlehrbüchern bekomme Variable - charakteristisch für Population oder Stichprobe. Ex. Preis einer Aktie oder Sorte bei einem Test Daten - tatsächlich beobachtete Werte Also für einen zweispaltigen Bericht [Name | Einkommen] Die Spaltennamen wären die Variablen und die tatsächlich beobachteten Werte …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.