Statistiken und Big Data dataset

3

Die Idee, die Daten zu erstellen, hat einen Mittelwert von Null

Ich sehe oft Leute, die eine Dimension / ein Feature eines Datensatzes auf einen Mittelwert von Null setzen, indem sie den Mittelwert aus allen Elementen entfernen. Aber ich habe nie verstanden, warum das so ist? Was bewirkt dies als Vorverarbeitungsschritt? Verbessert es die Klassifizierungsleistung? Hilft es, etwas über den Datensatz …

12 data-mining dataset

2

Warum testen manche Leute regressionsähnliche Modellannahmen an ihren Rohdaten und andere Leute testen sie an den Residuen?

Ich bin ein Doktorand in experimenteller Psychologie und ich bemühe mich sehr, meine Fähigkeiten und Kenntnisse im Analysieren meiner Daten zu verbessern. Bis zu meinem 5. Jahr in Psychologie dachte ich, dass die regressionsähnlichen Modelle (zB ANOVA) die folgenden Dinge annehmen: Normalität der Daten Varianzhomogenität für die Daten und so …

12 regression dataset residuals assumptions

4

Der beste Weg, Daten für statistische Analysen einfach in R zu speichern [closed]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 6 Jahren . Ich verwende seit einiger Zeit problemlos Textdateien, um meine Daten für R zu speichern. Für …

12 r dataset

1

Unterschiede zwischen PROC Mixed und lme / lmer in R - Freiheitsgraden

Hinweis: Diese Frage ist ein Repost, da meine vorherige Frage aus rechtlichen Gründen gelöscht werden musste. Beim Vergleich von PROC MIXED von SAS mit der Funktion lmeaus dem nlmePaket in R bin ich auf einige verwirrende Unterschiede gestoßen. Insbesondere unterscheiden sich die Freiheitsgrade in den verschiedenen Tests zwischen PROC MIXEDund …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

4

Beispiele für kostspielige Konsequenzen aus dem unsachgemäßen Einsatz statistischer Tools

Ich vermute, dass die meisten Benutzer von Statistik-Tools Nebennutzer sind (Leute, die wenig bis gar keine formelle Ausbildung in Statistik hatten). Für Forscher und andere Fachleute ist es sehr verlockend, statistische Methoden auf ihre Daten anzuwenden, nur weil sie es in von Experten begutachteten Artikeln, in grauer Literatur, im Internet …

12 dataset methodology

2

Best Practices zum Erstellen von "ordentlichen Daten"

Hadley Wickham schrieb im vergangenen Jahr in JSS einen herausragenden Artikel mit dem Titel "Tidy Data" ( Link ) über Datenmanipulation und das Versetzen der Daten in einen "optimalen" Zustand, um eine Analyse durchzuführen. Ich habe mich jedoch gefragt, welche Best Practices für die Darstellung von Tabellendaten in einer Arbeitsumgebung …

12 dataset tables

2

Ist die Aufteilung der Daten in Test- und Trainingssätze eine reine Statistiksache?

Ich bin ein Physikstudent, der maschinelles Lernen / Datenwissenschaft studiert, daher meine ich nicht, dass diese Frage Konflikte auslöst :) Ein großer Teil eines Physik-Bachelor-Programms besteht jedoch darin, Labore / Experimente durchzuführen, was eine Menge Daten bedeutet Verarbeitung und statistische Analyse. Ich bemerke jedoch einen starken Unterschied zwischen der Art …

11 regression machine-learning cross-validation dataset experiment-design

2

Optimales Binning in Bezug auf eine bestimmte Antwortvariable

Ich suche nach einer optimalen Binning-Methode (Diskretisierung) einer kontinuierlichen Variablen in Bezug auf eine gegebene Antwort- (Ziel-) Binärvariable und mit einer maximalen Anzahl von Intervallen als Parameter. Beispiel: Ich habe eine Reihe von Beobachtungen von Personen mit den Variablen "height" (fortlaufende Zahl) und "has_back_pains" (binär). Ich möchte die Höhe in …

11 r dataset optimization discrete-data binning

3

Praktisches PCA-Tutorial mit Daten

Wenn Sie im Internet nach einem PCA-Tutorial suchen, erhalten Sie Tausende von Ergebnissen (sogar Videos). Viele der Tutorials sind sehr gut. Ich kann jedoch kein praktisches Beispiel finden, in dem PCA anhand einiger Datensätze erklärt wird, die ich zur Demonstration verwenden kann. Ich benötige ein Tutorial, das einen kleinen Datensatz …

11 data-visualization dataset pca data-mining

14

Wie viele Informationen können Sie aus einem Namen gewinnen?

Ein Name: zuerst, möglicherweise eine Mitte und ein Nachname. Ich bin gespannt, wie viele Informationen Sie aus einem Namen mithilfe öffentlich verfügbarer Datensätze abrufen können. Ich weiß, dass Sie mit US-Volkszählungsdaten mit einer geringen bis hohen Wahrscheinlichkeit (abhängig von der Eingabe) Folgendes erreichen können: 1) Geschlecht. 2) Rennen. Facebook hat …

11 dataset data-mining census

3

Welchen Algorithmus sollte ich verwenden, um einen großen binären Datensatz in wenige Kategorien zu gruppieren?

Ich habe eine große (650K Zeilen * 62 Spalten) Matrix von Binärdaten (nur 0-1 Einträge). Die Matrix ist meist spärlich: ca. 8% sind gefüllt. Ich möchte es in 5 Gruppen gruppieren - sagen wir von 1 bis 5. Ich habe es mit hierarchischem Clustering versucht und es konnte die Größe …

11 clustering dataset k-means binary-data

3

Gute Bücher über Datenvorverarbeitung und Techniken zur Erkennung von Ausreißern

Kennt jemand, wie der Titel schon sagt, ein gutes, aktuelles Buch, das die Datenvorverarbeitung im Allgemeinen und insbesondere Ausreißererkennungstechniken behandelt? Das Buch muss sich nicht ausschließlich darauf konzentrieren, aber es sollte sich ausführlich mit den oben genannten Themen befassen - ich würde mich nicht über etwas freuen, das ein Ausgangspunkt …

11 dataset data-mining references outliers

4

Was genau ist mit einem „Datensatz“ gemeint?

Ist es nur die Aggregation von Datenpunkten? Oder ist es die Darstellung von Datenpunkten für verschiedene Elemente in einem Tabellenformat, das mit Werten der verschiedenen Variablen angeordnet ist? Wie unterscheidet es sich von Rohdaten?

10 dataset terminology definition

1

Werden Datenverarbeitungsfehler bereits in die statistische Analyse eingepreist?

Ok, faire Warnung - dies ist eine philosophische Frage, die keine Zahlen beinhaltet. Ich habe viel darüber nachgedacht, wie sich Fehler im Laufe der Zeit in Datensätze einschleichen und wie dies von Analysten behandelt werden sollte - oder ob es überhaupt wichtig sein sollte? Als Hintergrund mache ich die Analyse …

10 dataset error

2

Sollten Datentypen (nominal / ordinal / Intervall / Verhältnis) wirklich als Variablentypen betrachtet werden?

Hier sind zum Beispiel die Definitionen, die ich aus Standardlehrbüchern bekomme Variable - charakteristisch für Population oder Stichprobe. Ex. Preis einer Aktie oder Sorte bei einem Test Daten - tatsächlich beobachtete Werte Also für einen zweispaltigen Bericht [Name | Einkommen] Die Spaltennamen wären die Variablen und die tatsächlich beobachteten Werte …

10 dataset ordinal-data categorical-data ratio

Als «dataset» getaggte Fragen