Anfragen nach Datensätzen sind auf dieser Site nicht zum Thema. Verwenden Sie dieses Tag für Fragen zum Erstellen, Verarbeiten oder Verwalten von Datasets.
Ich sehe oft Leute, die eine Dimension / ein Feature eines Datensatzes auf einen Mittelwert von Null setzen, indem sie den Mittelwert aus allen Elementen entfernen. Aber ich habe nie verstanden, warum das so ist? Was bewirkt dies als Vorverarbeitungsschritt? Verbessert es die Klassifizierungsleistung? Hilft es, etwas über den Datensatz …
Ich bin ein Doktorand in experimenteller Psychologie und ich bemühe mich sehr, meine Fähigkeiten und Kenntnisse im Analysieren meiner Daten zu verbessern. Bis zu meinem 5. Jahr in Psychologie dachte ich, dass die regressionsähnlichen Modelle (zB ANOVA) die folgenden Dinge annehmen: Normalität der Daten Varianzhomogenität für die Daten und so …
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 6 Jahren . Ich verwende seit einiger Zeit problemlos Textdateien, um meine Daten für R zu speichern. Für …
Hinweis: Diese Frage ist ein Repost, da meine vorherige Frage aus rechtlichen Gründen gelöscht werden musste. Beim Vergleich von PROC MIXED von SAS mit der Funktion lmeaus dem nlmePaket in R bin ich auf einige verwirrende Unterschiede gestoßen. Insbesondere unterscheiden sich die Freiheitsgrade in den verschiedenen Tests zwischen PROC MIXEDund …
Ich vermute, dass die meisten Benutzer von Statistik-Tools Nebennutzer sind (Leute, die wenig bis gar keine formelle Ausbildung in Statistik hatten). Für Forscher und andere Fachleute ist es sehr verlockend, statistische Methoden auf ihre Daten anzuwenden, nur weil sie es in von Experten begutachteten Artikeln, in grauer Literatur, im Internet …
Hadley Wickham schrieb im vergangenen Jahr in JSS einen herausragenden Artikel mit dem Titel "Tidy Data" ( Link ) über Datenmanipulation und das Versetzen der Daten in einen "optimalen" Zustand, um eine Analyse durchzuführen. Ich habe mich jedoch gefragt, welche Best Practices für die Darstellung von Tabellendaten in einer Arbeitsumgebung …
Ich bin ein Physikstudent, der maschinelles Lernen / Datenwissenschaft studiert, daher meine ich nicht, dass diese Frage Konflikte auslöst :) Ein großer Teil eines Physik-Bachelor-Programms besteht jedoch darin, Labore / Experimente durchzuführen, was eine Menge Daten bedeutet Verarbeitung und statistische Analyse. Ich bemerke jedoch einen starken Unterschied zwischen der Art …
Ich suche nach einer optimalen Binning-Methode (Diskretisierung) einer kontinuierlichen Variablen in Bezug auf eine gegebene Antwort- (Ziel-) Binärvariable und mit einer maximalen Anzahl von Intervallen als Parameter. Beispiel: Ich habe eine Reihe von Beobachtungen von Personen mit den Variablen "height" (fortlaufende Zahl) und "has_back_pains" (binär). Ich möchte die Höhe in …
Wenn Sie im Internet nach einem PCA-Tutorial suchen, erhalten Sie Tausende von Ergebnissen (sogar Videos). Viele der Tutorials sind sehr gut. Ich kann jedoch kein praktisches Beispiel finden, in dem PCA anhand einiger Datensätze erklärt wird, die ich zur Demonstration verwenden kann. Ich benötige ein Tutorial, das einen kleinen Datensatz …
Ein Name: zuerst, möglicherweise eine Mitte und ein Nachname. Ich bin gespannt, wie viele Informationen Sie aus einem Namen mithilfe öffentlich verfügbarer Datensätze abrufen können. Ich weiß, dass Sie mit US-Volkszählungsdaten mit einer geringen bis hohen Wahrscheinlichkeit (abhängig von der Eingabe) Folgendes erreichen können: 1) Geschlecht. 2) Rennen. Facebook hat …
Ich habe eine große (650K Zeilen * 62 Spalten) Matrix von Binärdaten (nur 0-1 Einträge). Die Matrix ist meist spärlich: ca. 8% sind gefüllt. Ich möchte es in 5 Gruppen gruppieren - sagen wir von 1 bis 5. Ich habe es mit hierarchischem Clustering versucht und es konnte die Größe …
Kennt jemand, wie der Titel schon sagt, ein gutes, aktuelles Buch, das die Datenvorverarbeitung im Allgemeinen und insbesondere Ausreißererkennungstechniken behandelt? Das Buch muss sich nicht ausschließlich darauf konzentrieren, aber es sollte sich ausführlich mit den oben genannten Themen befassen - ich würde mich nicht über etwas freuen, das ein Ausgangspunkt …
Ist es nur die Aggregation von Datenpunkten? Oder ist es die Darstellung von Datenpunkten für verschiedene Elemente in einem Tabellenformat, das mit Werten der verschiedenen Variablen angeordnet ist? Wie unterscheidet es sich von Rohdaten?
Ok, faire Warnung - dies ist eine philosophische Frage, die keine Zahlen beinhaltet. Ich habe viel darüber nachgedacht, wie sich Fehler im Laufe der Zeit in Datensätze einschleichen und wie dies von Analysten behandelt werden sollte - oder ob es überhaupt wichtig sein sollte? Als Hintergrund mache ich die Analyse …
Hier sind zum Beispiel die Definitionen, die ich aus Standardlehrbüchern bekomme Variable - charakteristisch für Population oder Stichprobe. Ex. Preis einer Aktie oder Sorte bei einem Test Daten - tatsächlich beobachtete Werte Also für einen zweispaltigen Bericht [Name | Einkommen] Die Spaltennamen wären die Variablen und die tatsächlich beobachteten Werte …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.