Als «data-transformation» getaggte Fragen

Mathematische, oft nichtlineare Reexpression von Datenwerten. Daten werden häufig transformiert, um entweder die Annahmen eines statistischen Modells zu erfüllen oder um die Ergebnisse einer Analyse besser interpretierbar zu machen.



2
Wann (und warum) sollten Sie das Protokoll einer Verteilung (von Zahlen) aufnehmen?
Angenommen, ich habe einige historische Daten, z. B. vergangene Aktienkurse, Flugpreisschwankungen, vergangene Finanzdaten des Unternehmens ... Jetzt kommt jemand (oder eine Formel) und sagt "Lass uns das Protokoll der Distribution nehmen / benutzen" und hier ist, wohin ich gehe WARUM ? Fragen: WARUM sollte man überhaupt das Verteilungsprotokoll führen? WAS …


1
Warum wird die Quadratwurzeltransformation für Zählungsdaten empfohlen?
Es wird oft empfohlen, die Quadratwurzel zu ziehen, wenn Sie Daten zählen. (Beispiele auf CV finden @ HarveyMotulsky Antwort hier oder @ whuber Antwort hier .) Auf der anderen Seite, wenn ein allgemeines lineares Modell mit einer Reaktionsvariable passend als Poisson verteilte, ist das Protokoll der kanonische Link . Dies …


8
Ist es jemals sinnvoll, kategoriale Daten als fortlaufend zu behandeln?
Bei der Beantwortung dieser Frage zu diskreten und fortlaufenden Daten habe ich zu Recht festgestellt, dass es selten sinnvoll ist, kategoriale Daten als fortlaufend zu behandeln. Auf den ersten Blick scheint das selbstverständlich zu sein, aber Intuition ist oft ein schlechter Leitfaden für Statistiken, oder zumindest meiner. Jetzt frage ich …

3
Wann sind Log-Skalen angebracht?
Ich habe gelesen, dass die Verwendung von Protokollskalen für Diagramme / Grafiken unter bestimmten Umständen angemessen ist, wie z. B. die y-Achse in einem Zeitreihendiagramm. Es ist mir jedoch nicht gelungen, eine endgültige Erklärung dafür zu finden, warum dies der Fall ist oder wann dies sonst angebracht wäre. Denken Sie …


1
One-Hot vs Dummy-Codierung in Scikit-Learn
Es gibt zwei verschiedene Möglichkeiten, kategoriale Variablen zu codieren. Angenommen, eine kategoriale Variable hat n Werte. One-Hot-Codierung konvertiert es in n Variablen, während Dummy-Codierung es in n-1 Variablen konvertiert . Wenn wir k kategoriale Variablen haben, von denen jede n Werte hat. Eine heiße Codierung endet mit kn- Variablen, während …

1
Wie wende ich Standardisierung / Normalisierung auf Trainings- und Testsets an, wenn Vorhersage das Ziel ist?
Wandle ich alle meine Daten oder Falze (wenn der Lebenslauf angewendet wird) gleichzeitig um? z.B (allData - mean(allData)) / sd(allData) Wandle ich Zugset und Testset getrennt um? z.B (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Oder transformiere ich Triebzüge und verwende Berechnungen auf dem Testsatz? z.B (trainData …

3
Interpretation des log transformierten Prädiktors und / oder der Antwort
Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden. Betrachten Sie den Fall von log(DV) = Intercept + B1*IV + Error Ich kann die IV als prozentuale Erhöhung interpretieren, …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
Normalisierung vs. Skalierung
Was ist der Unterschied zwischen Daten "Normalisierung" und Daten "Skalierung"? Bis jetzt dachte ich, beide Begriffe beziehen sich auf denselben Prozess, aber jetzt stelle ich fest, dass es noch etwas gibt, das ich nicht kenne / verstehe. Auch wenn es einen Unterschied zwischen Normalisierung und Skalierung gibt, wann sollten wir …

1
Regression: Variablen transformieren
Müssen Sie beim Transformieren von Variablen alle dieselbe Transformation verwenden? Kann ich zum Beispiel unterschiedlich transformierte Variablen auswählen, wie in: Sei Alter, Beschäftigungsdauer, Aufenthaltsdauer und Einkommen.x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Oder müssen Sie mit Ihren Transformationen konsistent sein und alle dieselben verwenden? Wie in: Y = B1*log(x1) …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.