Statistiken und Big Data data-transformation

12

Wie kann ich nicht negative Daten einschließlich Nullen transformieren?

Wenn ich stark verzerrte positive Daten habe, nehme ich oft Protokolle. Aber was soll ich mit stark verzerrten, nicht negativen Daten machen, die Nullen enthalten? Ich habe zwei Transformationen gesehen: Log( x + 1 )log⁡(x+1)\log(x+1) mit der netten Funktion, dass 0 auf 0 abgebildet wird. Log( x + c )log⁡(x+c)\log(x+c) …

191 data-transformation large-data

9

Wie fasse ich Daten nach Gruppen in R zusammen? [geschlossen]

Ich habe R Datenrahmen wie folgt: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Ich muss den Datenrahmen in der folgenden Form erhalten: group mean …

181 r data-transformation

2

Wann (und warum) sollten Sie das Protokoll einer Verteilung (von Zahlen) aufnehmen?

Angenommen, ich habe einige historische Daten, z. B. vergangene Aktienkurse, Flugpreisschwankungen, vergangene Finanzdaten des Unternehmens ... Jetzt kommt jemand (oder eine Formel) und sagt "Lass uns das Protokoll der Distribution nehmen / benutzen" und hier ist, wohin ich gehe WARUM ? Fragen: WARUM sollte man überhaupt das Verteilungsprotokoll führen? WAS …

173 distributions data-transformation logarithm

8

Wann ist es in der linearen Regression angebracht, das Protokoll einer unabhängigen Variablen anstelle der tatsächlichen Werte zu verwenden?

Bin ich auf der Suche nach einer besser verhaltenen Verteilung für die betreffende unabhängige Variable oder nach einer Reduzierung der Auswirkung von Ausreißern oder nach etwas anderem?

164 regression distributions data-transformation logarithm regression-strategies

1

Warum wird die Quadratwurzeltransformation für Zählungsdaten empfohlen?

Es wird oft empfohlen, die Quadratwurzel zu ziehen, wenn Sie Daten zählen. (Beispiele auf CV finden @ HarveyMotulsky Antwort hier oder @ whuber Antwort hier .) Auf der anderen Seite, wenn ein allgemeines lineares Modell mit einer Reaktionsvariable passend als Poisson verteilte, ist das Protokoll der kanonische Link . Dies …

57 generalized-linear-model data-transformation poisson-distribution count-data variance-stabilizing

5

Wie klein sollte eine Menge zu x addiert werden, um zu vermeiden, dass das Protokoll Null wird?

Ich habe meine Daten so analysiert, wie sie sind. Jetzt möchte ich meine Analysen betrachten, nachdem ich alle Variablen protokolliert habe. Viele Variablen enthalten viele Nullen. Aus diesem Grund füge ich eine kleine Menge hinzu, um zu vermeiden, dass das Protokoll Null wird. Bisher habe ich 10 ^ -10 hinzugefügt, …

57 data-transformation chemometrics

8

Ist es jemals sinnvoll, kategoriale Daten als fortlaufend zu behandeln?

Bei der Beantwortung dieser Frage zu diskreten und fortlaufenden Daten habe ich zu Recht festgestellt, dass es selten sinnvoll ist, kategoriale Daten als fortlaufend zu behandeln. Auf den ersten Blick scheint das selbstverständlich zu sein, aber Intuition ist oft ein schlechter Leitfaden für Statistiken, oder zumindest meiner. Jetzt frage ich …

57 categorical-data data-transformation ordinal-data continuous-data

3

Wann sind Log-Skalen angebracht?

Ich habe gelesen, dass die Verwendung von Protokollskalen für Diagramme / Grafiken unter bestimmten Umständen angemessen ist, wie z. B. die y-Achse in einem Zeitreihendiagramm. Es ist mir jedoch nicht gelungen, eine endgültige Erklärung dafür zu finden, warum dies der Fall ist oder wann dies sonst angebracht wäre. Denken Sie …

57 data-visualization data-transformation

3

Gibt es eine Box-Cox-ähnliche Transformation für unabhängige Variablen? Das heißt, eine Transformation, die die Variable so optimiert , dass sie für ein lineares Modell angemessener ist?Xxxy~f(x) Wenn ja, gibt es eine Funktion, mit der dies durchgeführt werden kann R?

53 r regression data-transformation normality-assumption

1

One-Hot vs Dummy-Codierung in Scikit-Learn

Es gibt zwei verschiedene Möglichkeiten, kategoriale Variablen zu codieren. Angenommen, eine kategoriale Variable hat n Werte. One-Hot-Codierung konvertiert es in n Variablen, während Dummy-Codierung es in n-1 Variablen konvertiert . Wenn wir k kategoriale Variablen haben, von denen jede n Werte hat. Eine heiße Codierung endet mit kn- Variablen, während …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

1

Wie wende ich Standardisierung / Normalisierung auf Trainings- und Testsets an, wenn Vorhersage das Ziel ist?

Wandle ich alle meine Daten oder Falze (wenn der Lebenslauf angewendet wird) gleichzeitig um? z.B (allData - mean(allData)) / sd(allData) Wandle ich Zugset und Testset getrennt um? z.B (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Oder transformiere ich Triebzüge und verwende Berechnungen auf dem Testsatz? z.B (trainData …

47 r cross-validation data-transformation normalization standardization

3

Interpretation des log transformierten Prädiktors und / oder der Antwort

Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden. Betrachten Sie den Fall von log(DV) = Intercept + B1*IV + Error Ich kann die IV als prozentuale Erhöhung interpretieren, …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

4

Normalisierung vs. Skalierung

Was ist der Unterschied zwischen Daten "Normalisierung" und Daten "Skalierung"? Bis jetzt dachte ich, beide Begriffe beziehen sich auf denselben Prozess, aber jetzt stelle ich fest, dass es noch etwas gibt, das ich nicht kenne / verstehe. Auch wenn es einen Unterschied zwischen Normalisierung und Skalierung gibt, wann sollten wir …

45 data-transformation scales normality-assumption normalization

1

Regression: Variablen transformieren

Müssen Sie beim Transformieren von Variablen alle dieselbe Transformation verwenden? Kann ich zum Beispiel unterschiedlich transformierte Variablen auswählen, wie in: Sei Alter, Beschäftigungsdauer, Aufenthaltsdauer und Einkommen.x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Oder müssen Sie mit Ihren Transformationen konsistent sein und alle dieselben verwenden? Wie in: Y = B1*log(x1) …

41 r regression logistic data-transformation

1

Alternativen zur Einweg-ANOVA für heteroskedastische Daten

Ich habe Daten aus 3 Gruppen von Algenbiomasse ( , , ), die ungleiche Stichprobengrößen enthalten ( , , ) und möchte vergleichen, ob diese Gruppen aus derselben Population stammen.B C n A = 15 n B = 13 n C = 12AAABBBCCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 Einweg-ANOVA wäre auf jeden Fall der richtige …

36 r anova data-transformation heteroscedasticity

Als «data-transformation» getaggte Fragen