Als «data-transformation» getaggte Fragen

Mathematische, oft nichtlineare Reexpression von Datenwerten. Daten werden häufig transformiert, um entweder die Annahmen eines statistischen Modells zu erfüllen oder um die Ergebnisse einer Analyse besser interpretierbar zu machen.

2
Bartlett-Test gegen Levene-Test
Ich versuche derzeit, Verstöße gegen ANOVA-Annahmen zu beheben. Ich habe Shapiro-Wilk verwendet, um die Normalität zu testen, und mich sowohl mit dem Levene-Test als auch mit dem Bartlett-Test der Varianzgleichheit beschäftigt. Ich habe seitdem meine Daten protokolliert, um zu versuchen, die ungleichen Abweichungen zu beheben. Ich wiederholte den Bartlett-Test für …


3
Sind diese Formeln für die Transformation von P, LSD, MSD, HSD, CI, SE als exakte oder aufgeblasen / konservative Schätzung von
Hintergrund Ich führe eine Metaanalyse durch, die zuvor veröffentlichte Daten enthält. Oft werden Unterschiede zwischen Behandlungen mit P-Werten, niedrigstwertigen Unterschieden (LSD) und anderen Statistiken angegeben, liefern jedoch keine direkte Schätzung der Varianz. Im Kontext des von mir verwendeten Modells ist eine Überschätzung der Varianz in Ordnung. Problem Hier ist eine …


2
Sind logarithmische Differenzzeitreihenmodelle besser als Wachstumsraten?
Oft sehe ich Autoren, die ein "Log-Differenz" -Modell schätzen, z log(yt)−log(yt−1)=log(yt/yt−1)=α+βxtlog⁡(yt)−log⁡(yt−1)=log⁡(yt/yt−1)=α+βxt\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t Ich bin einverstanden dies angemessen ist , in Beziehung auf eine prozentuale Änderung der während ist .xtxtx_tytyty_tlog(yt)log⁡(yt)\log (y_t)I(1)I(1)I(1) Aber der logarithmische Unterschied ist eine Annäherung, und es scheint, dass man ein …

1
Rücktransformierte Konfidenzintervalle
Nachdem ich auf diese Diskussion gestoßen bin, stelle ich die Frage nach den Konventionen für rücktransformierte Konfidenzintervalle. Gemäß diesem Artikel beträgt der rücktransformierte CI der nominalen Abdeckung für den Mittelwert einer logarithmisch normalen Zufallsvariablen: LCL(X)=exp(Y+var(Y) U.C.L ( X.) = exp( Y.+ var ( Y.)2+ zvar ( Y.)n+ var ( Y.)22 …

1
Umgang mit der Regression ungewöhnlich begrenzter Antwortvariablen
Ich versuche, eine Antwortvariable zu modellieren, die theoretisch zwischen -225 und +225 liegt. Die Variable ist die Gesamtpunktzahl, die die Probanden beim Spielen eines Spiels erhalten haben. Obwohl es theoretisch möglich ist, dass Probanden +225 Punkte erzielen. Trotzdem geschah dies mit einer sehr hohen Häufigkeit, da die Punktzahl nicht nur …

2
Transformieren Sie kontinuierliche Variablen für die logistische Regression
Ich habe große Umfragedaten, eine binäre Ergebnisvariable und viele erklärende Variablen, einschließlich binärer und kontinuierlicher. Ich baue Modellsätze (experimentiere sowohl mit GLM als auch mit gemischtem GLM) und verwende informationstheoretische Ansätze, um das Topmodell auszuwählen. Ich habe die Erklärungen (sowohl kontinuierlich als auch kategorisch) sorgfältig auf Korrelationen untersucht und verwende …


2
Clustering von sehr verzerrten Zähldaten: Gibt es Vorschläge (Transformation usw.)?
Grundproblem Hier ist mein grundlegendes Problem: Ich versuche, einen Datensatz zu gruppieren, der einige sehr verzerrte Variablen mit Zählungen enthält. Die Variablen enthalten viele Nullen und sind daher für mein Clustering-Verfahren - das wahrscheinlich ein k-means-Algorithmus ist - nicht sehr informativ. Gut, sagen Sie, transformieren Sie die Variablen einfach mit …

1
Standardisierte VS-zentrierte Variablen
Ich habe auf stats.stackexchange.com viele nützliche Beiträge zu standardisierten unabhängigen Variablen und zentrierten unabhängigen Variablen gefunden, bin aber immer noch etwas verwirrt. Ich bitte Sie um eine Bewertung dessen, was ich verstanden habe. Wenn das Folgende nicht korrekt ist, können Sie mich bitte korrigieren? Wie man standardisiert. Standardisierte Variablen werden …


2
Regression mit inverser unabhängiger Variable
Nehmen wir an, ich habe einen Vektor abhängiger Variablen und einen Vektor unabhängiger Variablen. Wenn gegen aufgetragen wird , sehe ich, dass zwischen beiden eine lineare Beziehung (Aufwärtstrend) besteht. Dies bedeutet nun auch, dass zwischen und ein linearer Abwärtstrend besteht .NNNYYYNNNXXXYYY1X1X\frac{1}{X}YYYXXX Wenn ich nun die Regression ausführe: und den angepassten …

3
Wie würde sich eine Neugewichtung der Diversity-Daten der American Community Survey auf die Fehlerquote auswirken?
Hintergrund: Meine Organisation vergleicht derzeit ihre Statistiken zur Belegschaftsvielfalt (z. B.% Menschen mit Behinderungen,% Frauen,% Veteranen) mit der Gesamtverfügbarkeit von Arbeitskräften für diese Gruppen auf der Grundlage der American Community Survey (einem Umfrageprojekt des US Census Bureau). Dies ist eine ungenaue Benchmark, da wir eine sehr spezifische Reihe von Arbeitsplätzen …

1
Wie baue ich einen innovativen Ausreißer bei Beobachtung 48 in mein ARIMA-Modell ein?
Ich arbeite an einem Datensatz. Nachdem ich einige Modellidentifikationstechniken angewendet hatte, kam ich mit einem ARIMA (0,2,1) -Modell heraus. Ich habe die detectIOFunktion im Paket TSAin R verwendet, um bei der 48. Beobachtung meines ursprünglichen Datensatzes einen innovativen Ausreißer (IO) zu erkennen . Wie kann ich diesen Ausreißer in mein …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.