Statistiken und Big Data regression

2

Was ist die angepasste R-Quadrat-Formel in lm in R und wie ist sie zu interpretieren?

Was ist die genaue Formel, die in R lm() für das angepasste R-Quadrat verwendet wird? Wie kann ich das interpretieren? Angepasste R-Quadrat-Formeln Es scheinen verschiedene Formeln zur Berechnung des bereinigten R-Quadrats zu existieren. Wherry-Formel: 1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} McNemars Formel:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} Gottes Formel:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} Steins Formel:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) Lehrbuchbeschreibungen Laut Field's Lehrbuch, Discovering Statistics Using R (2012, …

35 r regression r-squared lm shrinkage

2

Zweck der Verknüpfungsfunktion im verallgemeinerten linearen Modell

Was ist der Zweck der Verknüpfungsfunktion als Bestandteil des verallgemeinerten linearen Modells? Warum brauchen wir das? Wikipedia besagt: Es kann zweckmäßig sein, die Domäne der Verknüpfungsfunktion an den Bereich des Mittelwerts der Verteilungsfunktion anzupassen Was ist der Vorteil davon?

35 regression generalized-linear-model link-function irls

7

Auswählen von Variablen, die in ein Modell mit mehreren linearen Regressionen aufgenommen werden sollen

Ich arbeite derzeit daran, ein Modell mit einer multiplen linearen Regression zu erstellen. Nachdem ich mit meinem Modell herumgespielt habe, bin ich mir nicht sicher, wie ich am besten bestimmen kann, welche Variablen aufbewahrt und welche entfernt werden sollen. Mein Modell startete mit 10 Prädiktoren für den DV. Bei Verwendung …

35 regression multiple-regression feature-selection modeling model-selection

5

Was sind bewährte Methoden zum Ermitteln von Interaktionseffekten?

Abgesehen vom buchstäblichen Testen jeder möglichen Kombination von Variablen in einem Modell ( x1:x2oder x1*x2 ... xn-1 * xn). Wie erkennen Sie, ob eine Interaktion zwischen Ihren unabhängigen (hoffentlich) Variablen bestehen SOLLTE oder KÖNNTE? Was sind Best Practices für den Versuch, Interaktionen zu identifizieren? Gibt es eine grafische Technik, die …

35 regression modeling interaction

1

Logistische Regression: Anova-Chi-Quadrat-Test vs. Signifikanz der Koeffizienten (anova () vs. summary () in R)

Ich habe ein logistisches GLM-Modell mit 8 Variablen. Ich habe einen Chi-Quadrat-Test in R durchgeführt, anova(glm.model,test='Chisq')und 2 der Variablen haben sich als vorhersagend erwiesen, wenn sie oben im Test bestellt wurden, und nicht so sehr, wenn sie unten bestellt wurden. Das summary(glm.model)deutet darauf hin, dass ihre Koeffizienten unbedeutend sind (hoher …

35 r regression logistic statistical-significance generalized-linear-model

3

Signifikanzwiderspruch in der linearen Regression: signifikanter t-Test für einen Koeffizienten gegenüber nicht signifikanter Gesamt-F-Statistik

Ich passe ein Modell mit mehreren linearen Regressionen zwischen 4 kategorialen Variablen (mit jeweils 4 Ebenen) und einer numerischen Ausgabe an. Mein Datensatz enthält 43 Beobachtungen. Die Regression gibt mir die folgenden Werte aus dem Test für jeden Steigungskoeffizienten: . Somit ist der Koeffizient für den vierten Prädiktor bei einem …

35 regression hypothesis-testing multiple-comparisons multiple-regression t-test

3

Was ist ein Reststandardfehler?

Beim Ausführen eines Mehrfachregressionsmodells in R ist eine der Ausgaben ein Reststandardfehler von 0,0589 bei 95.161 Freiheitsgraden. Ich weiß, dass die 95.161 Freiheitsgrade durch die Differenz zwischen der Anzahl der Beobachtungen in meiner Stichprobe und der Anzahl der Variablen in meinem Modell gegeben sind. Was ist der Reststandardfehler?

35 regression standard-error residuals

4

Warum wird die logistische Regression instabil, wenn die Klassen gut voneinander getrennt sind?

Warum wird die logistische Regression instabil, wenn die Klassen gut voneinander getrennt sind? Was bedeuten gut getrennte Klassen? Ich würde mich sehr freuen, wenn sich jemand mit einem Beispiel erklären kann.

34 r regression logistic separation

5

Was ist, wenn meine linearen Regressionsdaten mehrere vermischte lineare Beziehungen enthalten?

Angenommen, ich untersuche, wie Narzissen auf verschiedene Bodenbedingungen reagieren. Ich habe Daten über den pH-Wert des Bodens im Vergleich zur reifen Höhe der Narzisse gesammelt. Da ich eine lineare Beziehung erwarte, gehe ich einer linearen Regression nach. Als ich mit meiner Studie begann, wusste ich jedoch nicht, dass die Population …

34 regression linear-model dataset

3

R - Verwirrt in der Restterminologie

Root Mean Square Error Restsumme der Quadrate Reststandardfehler mittlere quadratische Fehler Testfehler Ich dachte, ich hätte diese Begriffe verstanden, aber je mehr ich statistische Probleme habe, desto mehr bin ich verwirrt, wo ich mich selbst errate. Ich hätte gerne eine Bestätigung und ein konkretes Beispiel Ich kann die Gleichungen online …

34 r regression residuals

2

Interpretation des Diagramms Residuen vs. angepasste Werte zur Überprüfung der Annahmen eines linearen Modells

Betrachten Sie die folgende Abbildung aus Faraways linearen Modellen mit R (2005, S. 59). Das erste Diagramm scheint darauf hinzudeuten, dass die Residuen und die angepassten Werte nicht korreliert sind, da sie in einem homoskedastischen linearen Modell mit normalverteilten Fehlern vorliegen sollten. Daher legen die zweite und dritte Kurve, die …

34 regression residuals assumptions graphical-model

4

X und Y sind nicht korreliert, aber X ist ein signifikanter Prädiktor für Y bei multipler Regression. Was heißt das?

X und Y sind nicht korreliert (-.01); Wenn ich jedoch X in eine multiple Regression lege, die Y vorhersagt, sind neben drei (A, B, C) anderen (verwandten) Variablen auch X und zwei andere Variablen (A, B) signifikante Prädiktoren für Y. Beachten Sie, dass die beiden anderen ( A, B) Variablen …

34 regression correlation interpretation causality

3

Wie überwindet die Kreuzvalidierung das Problem der Überanpassung?

Warum löst ein Kreuzvalidierungsverfahren das Problem der Überanpassung eines Modells?

34 regression model-selection cross-validation

3

Warum gibt es einen Unterschied zwischen der manuellen Berechnung eines Konfidenzintervalls für eine logistische Regression von 95% und der Verwendung der Funktion confint () in R?

Sehr geehrte Damen und Herren, mir ist etwas Merkwürdiges aufgefallen, das ich Ihnen nicht erklären kann. Zusammenfassend lässt sich sagen, dass der manuelle Ansatz zur Berechnung eines Konfidenzintervalls in einem logistischen Regressionsmodell und die R-Funktion confint()unterschiedliche Ergebnisse liefern. Ich habe die angewandte logistische Regression von Hosmer & Lemeshow (2. Auflage) …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

6

Data Mining: Wie soll ich vorgehen, um das funktionale Formular zu finden?

Ich bin gespannt auf wiederholbare Verfahren , die verwendet werden können , die funktionale Form der Funktion zu entdecken , y = f(A, B, C) + error_termwo meine einzige Eingabe eine Reihe von Beobachtungen ist ( y, A, Bund C). Bitte beachten Sie, dass die Funktionsform funbekannt ist. Betrachten Sie …

34 regression machine-learning algorithms model-selection data-mining

Als «regression» getaggte Fragen