Statistiken und Big Data r

1

Generalisierte additive Modelle (GAMs), Wechselwirkungen und Kovariaten

Ich habe eine Reihe von Prognosewerkzeugen untersucht und festgestellt, dass generalisierte additive Modelle (GAMs) für diesen Zweck das größte Potenzial haben. GAMs sind großartig! Sie ermöglichen es, komplexe Modelle sehr präzise zu spezifizieren. Diese Prägnanz führt jedoch zu einigen Verwirrungen, insbesondere in Bezug darauf, wie GAMs Interaktionsterme und Kovariaten auffassen. …

12 r modeling gam mgcv

2

QQ-Plot sieht normal aus, aber Shapiro-Wilk-Test sagt etwas anderes

In R habe ich eine Stichprobe von 348 Kennzahlen und möchte wissen, ob ich davon ausgehen kann, dass sie für zukünftige Tests normalverteilt sind. Nach einer weiteren Stack-Antwort betrachte ich im Wesentlichen die Dichtekurve und die QQ-Kurve mit: plot(density(Clinical$cancer_age)) qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2) Ich habe keine große Erfahrung mit Statistik, …

12 r normal-distribution

1

Was sind in R berechnete multivariate orthogonale Polynome?

Orthogonale Polynome in einer univariaten Menge von Punkten sind Polynome, die Werte auf diesen Punkten auf eine Weise erzeugen, dass ihr Punktprodukt und ihre paarweise Korrelation Null sind. R kann orthogonale Polynome mit der Funktion poly erzeugen . Dieselbe Funktion hat ein Variantenpolym, das orthogonale Polynome auf einer multivariaten Punktmenge …

12 r multiple-regression polynomial orthogonal

1

Konfidenzintervalle für Vorhersagen für ein nichtlineares gemischtes Modell (nlme)

Ich möchte 95% -Konfidenzintervalle für die Vorhersagen eines nichtlinearen gemischten nlmeModells erhalten. Da dies innerhalb von nichts Standardmäßigem vorgesehen ist, habe nlmeich mich gefragt, ob es richtig ist, die Methode der "Bevölkerungsvorhersageintervalle" zu verwenden, die in Ben Bolkers Buchkapitel im Kontext von Modellen beschrieben wird , die auf der Idee …

12 r mixed-model confidence-interval lme4-nlme

1

Warum verwendet ecdf eine Sprungfunktion und keine lineare Interpolation?

Empirische CDF-Funktionen werden üblicherweise durch eine Sprungfunktion geschätzt. Gibt es einen Grund, warum dies so gemacht wird und nicht durch Verwendung einer linearen Interpolation? Hat die Stufenfunktion interessante theoretische Eigenschaften, die uns bevorzugen? Hier ist ein Beispiel für die beiden: ecdf2 <- function (x) { x <- sort(x) n <- …

12 r distributions ecdf

1

GBM-Paket vs. Caret mit GBM

Ich habe das Modell mit optimiert caret, aber dann das Modell mit dem gbmPaket erneut ausgeführt. Nach meinem Verständnis sollten das verwendete caretPaket gbmund die Ausgabe identisch sein. Nur ein kurzer Testlauf mit data(iris)zeigt jedoch eine Diskrepanz im Modell von etwa 5% unter Verwendung von RMSE und R ^ 2 …

12 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

2

Verwendung von lm für einen 2-Proben-Proportional-Test

Ich verwende seit einiger Zeit lineare Modelle, um 2-Stichproben-Proportionen-Tests durchzuführen, habe jedoch festgestellt, dass dies möglicherweise nicht vollständig korrekt ist. Es scheint, dass die Verwendung eines verallgemeinerten linearen Modells mit einer Binomialfamilie + Identitätsverknüpfung genau die ungepoolten 2-Stichproben-Proportionen-Testergebnisse liefert. Die Verwendung eines linearen Modells (oder Glm mit Gaußscher Familie) ergibt …

12 r hypothesis-testing generalized-linear-model proportion

1

Wie berechnet sich das Konfidenzintervall für die ACF-Funktion?

Wenn Sie beispielsweise die acf()Funktion in R aufrufen , zeichnet sie standardmäßig ein Korrelogramm und zeichnet ein Konfidenzintervall von 95%. Wenn Sie den Code betrachten und anrufen plot(acf_object, ci.type="white"), sehen Sie: qnorm((1 + ci)/2)/sqrt(x$n.used) als obere Grenze für Typ Weißes Rauschen. Kann jemand die Theorie hinter dieser Methode erklären? Warum …

12 r confidence-interval autocorrelation

4

Ermitteln Sie die Anzahl der Spitzen bei der Audioaufnahme

Ich versuche herauszufinden, wie man die Anzahl der Silben in einem Korpus von Audioaufnahmen erkennt. Ich denke, ein guter Proxy könnte Peaks in der Wave-Datei sein. Hier ist, was ich mit einer Datei versucht habe, in der ich Englisch spreche (mein aktueller Anwendungsfall ist Kiswahili). Das Protokoll dieser Beispielaufnahme lautet: …

12 r signal-processing

2

Regression, wenn jeder Punkt sowohl in

Ich habe nnn Messungen mit zwei Variablen und . Sie haben beide bekannte Unsicherheiten und die mit ihnen verbunden sind. Ich möchte die Beziehung zwischen x und y finden . Wie kann ich es tun?y σ xxxxyyyσxσx\sigma_xσyσy\sigma_yxxxyyy BEARBEITEN : Mit jedem ist ein anderes und mit dem dasselbe .xixix_i y …

12 r regression deming-regression

1

Wie lassen sich Proportionen am besten transformieren, wenn sie eine unabhängige Variable sind?

Ich dachte, ich hätte dieses Problem verstanden, aber jetzt bin ich mir nicht so sicher und würde es gerne mit anderen klären, bevor ich fortfahre. Ich habe zwei Variablen Xund Y. Yist ein Verhältnis, und es ist nicht durch 0 und 1 begrenzt und ist im Allgemeinen normalverteilt. Xist ein …

12 r regression data-transformation nonlinear-regression proportion

1

Identische Koeffizienten, geschätzt in Poisson vs. Quasi-Poisson-Modell

Bei der Modellierung von Anspruchszählungsdaten in einer Versicherungsumgebung begann ich mit Poisson, bemerkte dann aber eine Überdispersion. Ein Quasi-Poisson-Modell modellierte die größere Mittelwert-Varianz-Beziehung besser als das Basis-Poisson-Modell, aber ich bemerkte, dass die Koeffizienten sowohl im Poisson- als auch im Quasi-Poisson-Modell identisch waren. Wenn dies kein Fehler ist, warum geschieht dies? …

12 r count-data poisson-regression overdispersion quasi-likelihood

2

Wie wandle ich negative Werte in Logarithmen um?

Ich würde gerne wissen, wie man negative Werte umwandelt Log(), da ich heteroskedastische Daten habe. Ich habe gelesen, dass es mit der Formel funktioniert, Log(x+1)aber dies funktioniert nicht mit meiner Datenbank und ich erhalte weiterhin NaNs als Ergebnis. Ich erhalte zB die folgende Warnmeldung (ich habe meine Datenbank nicht vollständig …

12 r logarithm

4

Interpretation der zufälligen Effektvarianz in glmer

Ich überarbeite ein Papier zur Bestäubung, in dem die Daten binomial verteilt sind (Obst reift oder nicht). Also habe ich glmermit einem zufälligen Effekt (einzelne Pflanze) und einem festen Effekt (Behandlung) gearbeitet. Ein Gutachter möchte wissen, ob die Pflanze einen Einfluss auf den Fruchtansatz hatte - aber ich habe Probleme, …

12 r generalized-linear-model variance lme4-nlme ecology

1

Wie heißt die Dichteschätzmethode, bei der alle möglichen Paare verwendet werden, um eine normale Mischungsverteilung zu erstellen?

Ich habe mir gerade eine nette (nicht unbedingt gute) Methode ausgedacht, um eindimensionale Dichteschätzungen zu erstellen, und meine Frage lautet: Hat diese Dichteschätzmethode einen Namen? Wenn nicht, handelt es sich um einen Sonderfall einer anderen Methode in der Literatur? Hier ist die Methode: Wir haben ein Vektor X=[x1,x2,...,xn]X=[x1,x2,...,xn]X = [x_1,x_2,...,x_n] …

12 r estimation nonparametric pdf kernel-smoothing

Als «r» getaggte Fragen