Statistiken und Big Data r

3

Warum deutet die Lückenstatistik für k-means auf einen Cluster hin, obwohl es offensichtlich zwei davon gibt?

Ich verwende K-means, um meine Daten zu gruppieren, und suche nach einer Möglichkeit, eine "optimale" Clusternummer vorzuschlagen. Gap-Statistiken scheinen ein gängiger Weg zu sein, um eine gute Clusternummer zu finden. Aus irgendeinem Grund gibt es 1 als optimale Clusternummer zurück, aber wenn ich mir die Daten anschaue, ist es offensichtlich, …

18 r machine-learning clustering k-means

5

Erkennen von Änderungen in Zeitreihen (R-Beispiel)

Ich möchte Änderungen in Zeitreihendaten erkennen, die normalerweise die gleiche Form haben. Bisher habe ich mit dem changepointPaket für R und den Funktionen cpt.mean(), cpt.var()und gearbeitet cpt.meanvar(). cpt.mean()mit der PELT-Methode funktioniert gut, wenn die Daten normalerweise auf einer Ebene bleiben. Änderungen möchte ich aber auch bei Abfahrten feststellen. Ein Beispiel …

18 r time-series change-point structural-change

1

Verwenden von Bootstrap unter H0, um einen Test auf die Differenz zweier Mittel durchzuführen: Ersetzen innerhalb der Gruppen oder innerhalb der gepoolten Probe

Angenommen, ich habe Daten mit zwei unabhängigen Gruppen: g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length …

18 r hypothesis-testing bootstrap small-sample permutation-test

3

Negativ-Binomial-GLM vs. Log-Transformation für Zähldaten: erhöhte Typ-I-Fehlerrate

Einige von Ihnen haben vielleicht dieses schöne Papier gelesen: O'Hara RB, Kotze DJ (2010) Zählungsdaten nicht protokollieren und transformieren. Methoden in Ökologie und Evolution 1: 118–122. klick . In meinem Forschungsgebiet (Ökotoxikologie) beschäftigen wir uns mit schlecht replizierten Experimenten, und GLMs werden nicht häufig eingesetzt. Also habe ich eine ähnliche …

18 r generalized-linear-model simulation negative-binomial type-i-and-ii-errors

1

Ordinale logistische Regression zeichnen und interpretieren

Ich habe eine ordinale abhängige Variable, Leichtigkeit, die von 1 (nicht leicht) bis 5 (sehr leicht) reicht. Erhöhungen der Werte der unabhängigen Faktoren sind mit einer erhöhten Leichtigkeitsbewertung verbunden. Zwei meiner unabhängigen Variablen ( condAund condB) sind kategorisch, jede mit 2 Ebenen, und 2 ( abilityA, abilityB) sind stetig. Ich …

18 r regression logistic interpretation ordered-logit

1

Clustering-Algorithmen, die mit spärlichen Datenmatrizen arbeiten [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 5 Jahren . Ich versuche, eine Liste von Clustering-Algorithmen zu erstellen, die Folgendes umfassen: Implementiert in R Arbeiten …

18 r clustering sparse

4

Lineare Regression mit Steigungsbeschränkung

Ich möchte eine sehr einfache lineare Regression durchführen R. Die Formel ist so einfach wie . Ich möchte jedoch, dass die Steigung ( ) in einem Intervall zwischen 1,4 und 1,6 liegt.ay= a x + by=einx+by = ax + beineina Wie geht das?

18 r regression constrained-regression

3

Varianz-Kovarianz-Matrix in lmer

Ich weiß, dass einer der Vorteile gemischter Modelle darin besteht, dass sie die Angabe einer Varianz-Kovarianz-Matrix für die Daten ermöglichen (zusammengesetzte Symmetrie, autoregressiv, unstrukturiert usw.). Die lmerFunktion in R ermöglicht jedoch keine einfache Angabe dieser Matrix. Weiß jemand, welche Struktur lmerstandardmäßig verwendet wird und warum es keine Möglichkeit gibt, diese …

18 r mixed-model lme4-nlme covariance-matrix

3

Welche Beziehung besteht zwischen der Profilwahrscheinlichkeit und den Konfidenzintervallen?

Um dieses Diagramm zu erstellen, habe ich Zufallsstichproben unterschiedlicher Größe aus einer Normalverteilung mit Mittelwert = 0 und sd = 1 generiert. Die Konfidenzintervalle wurden dann unter Verwendung von Alpha-Grenzwerten zwischen 0,001 und 0,999 (rote Linie) mit der Funktion t.test () berechnet. Die Profilwahrscheinlichkeit wurde unter Verwendung des Codes berechnet, …

18 r confidence-interval profile-likelihood

1

Inwiefern unterscheidet sich ein extrem zufälliger Wald von einem zufälligen Wald?

Ist die Umsetzung von ER effizienter (ähnlich Extreme Gradient Boostingwie die Steigerung des Gradienten) - ist der Unterschied aus praktischer Sicht wichtig? Es gibt ein R-Paket, das sie implementiert. Ist es ein neuer Algorithmus, der die "generische" Implementierung (RandomForest-Paket von R) nicht nur hinsichtlich der Effizienz oder auch in einigen …

18 r machine-learning algorithms random-forest

9

Paarweise Mahalanobis-Entfernungen

Ich muss den Mahalanobis-Abstand in R zwischen jedem Beobachtungspaar in einer n×pn×pn \times p Matrix von Kovariaten berechnen. Ich benötige eine effiziente Lösung, dh es werden nur Abstände berechnet und vorzugsweise in C / RCpp / Fortran usw. implementiert. Ich gehe davon aus, dass , die Populationskovarianzmatrix, unbekannt ist, und …

18 r algorithms distance

6

Out-of-Core-Datenanalyseoptionen

Ich benutze SAS seit fast 5 Jahren professionell. Ich habe es auf meinem Laptop installiert und muss häufig Datensätze mit 1.000 bis 2.000 Variablen und Hunderttausenden von Beobachtungen analysieren. Ich habe nach Alternativen zu SAS gesucht, mit denen ich Analysen mit ähnlich großen Datensätzen durchführen kann. Ich bin neugierig, was …

18 r sas large-data

2

Was ist der "

Was ist der Wert, der in der Zusammenfassung eines Coxph-Modells in R angegeben ist? Beispielsweise,R2R2R^2 Rsquare= 0.186 (max possible= 0.991 ) Ich habe dummerweise ein Manuskript als Wert hinzugefügt, und der Prüfer hat darauf hingewiesen, dass ihm kein Analogon der Statistik aus der für das Cox-Modell entwickelten klassischen linearen Regression …

18 r survival r-squared cox-model

5

Welche robusten Korrelationsmethoden werden tatsächlich verwendet?

Ich plane eine Simulationsstudie, in der ich die Leistung mehrerer robuster Korrelationstechniken mit unterschiedlichen Verteilungen (verzerrt, mit Ausreißern usw.) vergleiche. Mit robust meine ich den Idealfall, robust gegen a) verzerrte Verteilungen, b) Ausreißer und c) schwere Schwänze zu sein. Zusammen mit der Pearson-Korrelation als Grundlinie wollte ich folgende robustere Maßnahmen …

18 r correlation robust spearman-rho winsorizing

1

Wie sollen Standardfehler für Mixed-Effects-Modellschätzungen berechnet werden?

Wie sollen insbesondere die Standardfehler der Fixeffekte in einem linearen Mischeffektmodell (im häufigeren Sinne) berechnet werden? Ich bin zu der Annahme , dass die typischen Schätzungen ( ), wie sie in Laird und Ware [1982] vorgestellt wurden, SE's dazu geben werden werden in ihrer Größe unterschätzt, weil die geschätzten Varianzkomponenten …

18 r mixed-model random-effects-model

Als «r» getaggte Fragen