Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

3
Wie berechnet man die gepoolte Varianz von zwei oder mehr Gruppen bei bekannten Gruppenvarianzen, Mittelwerten und Stichprobengrößen?
Angenommen, es gibt Elemente, die in zwei Gruppen aufgeteilt sind ( und ). Die Varianz der ersten Gruppe ist und die Varianz der zweiten Gruppe ist . Es wird angenommen, dass die Elemente selbst unbekannt sind, aber ich kenne die und .m+nm+nm+nmmmnnnσ2mσm2\sigma_m^2σ2nσn2\sigma^2_nμmμm\mu_mμnμn\mu_n Gibt es eine Möglichkeit, die kombinierte Varianz zu …
32 variance  pooling 

1
Warum würde R NA als lm () -Koeffizienten zurückgeben?
Ich passe ein lm()Modell an einen Datensatz an, der Indikatoren für das Geschäftsquartal enthält (Q1, Q2, Q3, wodurch Q4 zum Standard wird). Verwenden von lm(Y~., data = data) Ich erhalte einen NAals Koeffizienten für Q3 und eine Warnung, dass eine Variable aufgrund von Singularitäten ausgeschlossen wurde. Muss ich eine Q4-Spalte …
32 r  regression 




2
Wie finde ich Konfidenzintervalle für Bewertungen?
Evan Millers " Wie man nicht nach Durchschnittsbewertung sortiert " schlägt vor, die Untergrenze eines Konfidenzintervalls zu verwenden, um eine vernünftige Gesamtpunktzahl für bewertete Artikel zu erhalten. Es funktioniert jedoch mit einem Bernoulli-Modell: Bewertungen sind entweder Daumen hoch oder Daumen runter. Was ist ein angemessenes Konfidenzintervall für ein Bewertungsmodell, das …

1
Varianz der Summe der vorhergesagten Werte aus einem gemischten Effektmodell auf einer Zeitreihe
Ich habe ein gemischtes Effektmodell (in der Tat ein verallgemeinertes additives gemischtes Modell), das mir Vorhersagen für eine Zeitreihe gibt. Um der Autokorrelation entgegenzuwirken, verwende ich ein corCAR1-Modell, da mir Daten fehlen. Die Daten sollen mir eine Gesamtlast geben, daher muss ich über das gesamte Vorhersageintervall summieren. Aber ich sollte …

7
Gibt es Algorithmen zur Berechnung laufender linearer oder logistischer Regressionsparameter?
In einem Artikel "Genaue Berechnung der Laufabweichung" unter http://www.johndcook.com/standard_deviation.html wird gezeigt, wie der Laufmittelwert, die Laufabweichung und die Standardabweichungen berechnet werden. Gibt es Algorithmen, bei denen die Parameter eines linearen oder logistischen Regressionsmodells ähnlich "dynamisch" aktualisiert werden können, wenn neue Trainingsaufzeichnungen bereitgestellt werden?


4
ANOVA für Binomialdaten
Ich analysiere einen experimentellen Datensatz. Die Daten bestehen aus einem gepaarten Vektor des Behandlungstyps und einem binomischen Ergebnis: Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... In der Ergebnisspalte bedeutet 1 Erfolg und 0 Misserfolg. Ich möchte herausfinden, ob die Behandlung das Ergebnis erheblich variiert. …



12
Was ist das am schwersten zu erfassende statistische Konzept?
Dies ist eine ähnliche Frage wie die hier , aber ich denke, sie ist so unterschiedlich, dass es sich lohnt, sie zu stellen. Ich dachte, ich würde als Vorspeise setzen, was meiner Meinung nach eines der am schwersten zu fassenden ist. Meins ist der Unterschied zwischen Wahrscheinlichkeit und Häufigkeit . …
32 teaching 

5
Modellierung von Längsschnittdaten, bei denen der Einfluss der Zeit zwischen Individuen in funktionaler Form variiert
Kontext : Stellen Sie sich vor, Sie hätten eine Längsschnittstudie durchgeführt, in der einmal wöchentlich über 20 Wochen eine abhängige Variable (DV) bei 200 Teilnehmern gemessen wurde. Obwohl ich an allgemeinen DVs interessiert bin, umfassen typische DVs, an die ich denke, die Arbeitsleistung nach der Einstellung oder verschiedene Wohlfühlmaßnahmen nach …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.