Statistiken und Big Data small-sample

3

Bootstrap: das Problem der Überanpassung

Angenommen, man führt den sogenannten nichtparametrischen Bootstrap durch, indem man aus den ursprünglichen Beobachtungen jeweils Stichproben der Größe mit Ersetzung zieht . Ich glaube, dieses Verfahren entspricht der Schätzung der kumulativen Verteilungsfunktion durch das empirische cdf:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function und dann Erhalten der Bootstrap-Abtastwerte durch Simulieren von Beobachtungen aus den geschätzten cdf …

14 bootstrap sample-size sample small-sample finite-population

7

Sind kurze Zeitreihen eine Modellierung wert?

Hier ist ein Zusammenhang. Ich möchte herausfinden, wie sich zwei Umgebungsvariablen (Temperatur, Nährstoffgehalt) über einen Zeitraum von 11 Jahren auf den Mittelwert einer Antwortvariablen auswirken. Innerhalb eines Jahres gibt es Daten von über 100.000 Standorten. Ziel ist es zu bestimmen, ob der Mittelwert der Antwortvariablen über den Zeitraum von 11 …

14 time-series regression sample-size small-sample

4

Kleine Beispiele grafisch darstellen

Ich habe einen kleinen Datensatz von 14 verschiedenen Zeiten, um eine Aufgabe abzuschließen. Ich habe jedoch Schwierigkeiten, ein geeignetes Diagramm zu finden, um die Daten grafisch darzustellen. Wenn die Stichprobe größer wäre, würde ich einen Boxplot oder ein Histogramm verwenden, aber ich bin nicht sicher, ob es in diesem Fall …

13 data-visualization descriptive-statistics small-sample

1

Halton-Sequenz gegen Sobol-Sequenz?

Aus einer Antwort in einer früheren Frage ging ich auf die Halton-Sequenz ein, um eine Reihe von Vektoren zu erstellen, die einen einheitlichen Probenraum ziemlich gleichmäßig abdecken. Auf der Wikipedia-Seite wird jedoch erwähnt, dass besonders höhere Primzahlen zu Beginn der Serie häufig stark korrelieren. Dies scheint für jedes Paar hoher …

13 sampling small-sample quasi-monte-carlo

2

Ist Random Forest für sehr kleine Datenmengen geeignet?

Ich habe einen Datensatz mit 24 Zeilen monatlicher Daten. Die Merkmale sind BIP, Flughafenankünfte, Monat und einige andere. Die abhängige Variable ist die Anzahl der Besucher eines beliebten Tourismusziels. Wäre Random Forest für ein solches Problem geeignet? Die Daten sind nicht öffentlich, daher kann ich kein Beispiel veröffentlichen.

13 random-forest small-sample

1

ANOVA: Test der Normalitätsannahme für viele Gruppen mit wenigen Stichproben pro Gruppe

Nehmen Sie die folgende Situation an: Wir haben eine große Anzahl (zB 20) mit kleinen Gruppen (zB n = 3). Mir ist aufgefallen, dass, wenn ich Werte aus der gleichmäßigen Verteilung erzeuge, die Residuen ungefähr normal aussehen, obwohl die Fehlerverteilung gleichmäßig ist. Der folgende R-Code demonstriert dieses Verhalten: n.group = …

12 anova normal-distribution small-sample

2

Ist die Randomisierung bei kleinen Stichproben zuverlässig?

Jerome Cornfield hat geschrieben: Eine der schönsten Früchte der Fischerrevolution war die Idee der Randomisierung, und Statistiker, die sich in wenigen anderen Dingen einig sind, haben sich zumindest darauf geeinigt. Trotz dieser Vereinbarung und trotz der weit verbreiteten Verwendung randomisierter Zuordnungsverfahren in klinischen und anderen Formen des Experimentierens ist sein …

11 small-sample random-allocation

1

Tests vs

Ich versuche genau herauszufinden, was der Unterschied zwischen Tests und z- Tests ist.tttzzz Soweit ich das beurteilen kann, verwendet man für beide Testklassen dieselbe Teststatistik, etwas in der Form b^−Cseˆ(b^)b^−Cse^(b^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})} wo b einige Proben Statistik ist, C ist einige Referenz (Ort) konstant (die auf den Angaben des Tests …

11 hypothesis-testing t-test small-sample

3

Grenzen zu baumbasierten Ensemble-Methoden bei kleinen n, großen p-Problemen?

Baumbasierte Ensemble-Methoden wie Random Forest und nachfolgende Ableitungen (z. B. bedingter Wald) sollen bei sogenannten "kleinen n , großen p " -Problemen nützlich sein , um die relative variable Bedeutung zu identifizieren. Dies scheint zwar der Fall zu sein, aber meine Frage ist, wie weit diese Fähigkeit gehen kann. Kann …

10 random-forest small-sample ensemble

1

Regression mit sehr kleiner Stichprobengröße

Ich möchte eine Regression mit 4 bis 5 erklärenden Variablen durchführen, habe aber nur 15 Beobachtungen. Wenn nicht angenommen werden kann, dass diese Variablen normal verteilt sind, gibt es eine nicht parametrische oder eine andere gültige Regressionsmethode?

9 regression small-sample

1

Kolmogorov Smirnov Z gegen Mann Whitney U kleine Stichprobengröße n = 15?

Ich habe eine kleine Stichprobengröße von 15. Ich möchte sehen, ob es einen Unterschied in der Nährstoffaufnahme zwischen zwei unabhängigen Variablen gibt, Gruppe 1 n = 11, Gruppe 2 n = 4. Die Daten sind nicht normal verteilt. Welcher Test ist besser geeignet, der Mann Whitney U- oder der Kolmogorov-Smirnov …

8 mean wilcoxon-mann-whitney small-sample median kolmogorov-smirnov

1

Korrektur für Mehrfachtests bei einer bescheidenen Anzahl von Tests (10-20) mit FDR?

Die Falschentdeckungsrate (Benjamini-Hochberg) wird normalerweise für "Big Data" verwendet, z. B. für genetische Studien mit Hunderten von Tests. Aber kann es auch bei einer geringeren Anzahl von Tests verwendet werden? Betrachten Sie beispielsweise die Ergebnisse von zwei Gruppen (Männer gegen Frauen) anhand von beispielsweise 10 bis 20 verschiedenen Fragebögen. Verliert …

8 multiple-comparisons small-sample false-discovery-rate

2

Ist die Stichprobenverteilung für kleine Stichproben einer Normalbevölkerung normal oder t verteilt? [geschlossen]

Geschlossen . Diese Frage erfordert Details oder Klarheit . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Fügen Sie Details hinzu und klären Sie das Problem, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Wenn ich weiß, dass die Population normal verteilt ist, und dann …

8 distributions normal-distribution sampling small-sample t-distribution

3

Dimensionsreduktionstechniken für sehr kleine Stichprobengrößen

Ich habe 21 sozioökonomische Variablen und Variablen auf Makroebene (z. B. Prozentsatz der nicht erwerbstätigen Mütter im Alter von 24 bis 54 Jahren, Prozentsatz der Kinder im Alter von 3 bis 5 Jahren in Kindergärten usw.). Ich habe auch Daten über die Anteile der Großeltern, die eine intensive Kinderbetreuung angeboten …

8 pca factor-analysis dimensionality-reduction small-sample correspondence-analysis

1

Multiple Regression mit kleinen Datenmengen

Ich habe einen Datensatz mit Projektfallstudien für eine neue Art von Forschungsmethode für Regierungsbehörden zur Unterstützung von Entscheidungsaktivitäten. Meine Aufgabe ist es, eine Schätzmethode zu entwickeln, die auf früheren Erfahrungen für zukünftige Projekte zu Schätzzwecken basiert. Mein Datensatz ist auf 50 Fälle begrenzt. Ich habe mehr als 30 (potenzielle) Prädiktoren …

8 regression small-sample

Als «small-sample» getaggte Fragen