Eine Stichprobentechnik, bei der die interessierende Population in Teilmengen ("Schichten") aufgeteilt wird, basierend auf Merkmalen, die vor der Stichprobe in allen Einheiten bekannt sind.
Was ist der Unterschied zwischen geschichteter Kreuzvalidierung und Kreuzvalidierung ? Wikipedia sagt: Bei der geschichteten k-fach Kreuzvalidierung werden die Falten so ausgewählt, dass der mittlere Antwortwert in allen Falten ungefähr gleich ist. Bei einer dichotomen Klassifizierung bedeutet dies, dass jede Falte ungefähr die gleichen Anteile der beiden Arten von Klassenbezeichnungen …
Mir wurde gesagt, dass es von Vorteil ist, eine geschichtete Kreuzvalidierung zu verwenden, insbesondere wenn die Antwortklassen nicht ausgeglichen sind. Wenn ein Zweck der Kreuzvalidierung darin besteht, die Zufälligkeit unserer ursprünglichen Trainingsdatenstichprobe zu berücksichtigen, würde es sicher dagegen wirken, wenn Sie für jede Falte die gleiche Klassenverteilung festlegen, es sei …
Ich würde gerne wissen, ob die Verwendung geschichteter Stichproben anstelle von Zufallsstichproben einige Vorteile hat, wenn der ursprüngliche Datensatz in Trainings- und Testsätze für die Klassifizierung aufgeteilt wird. Bringt geschichtete Stichprobe mehr Verzerrung in den Klassifikator als zufällige Stichprobe? Die Anwendung, für die ich eine geschichtete Stichprobe zur Datenaufbereitung verwenden …
In Regressionsmodellierungsstrategien von Harrell (zweite Ausgabe) wird in Abschnitt (S. 20.1.7) auf Cox-Modelle eingegangen, einschließlich einer Wechselwirkung zwischen einer Kovariate, deren Haupteffekt auf das Überleben ebenfalls geschätzt werden soll (Alter im folgenden Beispiel), und a Kovariate, deren Haupteffekt wir nicht einschätzen wollen (Geschlecht im Beispiel unten). Konkret: Nehmen wir an, …
KOPFGELD: Das volle Kopfgeld wird an jemanden vergeben, der einen Verweis auf ein veröffentlichtes Papier bereitstellt, in dem der unten stehende Schätzer verwendet oder erwähnt wird.F~F~\tilde{F} Motivation: Dieser Abschnitt ist wahrscheinlich nicht wichtig für Sie und ich vermute, er wird Ihnen nicht dabei helfen, das Kopfgeld zu erhalten. Da jedoch …
Ich habe also eine Matrix von ungefähr 60 x 1000. Ich betrachte sie als 60 Objekte mit 1000 Merkmalen. Die 60 Objekte sind in 3 Klassen (a, b, c) eingeteilt. 20 Objekte in jeder Klasse, und wir kennen die wahre Klassifizierung. Ich möchte an diesem Satz von 60 Trainingsbeispielen überwachtes …
Die randomForest-Implementierung erlaubt keine Stichproben über die Anzahl der Beobachtungen hinaus, selbst wenn Stichproben mit Ersatz erstellt werden. Warum ist das? Funktioniert gut: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Was ich machen will; was ich vorhabe zu tun: …
Was sind die Vor- und Nachteile der Ausführung separater Modelle gegenüber der Mehrebenenmodellierung? Nehmen wir insbesondere an, eine Studie untersuchte Patienten, die in Arztpraxen verschachtelt sind, die in Ländern verschachtelt sind. Was sind die Vor- und Nachteile der Ausführung separater Modelle für jedes Land im Vergleich zu einem verschachtelten Modell …
Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese beiden letzteren geben die gleichen Antworten. Unter Verwendung einer Reihe …
Nehmen wir an, ich habe eine Reihe von Zeilen für ein Klassifizierungsproblem: X1,...XN,YX1,...XN,YX_1, ... X_N, Y Wobei die Merkmale / Prädiktoren sind und die Klasse ist, zu der die Merkmalskombination der Zeile gehört.X1,...,XNX1,...,XNX_1, ..., X_NYYY Viele Feature-Kombinationen und ihre Klassen werden im Datensatz wiederholt, den ich zum Anpassen eines Klassifikators …
Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.