Wenn die Daten fehlen, sind fehlende Informationen (Lücken), dh nicht vollständig. Daher ist es wichtig, diese Funktion bei der Durchführung einer Analyse oder eines Tests zu berücksichtigen.
Gelman & Hill (2006) sagen: In Bugs können fehlende Ergebnisse in einer Regression einfach behandelt werden, indem einfach der Datenvektor, die NAs und alle eingeschlossen werden. Bugs modellieren die Ergebnisvariable explizit. Daher ist es trivial, dieses Modell zu verwenden, um fehlende Werte bei jeder Iteration zu unterstellen. Dies klingt nach …
Ich möchte bestimmen, welcher von zwei Datensätzen (B1, B2) besser mit einem anderen Satz (A) korreliert (Pearsons r). In allen Datensätzen fehlen Daten. Wie kann ich feststellen, ob die resultierende Korrelation signifikant unterschiedlich ist oder nicht? Beispielsweise sind 8426-Werte sowohl in A als auch in B1 vorhanden, r = 0,74. …
Ich arbeite an einer Metaanalyse mit zufälligen Effekten, die eine Reihe von Studien abdeckt, in denen keine Standardabweichungen angegeben sind. Alle Studien geben die Stichprobengröße an. Ich glaube nicht, dass es möglich ist, die fehlenden SD-Daten zu approximieren oder zu unterstellen. Wie sollte eine Metaanalyse gewichtet werden, bei der rohe …
Ich versuche zu verstehen, wie ich eine Variable am besten modellieren kann, wenn ich im Laufe der Zeit immer detailliertere Prädiktoren erhalten habe. Betrachten Sie beispielsweise die Modellierung der Wiederherstellungsraten für ausgefallene Kredite. Angenommen, wir haben einen Datensatz mit Daten aus 20 Jahren, und in den ersten 15 dieser Jahre …
Ich habe ein feines randomForestKlassifizierungsmodell, das ich in einer Anwendung verwenden möchte, die die Klasse eines neuen Falls vorhersagt. Dem neuen Fall fehlen zwangsläufig Werte. Predict funktioniert als solches für NAs nicht. Wie soll ich das dann machen? data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) …
Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …
Angenommen, wir erhalten einen Satz von Daten der Form und . Wir haben die Aufgabe, basierend auf den Werten von vorherzusagen . Wir schätzen zwei Regressionen, bei denen: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y(y,x1,x2,⋯,xn)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n})( y, x1, …
Ich habe eine Zeitreihe von Messungen (Höhen-eindimensionale Reihen). Im Beobachtungszeitraum ging der Messvorgang für einige Zeitpunkte zurück. Die resultierenden Daten sind also ein Vektor mit NaNs, bei dem es Lücken in den Daten gab. Bei Verwendung von MATLAB verursacht dies ein Problem bei der Berechnung der Autokorrelation ( autocorr) und …
Ich modelliere die Diabetes-Vorhersage mithilfe der logistischen Regression. Der verwendete Datensatz ist das Behavioral Risk Factor Surveillance System (BRFSS) des Center for Disease Control (CDC). Eine der unabhängigen Variablen ist Bluthochdruck. Es ist kategorisch mit den folgenden Ebenen "Ja", "Nein", "Weiß nicht / Abgelehnt". Sollte ich diese Zeilen beim Erstellen …
In einem Problem, an dem ich arbeite, habe ich zwei Zufallsvariablen, X und Y. Ich muss herausfinden, wie eng die beiden miteinander korrelieren, aber sie haben unterschiedliche Dimensionen. Der Rang des Zeilenraums von X beträgt 4350, und der Rang des Zeilenraums von Y ist mit Zehntausenden wesentlich größer. Sowohl X …
Ein bisschen vereinfacht, ich habe ungefähr eine Million Datensätze, die die Eintritts- und Austrittszeit von Personen in einem System aufzeichnen, das sich über ungefähr zehn Jahre erstreckt. Jeder Datensatz hat eine Eintrittszeit, aber nicht jeder Datensatz hat eine Austrittszeit. Die mittlere Zeit im System beträgt ~ 1 Jahr. Die fehlenden …
Angenommen , wir einen Datensatz haben Test : 1 8 12 14 . . 19 Das . bezeichnet fehlende Werte. Wann wäre es besser, den Durchschnitt der nicht fehlenden Werte zu verwenden, um die fehlenden Werte zu unterstellen, als anzunehmen, dass die Daten aus einer Normalverteilung stammen?
In Schottland werden Adler mit Satelliten-Tags vermisst, und die obige Tabelle zeigt das Schicksal der Tags nach Tag-Modell. Ich interessiere mich besonders für die Tags "Gestoppt - keine Fehlfunktion", da möglicherweise auch diese Vögel getötet und die Leichen und Tags entsorgt werden. Ich habe gesehen, dass festgestellt wurde, dass diese …
Ich habe einen Datensatz, der sich mit Einwanderungsanträgen und Visumannahmen (Erteilung von Visa) befasst. Die Preise werden für "akzeptiert" und "abgelehnt" von Visumanträgen berechnet. Der Datensatz enthält jedoch auch Werte für Fälle, die geschlossen wurden. Normalerweise ist dies der Fall, wenn der Einwanderer entweder nicht mehr zu Terminen erscheint, woanders …
\newcommand{\P}{\mathbb{P}} Ich befasse mich mit Beobachtungsdaten, in denen die Behandlungszuordnung außerordentlich gut erklärt werden kann. Zum Beispiel eine logistische Regression von P (A= 1 | X.) = ( 1 + exp(- ( X.β) ) )- 1P(A=1|X)=(1+exp(−(Xβ)))−1\P(A =1 |X) = (1+ \exp(-(X\beta)))^{-1} wehre EINAA Behandlungsaufgabe und X.XX Kovariaten passen sehr gut …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.