dataset
wird ein Datenrahmen sein. Da ich keine habe forR.csv
, erstelle ich einen kleinen Datenrahmen zur Veranschaulichung:
set.seed(1)
dataset <- data.frame(A = sample(c(NA, 1:100), 1000, rep = TRUE),
B = rnorm(1000))
> head(dataset)
A B
1 26 0.07730312
2 37 -0.29686864
3 57 -1.18324224
4 91 0.01129269
5 20 0.99160104
6 90 1.59396745
Um die Anzahl der Fälle zu ermitteln, zählen Sie die Anzahl der Zeilen mit nrow()
oder NROW()
:
> nrow(dataset)
[1] 1000
> NROW(dataset)
[1] 1000
Um die Daten nach dem Weglassen von zu zählen NA
, verwenden Sie dieselben Tools, aber wickeln Sie Folgendes dataset
ein na.omit()
:
> NROW(na.omit(dataset))
[1] 993
Der Unterschied zwischen NROW()
und NCOL()
und ihren Kleinbuchstaben ( ncol()
und nrow()
) besteht darin, dass die Kleinbuchstaben nur für Objekte mit Dimensionen (Arrays, Matrizen, Datenrahmen) funktionieren. Die Großbuchstaben funktionieren mit Vektoren, die so behandelt werden, als wären sie eine Einspaltenmatrix. Sie sind robust, wenn Sie Ihre Daten so unterteilen, dass R eine leere Dimension löscht.
Alternativ können Sie auch complete.cases()
and sum
it (verwenden, complete.cases()
um einen logischen Vektor [ TRUE
oder FALSE
] zurückzugeben, der angibt, ob Beobachtungen NA
für Zeilen vorliegen.
> sum(complete.cases(dataset))
[1] 993
str()
da es weitere nützliche Details zu Ihrem Objekt enthält. Kann oft erklären, warum sich eine Spalte nicht wie gewünscht verhält (Faktor anstelle von numerisch usw.).