Es gibt keinen Grund, die gesamte Ausgabe eines großen Datenrahmens anzuzeigen. Das Anzeigen oder Bearbeiten großer Datenrahmen beansprucht unnötig große Mengen Ihrer Computerressourcen.
Was auch immer Sie tun, können Sie in Miniatur tun. Es ist viel einfacher, Daten zu codieren und zu bearbeiten, wenn der Datenrahmen klein ist. Der beste Weg, um mit Big Data zu arbeiten, besteht darin, einen neuen Datenrahmen zu erstellen, der nur einen kleinen Teil oder eine kleine Stichprobe des großen Datenrahmens enthält. Dann können Sie die Daten untersuchen und Ihre Codierung auf dem kleineren Datenrahmen durchführen. Wenn Sie die Daten untersucht und Ihren Code zum Laufen gebracht haben, verwenden Sie diesen Code einfach für den größeren Datenrahmen.
Am einfachsten ist es, mit der Funktion head () das erste n, die Nummer der ersten Zeilen, aus dem Datenrahmen zu nehmen. Die Kopffunktion gibt nur n Zeilen aus. Sie können einen Mini-Datenrahmen erstellen, indem Sie die Kopffunktion für den großen Datenrahmen verwenden. Unten habe ich die ersten 50 Zeilen ausgewählt und ihren Wert an small_df übergeben. Dies setzt voraus, dass BigData eine Datendatei ist, die aus einer Bibliothek stammt, die Sie für dieses Projekt geöffnet haben.
library(namedPackage)
df <- data.frame(BigData) # Assign big data to df
small_df <- head(df, 50) # Assign the first 50 rows to small_df
Dies funktioniert die meiste Zeit, aber manchmal enthält der Big-Data-Frame vorsortierte Variablen oder bereits gruppierte Variablen. Wenn die Big Data so sind, müssten Sie eine zufällige Stichprobe der Zeilen aus den Big Data ziehen. Verwenden Sie dann den folgenden Code:
df <- data.frame(BigData)
set.seed(1016) # set your own seed
df_small <- df[sample(nrow(df),replace=F,size=.03*nrow(df)),] # samples 3% rows
df_small # much smaller df