Ich habe zwei satzausgerichtete parallele Korpora (Textdateien) mit ungefähr 50 Millionen Wörtern. (aus dem Europarl-Korpus -> Parallelübersetzung von Rechtsdokumenten). Ich möchte jetzt die Zeilen der beiden Dateien mischen, aber beide auf die gleiche Weise. Ich wollte das mit gshuf (ich bin auf einem Mac) mit einer einzigen zufälligen Quelle erreichen.
gshuf --random-source /path/to/some/random/data file1
gshuf --random-source /path/to/some/random/data file2
Aber ich habe die Fehlermeldung erhalten end of file
, weil anscheinend der zufällige Startwert alle Wörter enthalten muss, die die zu sortierende Datei enthält. Ist das wahr? Wenn ja, wie soll ich einen zufälligen Startwert erstellen, der meinen Anforderungen entspricht? Wenn nein, auf welche andere Weise könnte ich die Dateien parallel randomisieren? Ich dachte daran, sie zusammenzufügen, zufällig zu sortieren und dann wieder aufzuteilen. Dies scheint jedoch hässlich zu sein, da ich zuerst ein Trennzeichen finden müsste, das in den Dateien nicht vorkommt.
random sources
. Waspaste
Sie als Trennzeichen einig niedrigen ASCII - Zeichen verwenden könnten , die in den Dateien (wie das Auftreten unwahrscheinlich sind\x02
,\x03
...).