Ich habe eine Datei mit Genomdaten, die ungefähr 5 Millionen Zeilen lang ist und nur die Zeichen A, T, C und G enthalten sollte. Das Problem ist, ich weiß, wie groß die Datei sein sollte, aber sie ist etwas größer. Das heißt, bei einer Analyse ist ein Fehler aufgetreten, oder es gibt Zeilen, die etwas anderes als genomische Daten enthalten.
Gibt es eine Möglichkeit, eine Linie zu finden, die etwas anderes als A, T, C oder G hat? Aufgrund der Art der Datei sollten keine anderen Buchstaben, Leerzeichen, Zahlen und Symbole vorhanden sein. Ich habe Symbol für Symbol gesucht und gehofft, dass es einen einfacheren Weg gibt.