Die meisten Antworten außer den Benutzern slayton, rauchen und Paul Amstrong sind absolut falsch, wenn es um reinen Einzelspeicher ohne Komprimierungstechniken geht.
Das menschliche Genom mit 3 GB Nukleotiden entspricht 3 GB Bytes und nicht ~ 750 MB. Das gemäß NCBI konstruierte "haploide" Genom ist derzeit 3436687 kb oder 3,436687 Gb groß. Überzeugen Sie sich hier .
Haploid = Einzelkopie eines Chromosoms. Diploid = zwei Versionen von Haploid. Menschen haben 22 einzigartige Chromosomen x 2 = 44. Das männliche 23. Chromosom ist X, Y und macht insgesamt 46. Frauen 23. Chrom. ist X, X und macht somit insgesamt 46.
Für Männer wären es 23 + 1 Chromosomen bei der Datenspeicherung auf einer Festplatte und für Frauen 23 Chromosomen, was die kleinen Unterschiede erklärt, die hin und wieder in den Antworten erwähnt werden. Das X-Chrom. von Männern ist gleich X chrom. von den Frauen.
Das Laden des Genoms (23 + 1) in den Speicher erfolgt daher in Teilen über BLAST unter Verwendung konstruierter Datenbanken aus Fasta-Dateien. Unabhängig von gezippten Versionen oder nicht sind Nukleotide kaum zu komprimieren. In den frühen Tagen bestand einer der verwendeten Tricks darin, Tandem-Wiederholungen zu ersetzen (GACGACGAC mit kürzerer Codierung, z. B. "3GAC"; 9 Byte bis 4 Byte). Der Grund war, Festplattenspeicher zu sparen (Bereich der 500-bm-2-GB-Festplatten mit 7.200 U / min und SCSI-Anschlüssen). Für die Sequenzsuche wurde dies auch mit der Abfrage durchgeführt.
Wenn der "codierte Nukleotid" -Speicher 2 Bit pro Buchstabe wäre, erhalten Sie für ein Byte:
A = 00
C = 01
G = 10
T = 11
Nur so profitieren Sie voll von den Positionen 1,2,3,4,5,6,7 und 8 für 1 Byte Codierung. Zum Beispiel würde die Kombination 00.01.10.11 (als Byte 00011011
) dann "ACTG" entsprechen (und in einer Textdatei als nicht erkennbares Zeichen angezeigt werden). Dies allein ist für eine vierfache Reduzierung der Dateigröße verantwortlich, wie wir in anderen Antworten sehen. Somit werden 3,4 GB auf 0,85917175 GB ... ~ 860 MB einschließlich eines dann erforderlichen Konvertierungsprogramms (23 KB bis 4 MB) verkleinert.
Aber ... in der Biologie möchten Sie in der Lage sein, etwas zu lesen, daher ist Komprimierung mehr als genug. Entpackt können Sie es immer noch lesen. Wenn diese Bytefüllung verwendet wurde, wird es schwieriger, die Daten zu lesen. Deshalb sind Fasta-Dateien in Wirklichkeit Klartextdateien.