wget --content-disposition 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Die Datei, die Sie herunterladen, ist ein tar
Archiv (eine Binärdatei), das über einen dynamischen Link von einem Webserver bereitgestellt wird. wget
Normalerweise wird die Datei unter Verwendung eines Teils der von Ihnen verwendeten URL gespeichert. In diesem Fall handelt es sich jedoch nur um einen REST-API-Endpunkt (oder etwas Ähnliches), sodass die Verwendung des Namens unfreundlich wäre (es handelt sich immer noch um einen gültigen Namen und den Namen) Dateiinhalt wäre der gleiche).
In diesem Fall stellt der Server jedoch einen "Content Disposition" -Header bereit, der den tatsächlichen Dateinamen enthält wget
und verwendet werden kann, wenn Sie die --content-disposition
Option verwenden. Diese Option ist in meinem Handbuch für "experimentell" markiert wget
.
Sie müssen auch die URL zitieren , so dass der Schal die nicht interpretieren &
und ?
in ihrem Zeichen.
Das Äquivalent mit curl
:
curl -J -O 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Oder verwenden Sie die entsprechenden langen Optionen:
curl --remote-header-name --remote-name 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Nachdem Sie die Datei heruntergeladen haben, müssen Sie sie entpacken:
tar -xvf GSE48191_RAW.tar
Aufgrund der Art und Weise, wie dieses bestimmte Archiv erstellt wurde, werden die Dateien des Archivs in das aktuelle Verzeichnis entpackt (daher kann es eine gute Idee sein, ein neues Verzeichnis zu erstellen, das Archiv dorthin zu verschieben und es dort zu entpacken ). Die Dateien in diesem Archiv sind gzip
komprimierte CEL
Dateien.