目錄

  • 一、什麼是wget?
  • 二、整理list文件
  • 2.1在線網站查找並確定gse號
  • 2.2處理GSE號
  • 2.3整理下載列表
  • 三、下載與解壓

一、什麼是wget?

一個婦孺皆知的,強大的下載工具不過多介紹了,小白可參考之前發佈的批量下載原始數據那篇文章,這篇主要是一個病種多個GEO數據的下載。

親測,2000個樣本,10分鐘整理完,然後下載拼網速

二、整理list文件

2.1在線網站查找並確定gse號

在這裏以非小細胞肺癌(NSCLC)為例,在一站式GEO數據分析平台中檢索NSCLC,同時後續需要到生存數據,勾選上。

GEEdem 下載_#bash

可以點進去查看大概信息,這裏僅作前期準備,數據我們到GEO去下載!!!
這裏以GSE53882為例

GEEdem 下載_數據_02

2.2處理GSE號

在GEO中檢索相應GSE號,複製矩陣文件下載鏈接

GEEdem 下載_GEEdem 下載_03

新建一個excel表格
模板:將下載地址複製過來,這邊需要下載20個,向下填充複製20行
GSE號:將2.1檢索到的GSE號輸入進去,可以先輸入數字再用&在前面加上"GSE"
GSEnnn:= LEFT(B2,LEN(B2)-3)&“nnn”,將後三個字符替換成nnn,向下填充
結果:=“https://ftp.ncbi.nlm.nih.gov/geo/series/”&C2&“/”&B2&“/matrix/”&B2&“_series_matrix.txt.gz”,將GSEnnn和GSE號替換掉,向下填充
下載地址:(強迫症)把結果列複製僅文字粘貼出來

GEEdem 下載_GEEdem 下載_04

2.3整理下載列表

新建一個文本,將下載地址一個一行復制粘貼進去,命名為NSCLC.txt

GEEdem 下載_#數據挖掘_05

三、下載與解壓

3.1.1 linux端下載

wget -c -i NSCLC.txt

  1. -c 斷點下載
  2. -i 下載列表文件內鏈接

3.1.2解壓

gunzip *.gz

即可得到所有矩陣文件了

GEEdem 下載_#linux_06


3.2.1 windows端下載

wget for windows下載鏈接:https://eternallybored.org/misc/wget/ 選64位,可以選最新版本然後!!!
下載exe文件的直接複製粘貼到C:\Windows\System32目錄下,zip也須在C:\Windows\System32下解壓,因為wget也是需要權限的

win+R後輸入cmd

這裏在桌面創建了一個文件夾命名NSCLC,放入list文件,下載命令一樣

GEEdem 下載_GEEdem 下載_07


3.2.2解壓

解壓就解壓就行了