目錄
- 一、什麼是wget?
- 二、整理list文件
- 2.1在線網站查找並確定gse號
- 2.2處理GSE號
- 2.3整理下載列表
- 三、下載與解壓
一、什麼是wget?
一個婦孺皆知的,強大的下載工具不過多介紹了,小白可參考之前發佈的批量下載原始數據那篇文章,這篇主要是一個病種多個GEO數據的下載。
親測,2000個樣本,10分鐘整理完,然後下載拼網速
二、整理list文件
2.1在線網站查找並確定gse號
在這裏以非小細胞肺癌(NSCLC)為例,在一站式GEO數據分析平台中檢索NSCLC,同時後續需要到生存數據,勾選上。
可以點進去查看大概信息,這裏僅作前期準備,數據我們到GEO去下載!!!
這裏以GSE53882為例
2.2處理GSE號
在GEO中檢索相應GSE號,複製矩陣文件下載鏈接
新建一個excel表格
模板:將下載地址複製過來,這邊需要下載20個,向下填充複製20行
GSE號:將2.1檢索到的GSE號輸入進去,可以先輸入數字再用&在前面加上"GSE"
GSEnnn:= LEFT(B2,LEN(B2)-3)&“nnn”,將後三個字符替換成nnn,向下填充
結果:=“https://ftp.ncbi.nlm.nih.gov/geo/series/”&C2&“/”&B2&“/matrix/”&B2&“_series_matrix.txt.gz”,將GSEnnn和GSE號替換掉,向下填充
下載地址:(強迫症)把結果列複製僅文字粘貼出來
2.3整理下載列表
新建一個文本,將下載地址一個一行復制粘貼進去,命名為NSCLC.txt
三、下載與解壓
3.1.1 linux端下載
wget -c -i NSCLC.txt
- -c 斷點下載
- -i 下載列表文件內鏈接
3.1.2解壓
gunzip *.gz
即可得到所有矩陣文件了
3.2.1 windows端下載
wget for windows下載鏈接:https://eternallybored.org/misc/wget/ 選64位,可以選最新版本然後!!!
下載exe文件的直接複製粘貼到C:\Windows\System32目錄下,zip也須在C:\Windows\System32下解壓,因為wget也是需要權限的
win+R後輸入cmd
這裏在桌面創建了一個文件夾命名NSCLC,放入list文件,下載命令一樣
3.2.2解壓
解壓就解壓就行了