三、下載參考基因組
常用參考基因組數據庫:
- Ensembl(人、動物):https://ftp.ensembl.org/pub/
- EnsemblGenomes(植物、細菌、真菌、其他):https://ftp.ensemblgenomes.org/pub/
- NCBI:https://ftp.ncbi.nih.gov/genomes/
- UCSC:ftp://hgdownload.cse.ucsc.edu/
Ensembl的使用
(1)選擇最新的release
(2)fasta/
(3)選擇物種
(4)選擇數據
1. 基因組下載
人的基因組序列
- 未知所屬染色體的基因:Homo_sapiens.GRCh38.dna.nonchromosomal.fa.gz
- 全基因組的兩個版本:primary_assembly(多數分析使用)、toplevel
- 替換重複序列(一般不用,用完整的)。
rm(Repeat-Masked)(重複序列屏蔽):重複序列小寫、非重複序列大寫
sm(Separate Molecules)(獨立分子):從主序列中分離出來的特定序列集合。需要專門研究替代單倍型,或者您只需要某一條特定染色體的序列時,才需要下載這些文件。
2. 基因註釋下載
gff→gff2→gff3格式:人讀友好,機器不方便
gtf格式:推薦
- 預測,未實驗驗證:abinitio
- 染色體基因:chr(一般下載這個)
- 未在染色體基因:chr_patch_hapl
gff格式
第一行:基因
- 序列ID:染色體編號/contig編號
- 註釋來源(預測程序/數據庫):maker
- 序列類型:gene
- 起始位置:2652107
- 結束位置:2657465
- 得分:沒有得分用“.”表示
- 鏈:
-(負鏈)、+(正鏈)、.(鏈不確定或無關) - 相位:僅對CDS特徵有效,表示起始密碼子的相位,可以是0、1、2。0表示該特徵起始於密碼子的第一個鹼基,1表示第二個鹼基,2表示第三個鹼基。對於非CDS特徵,用"."表示。
- 屬性:以鍵值對的形式提供特徵的額外信息,鍵值對之間用分號分隔。基因編號:HF00001
ID:特徵的唯一標識符。
Name:特徵的可讀名稱,不一定唯一。
Parent:表示父特徵的ID,用於建立特徵之間的層次關係。例如,一個exon的Parent可能是其所在的mRNA。
其他自定義鍵,如Note、Dbxref等。
第二行:mRNA可變剪接
- mRNA編號:HF00001-RA
3. gff3轉換為gtf
gffread -T HFTH1.gene.gff3 -o applegene.gtf
//gffread安裝到官網下載,解壓,添加環境變量
//不支持.gz格式,要解壓成.gff3
gtf格式:無gene行,無parent信息,直接指明轉錄本所屬mRNA、基因ID
本文章為轉載內容,我們尊重原作者對文章享有的著作權。如有內容錯誤或侵權問題,歡迎原作者聯繫我們進行內容更正或刪除文章。