三、下載參考基因組

常用參考基因組數據庫:

  • Ensembl(人、動物):https://ftp.ensembl.org/pub/
  • EnsemblGenomes(植物、細菌、真菌、其他):https://ftp.ensemblgenomes.org/pub/
  • NCBI:https://ftp.ncbi.nih.gov/genomes/
  • UCSC:ftp://hgdownload.cse.ucsc.edu/

Ensembl的使用

(1)選擇最新的release 

轉錄組分析數據準備_自定義

(2)fasta/ 

轉錄組分析數據準備_鍵值對_02

(3)選擇物種

轉錄組分析數據準備_鍵值對_03

(4)選擇數據 

轉錄組分析數據準備_鍵值對_04

1. 基因組下載

人的基因組序列

轉錄組分析數據準備_自定義_05

  • 未知所屬染色體的基因:Homo_sapiens.GRCh38.dna.nonchromosomal.fa.gz
  • 全基因組的兩個版本:primary_assembly(多數分析使用)、toplevel
  • 替換重複序列(一般不用,用完整的)。
    rm(Repeat-Masked)(重複序列屏蔽):重複序列小寫、非重複序列大寫

    sm(Separate Molecules)(獨立分子):從主序列中分離出來的特定序列集合。需要專門研究替代單倍型,或者您只需要某一條特定染色體的序列時,才需要下載這些文件。

2. 基因註釋下載

gff→gff2→gff3格式:人讀友好,機器不方便

gtf格式:推薦

  • 預測,未實驗驗證:abinitio
  • 染色體基因:chr(一般下載這個)
  • 未在染色體基因:chr_patch_hapl

轉錄組分析數據準備_自定義_06

gff格式

第一行:基因

  1. 序列ID:染色體編號/contig編號
  2. 註釋來源(預測程序/數據庫):maker
  3. 序列類型:gene
  4. 起始位置:2652107
  5. 結束位置:2657465
  6. 得分:沒有得分用“.”表示
  7. 鏈:-(負鏈)、+(正鏈)、.(鏈不確定或無關)
  8. 相位:僅對CDS特徵有效,表示起始密碼子的相位,可以是0、1、2。0表示該特徵起始於密碼子的第一個鹼基,1表示第二個鹼基,2表示第三個鹼基。對於非CDS特徵,用"."表示。
  9. 屬性:以鍵值對的形式提供特徵的額外信息,鍵值對之間用分號分隔。基因編號:HF00001
    ID:特徵的唯一標識符。
    Name:特徵的可讀名稱,不一定唯一。
    Parent:表示父特徵的ID,用於建立特徵之間的層次關係。例如,一個exon的Parent可能是其所在的mRNA。
    其他自定義鍵,如Note、Dbxref等。

第二行:mRNA可變剪接

  • mRNA編號:HF00001-RA

轉錄組分析數據準備_鍵值對_07

3. gff3轉換為gtf

gffread -T HFTH1.gene.gff3 -o applegene.gtf
//gffread安裝到官網下載,解壓,添加環境變量
//不支持.gz格式,要解壓成.gff3

gtf格式:無gene行,無parent信息,直接指明轉錄本所屬mRNA、基因ID

轉錄組分析數據準備_數據庫_08