百億參數人類基因組通用基礎模型“Genos”23日在浙江杭州召開的第二十屆國際基因組學大會上正式發佈。
Genos基礎模型相關論文已於22日晚發表於生物學領域國際期刊《大數據科學》(GigaScience)上。記者瞭解到,在該基礎模型支持下,基因組研究邁向智能分析的時代,推動臨牀疾病診斷、個人基因組解讀及前沿科學研究實現突破,助力人類加速讀懂“生命天書”。
該基礎模型由杭州華大生命科學研究院與之江實驗室聯合研發完成。杭州華大生命科學研究院院長劉龍奇表示,基因組學領域內的現有模型大多基於一到兩個參考基因組進行訓練,難以捕捉人類豐富的遺傳多樣性。而Genos基礎模型則系統整合了多個權威公開資源,首次匯聚了全球範圍內636個“端粒到端粒”級別的高質量人類基因組作為訓練數據。這些數據覆蓋了全球不同人羣,旨在從源頭減少“數據偏見”,更全面地代表人類遺傳多樣性。
目前,在科研領域,Genos基礎模型能僅憑DNA序列“秒級”預測RNA表達譜,極大提升了生物信息分析流程的速度。在直接面向臨牀應用的致病性突變解讀任務中,Genos基礎模型達到了92%的準確性,結合之江實驗室021科學基礎模型後,準確率能夠進一步提升至98.3%,為臨牀診斷提供了高效工具。
據介紹,為進一步促進全球科研合作,Genos基礎模型將全面開源開放,同時提供12億和100億參數兩個版本,滿足不同應用場景的需求。目前,兩個版本的模型權重、架構細節與完整訓練流程均已公開發布。(新華社)