??
? 繼2021年9月聯(lián)合華為云發(fā)布蛋白質(zhì)多序列比對開源數(shù)據(jù)集后,北京大學(xué)化學(xué)與分子工程學(xué)院、北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)、昌平實驗室、深圳灣實驗室高毅勤課題組在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域再次取得突破性進展。近日,他們聯(lián)合華為昇思MindSpore團隊推出了基于AlphaFold2算法的蛋白質(zhì)結(jié)構(gòu)預(yù)測推理工具,相關(guān)模型代碼依托于華為全場景AI計算框架MindSpore進行開源開放、定期擴展與維護,旨在為全世界相關(guān)的產(chǎn)、學(xué)、研團隊提供優(yōu)質(zhì)的國產(chǎn)軟硬件解決方案。
?
? 蛋白質(zhì)在分子生物學(xué)的中心法則中具有重要地位,在各種生命過程中不可或缺,但是傳統(tǒng)的蛋白質(zhì)結(jié)構(gòu)解析實驗難度大,而計算機預(yù)測方法則一直存在計算精度不足的缺陷。2020年谷歌DeepMind團隊發(fā)布了人工智能蛋白質(zhì)結(jié)構(gòu)預(yù)測模型AlphaFold2【1】,使得計算機蛋白質(zhì)結(jié)構(gòu)預(yù)測工具精度可與實驗方法相媲美,被Nature等雜志喻為“前所未有的進步”。本次高毅勤課題組推出的蛋白結(jié)構(gòu)預(yù)測工具依托華為昇思MindSpore,可對氨基酸序列長度2000+的蛋白質(zhì)結(jié)構(gòu)進行解析,能覆蓋約99%以上的蛋白序列【2】。同時,借助異構(gòu)計算架構(gòu)CANN(Compute Architecture for Neural Network)釋放昇騰AI處理器的澎湃算力,通過軟硬件協(xié)同優(yōu)化大大提高了蛋白質(zhì)預(yù)測的計算效率。參考DeepMind于2021年7月份開源的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型AlphaFold2【3】,本次開源的蛋白質(zhì)結(jié)構(gòu)預(yù)測推理工具模型部分與其相同,在多序列比對階段則采用了MMseqs2進行序列檢索【4】,相比于原版算法端到端運算速度有2-3倍的提升。準確、快速的蛋白質(zhì)結(jié)構(gòu)預(yù)測不僅可以在學(xué)術(shù)研究領(lǐng)域幫助科學(xué)家快速獲得或驗證關(guān)鍵蛋白結(jié)構(gòu),從而促進人們對重要生命過程分子機理的理解,而且在醫(yī)療健康和生物工程領(lǐng)域也將作為有力的工具,引發(fā)藥物靶點發(fā)現(xiàn)、功能蛋白設(shè)計(如抗體和人工酶)以及大分子(蛋白)或小分子藥物高通量虛擬篩選的革命。
圖1 昇思MindSpore模型與AlphaFold2精度對比
圖2 通過昇思MindSpore預(yù)測的T1079(綠色代表實驗結(jié)構(gòu),紅色代表預(yù)測結(jié)構(gòu))
?
?? 針對蛋白質(zhì)結(jié)構(gòu)預(yù)測及折疊問題,聯(lián)合團隊未來還會發(fā)布創(chuàng)新的全棧(算法+軟件+硬件)國產(chǎn)自主可控技術(shù),同時也會牽手更多的學(xué)術(shù)科研界合作伙伴,在計算生物、計算材料、工業(yè)仿真等更廣泛的科學(xué)計算領(lǐng)域深耕,促進國內(nèi)相關(guān)基礎(chǔ)研究的發(fā)展。
?
?
【1】Jumper J, Evans R, Pritzel A, et al. Applying and improving AlphaFold at CASP14[J]. Proteins: Structure, Function, and Bioinformatics, 2021.
?
【2】https://ftp.uniprot.org/pub/databases/uniprot/previous_releases/release-2021_02/
knowledgebase/UniProtKB_TrEMBL-relstat.html
?
【3】Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021, 596(7873): 583-589.
?
【4】Mirdita M, Ovchinnikov S, Steinegger M. ColabFold-Making protein folding accessible to all[J]. BioRxiv, 2021.
?
代碼開源路徑:
https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/mindsponge/fold
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負責(zé)。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com