近日,上海交通大學生命科學技術學院生物信息學與生物統(tǒng)計學系、上海交大-耶魯生物統(tǒng)計與數(shù)據(jù)科學聯(lián)合中心團隊在《Briefings in Bioinformatics》(IF: 11.622)上發(fā)表題為“GESLM algorithm for detecting causal SNPs in GWAS with multiple phenotypes”的全基因組關聯(lián)分析算法論著。上海交通大學生命科學技術學院在讀三年級本科生呂瑞祺為第一作者,上海交通大學韋朝春教授和張岳副研究員為共同通訊作者,生命科學技術學院生物信息學與生物統(tǒng)計學系為該文章第一通訊單位,生命科學技術學院四年級本科生孫健樂、三年級本科生徐棟和蔣千雪為共同作者。該研究主要基于第一作者作為上海交通大學2020年 iGEM軟件隊(SJTU-software)隊長期間的工作,所有共同作者均為本科生。本研究開發(fā)了一個全基因組關聯(lián)分析的兩階段全局搜索算法,通過貪婪等價搜索(Greedy Equivalence Search, GES)和基于約束的局部修改(Fast Causal Inference+, FCI+),以實現(xiàn)對多表型相關的單核苷酸多態(tài)性(single-nucleotide polymorphisms, SNPs)的有向無環(huán)圖的全局搜索。
隨著全基因組關聯(lián)分析的發(fā)展,如何從海量數(shù)據(jù)中獲取有效信息已成為人們普遍關注的問題,而傳統(tǒng)的方法還不能完全解決諸如檢測上位性這樣的問題。以往的上位性研究主要集中于單一表型的局部信息,而在本文中,我們開發(fā)了一個兩階段全局搜索算法以實現(xiàn)對有向無環(huán)圖的全局搜索,從而在病例對照設計中識別與多個表型的全基因組上位性交互作用。GESLM結合了基于評分的方法和基于約束的方法來學習與表型相關的貝葉斯網(wǎng)絡,在探索同時存在表型的遺傳關聯(lián)和基因交互作用的復雜結構方面具有較高的穩(wěn)定性。
在正負樣本平衡和非平衡的病例對照數(shù)據(jù)集上檢測多個表型的上位性交互作用方面,GESLM在提高識別效率和降低誤報率方面具有較高的性能,在準確性和時間復雜度之間取得了平衡,并用圖而非樹或者集合的形式呈現(xiàn)搜索結果,從而提供了更多的潛在信息。在模擬實驗結果表明,與其他常見的基因組關聯(lián)檢測算法相比,GESLM提高了準確率和效率,尤其是在正負樣本不平衡的病例對照研究中。在英國生物庫(UK Biobank)數(shù)據(jù)集上的應用表明,GESLM算法在處理具有多個表型的全基因組關聯(lián)數(shù)據(jù)時表現(xiàn)較好。
?
本研究獲得國家自然科學基金(11901387)、上海市哲學社會科學規(guī)劃項目(2018EJB006)的資助。
文章鏈接:
版權與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構成其他建議。僅提供交流平臺,不為其版權負責。如涉及侵權,請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com