近日,國際權威期刊《Genome Biology》在線發(fā)表了生命科學技術學院王濤團隊的研究成果“mbDenoise: microbiome data denoising using zero-inflated probabilistic principal components analysis”。該研究提出基于零膨脹概率主成分分析的統(tǒng)計模型和變分近似算法對微生物組數據進行去噪,對揭示微生物組數據潛在的生物學信號有重要意義。生命科學技術學院博士生曾燕燕為第一作者,生命科學技術學院王濤教授和美國耶魯大學趙宏宇教授為通訊作者,生命科學技術學院李婧教授和韋朝春教授為合作者。
微生物組學是綜合研究群居在某個生態(tài)系統(tǒng)的微生物群落,依托自身豐富的遺傳及代謝功能,與特定環(huán)境中的其他生命體或環(huán)境因子發(fā)生互利或相克作用的新興前沿學科。微生物組研究已積累了海量的測序數據,正面臨著從數量到質量、從結構到功能研究的關鍵轉變過程。但是,微生物組數據分析仍然面臨許多技術挑戰(zhàn)。主要挑戰(zhàn)之一是物種或基因特征表包含大量的零,其中一些是生物零,而另外一些是非生物零。此外,微生物組數據還存在測序深度不均勻、過度離散和數據冗余等問題。這些干擾因素會引入大量噪聲,如果不加以解決,會直接影響下游數據分析的準確性。
為了解決微生物組數據中的干擾因素并將真實的生物信號提取出來,該研究開發(fā)了mbDenoise,一種用于去除微生物組數據噪聲的潛變量建模方法。該方法基于一個概率生成模型,在樣本和物種或基因之間借用信息,從而實現(xiàn)生物信號與技術噪聲分離(圖1)。物種或基因豐度數據由零膨脹負二項模型生成,用于克服數據的過度離散和稀疏性問題,并區(qū)分生物零和非生物零。在此基礎上,通過在負二項分布引入樣本特異性效應,用于減輕測序深度差異導致的技術偏差。進一步地,假設生物信號對應嵌入高維特征空間的低維潛在表示,不僅刻畫了微生物組數據的冗余性,而且克服了高維度和特征之間相互關系復雜的問題。該研究將上述生成模型稱為零膨脹概率主成分分析(ZIPPCA)。mbDenoise通過變分近似算法擬合該模型,然后利用后驗均值恢復真實豐度矩陣,實現(xiàn)數據去噪目標。
該研究使用大量模擬實驗和真實數據廣泛評估了mbDenoise的性能。整體來說,mbDenoise在參數估計、潛變量預測以及微生物群落組成估計方面具有較高的準確性。同時,在多樣性分析和差異豐度分析等下游分析中,mbDenoise與其他方法相比表現(xiàn)更為優(yōu)越。該研究提供的R軟件包可在https://github.com/YanyZeng/mbDenoise獲取。
圖1.mbDenoise及其噪聲模型的概述
a.mbDenoise區(qū)分了生物零和非生物零,并假設生物信號對應嵌入高維特征空間的低維潛在表示,從而體現(xiàn)微生物組數據的冗余性。該方法基于零膨脹概率主成分分析(ZIPPCA)模型,考慮了微生物群落物種或基因豐度數據的成分性、稀疏性和過度離散等特征。b.假設輸入數據(即豐度矩陣或特征表)是來自ZIPPCA模型的樣本。mbDenoise通過變分近似算法擬合該模型,并將潛在信號矩陣的后驗均值估計作為去噪輸出,可以用于多個下游分析任務。
上海交通大學王濤團隊研究方向為生物統(tǒng)計和高維數據統(tǒng)計推斷。近5年來,發(fā)表微生物組數據挖掘與統(tǒng)計分析方法學論文10余篇,包括Journal of the American Statistical Association (2022, 2017), Annals of Applied Statistics (2017), Biometrics (2020, 2019, 2017), Briefings in Bioinformatics (2022), Bioinformatics (2022, 2021)。主要成果涉及微生物組數據預處理、數據降維與可視化、多元統(tǒng)計建模與分析、關聯(lián)分析、整合進化樹結構的預測建模與分析等。
以上工作得到國家自然科學基金面上項目、上海市市級科技重大專項,以及上海交通大學多學科交叉研究基金和Neil Shen醫(yī)學研究基金的資助。
論文鏈接:https://doi.org/10.1186/s13059-022-02657-3
版權與免責聲明:本網頁的內容由收集互聯(lián)網上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構成其他建議。僅提供交流平臺,不為其版權負責。如涉及侵權,請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com