單細(xì)胞測(cè)序技術(shù)有助于刻畫細(xì)胞層面的異質(zhì)性,為進(jìn)一步探索細(xì)胞功能和內(nèi)在作用機(jī)制等奠定了基礎(chǔ)。在單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)的分析過程中,細(xì)胞類型鑒定是必須且重要的一步。常規(guī)的細(xì)胞類型鑒定依賴于細(xì)胞類型標(biāo)記基因,這種方法費(fèi)時(shí)費(fèi)力且不穩(wěn)定,可重復(fù)性差,易導(dǎo)致不同實(shí)驗(yàn)室的鑒定結(jié)果不可比較。隨著單細(xì)胞測(cè)序技術(shù)的迅猛發(fā)展,眾多科學(xué)家聯(lián)名在2017年提出人類細(xì)胞圖譜計(jì)劃(The Human Cell Atlas[1]),于2020年提出了人類癌癥圖譜計(jì)劃(The Human Tumor Atlas[2]),海量的已標(biāo)注細(xì)胞類型的單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)越來越多,利用這些數(shù)據(jù)作為參考數(shù)據(jù)集(reference)來鑒定新測(cè)序的細(xì)胞(single cell assignment against the reference),正成為一種細(xì)胞注釋的新思路。
日前,同濟(jì)大學(xué)生命科學(xué)與技術(shù)學(xué)院生物信息系劉琦教授課題組于10月30日在Science子刊Science Advances線上發(fā)表了題為“Learning for single cell assignment”的論文[3],發(fā)布了基于人工智能度量學(xué)習(xí)的單細(xì)胞類型鑒定新方法scLearn,以及簡(jiǎn)單易用的R包平臺(tái)和包含人類、小鼠在內(nèi)的多個(gè)組織器官的預(yù)訓(xùn)練的完整reference數(shù)據(jù)集,為有效利用海量的單細(xì)胞測(cè)序數(shù)據(jù)進(jìn)行細(xì)胞類型鑒定提供了可借鑒的工具和資源。作者同時(shí)首次提出了一種基于最大化依賴的多標(biāo)簽維度約簡(jiǎn)策略(MDDM,multi-label dimension reduction via dependence maximization),用以針對(duì)多標(biāo)簽細(xì)胞類型鑒定進(jìn)行度量學(xué)習(xí),可適用于附加時(shí)間維度信息的單細(xì)胞類型鑒定。
利用參考數(shù)據(jù)集來鑒定新的細(xì)胞類型的方法具有兩個(gè)方面的需求:(1)如果query細(xì)胞的細(xì)胞類型存在于reference中,那么需要以盡可能高的準(zhǔn)確率對(duì)這些query細(xì)胞匹配正確的細(xì)胞類型(single cell assignment in the positive control scenario);(2)如果query細(xì)胞的細(xì)胞類型在reference中缺失,也需要正確的以“unassigned”的標(biāo)識(shí)識(shí)別出來(single cell assignment in the negative control scenario)。但是現(xiàn)有的方法普遍存在兩個(gè)不足,一是對(duì)于以上兩個(gè)方面的要求往往不能同時(shí)兼顧;二是魯棒性不佳,無法適用于多個(gè)來源的數(shù)據(jù)集。究其原因,作者認(rèn)為現(xiàn)有的方法在框架設(shè)計(jì)上存在兩方面的共性問題,一是衡量相似性的測(cè)度是人為選定的或者固定的,二是判定“unassigned”的閾值也是人為選定的。單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)具有高異質(zhì)性和高噪音等特點(diǎn),需要避免人為設(shè)定相應(yīng)的測(cè)度和參數(shù),而通過數(shù)據(jù)本身進(jìn)行度量學(xué)習(xí),將有助于解決該類共性問題。
基于以上考量,作者提出了一種基于人工智能度量學(xué)習(xí)的細(xì)胞類型鑒定框架scLearn,該框架將可以適用于單標(biāo)簽以及多標(biāo)簽的細(xì)胞類型鑒定。其核心思想是學(xué)習(xí)一個(gè)優(yōu)化的轉(zhuǎn)化矩陣,將reference數(shù)據(jù)集映射到特定的特征子空間中,在這個(gè)子空間中,相同類型細(xì)胞之間距離更近,不同類型細(xì)胞之間距離更遠(yuǎn),使得轉(zhuǎn)化后的reference數(shù)據(jù)更有利于進(jìn)行細(xì)胞間相似性的準(zhǔn)確衡量(圖1)。
該工作通過在多達(dá)30套的單細(xì)胞benchmark數(shù)據(jù)集上的基準(zhǔn)測(cè)試,證明了基于度量學(xué)習(xí)的scLearn具有普適而優(yōu)良的細(xì)胞類型鑒定性能。scLearn計(jì)算平臺(tái)基于R語言開發(fā),同時(shí)提供了多達(dá)30套預(yù)訓(xùn)練的高質(zhì)量的單細(xì)胞轉(zhuǎn)錄組測(cè)序reference數(shù)據(jù)集,其中包含了小鼠和人類的腦細(xì)胞,胰腺細(xì)胞,免疫細(xì)胞等等各個(gè)組織以及小鼠20個(gè)器官的數(shù)據(jù),方便用戶后續(xù)進(jìn)行相關(guān)領(lǐng)域的研究。需要特別指出的是,該工作所提出的針對(duì)于附加時(shí)序信息的單細(xì)胞測(cè)序數(shù)據(jù)的細(xì)胞類型鑒定的新策略具有廣闊的應(yīng)用前景。以胚胎發(fā)育為例,除了需要鑒定細(xì)胞類型之外,鑒定其所處的發(fā)育階段也是至關(guān)重要的問題。一個(gè)細(xì)胞的類型往往與其所處的發(fā)育階段息息相關(guān),scLearn可以充分利用這兩類標(biāo)簽(發(fā)育階段和細(xì)胞類型)之間的關(guān)系,同時(shí)進(jìn)行兩類標(biāo)簽的鑒定,提高了多維度下細(xì)胞注釋的性能。
圖1. scLearn的算法框架
劉琦教授課題組長期從事基于人工智能和組學(xué)數(shù)據(jù)分析的腫瘤精準(zhǔn)治療、藥物發(fā)現(xiàn)以及基因編輯方面的研究工作。近年來關(guān)注的研究方向之一是基于人工智能面向單細(xì)胞測(cè)序數(shù)據(jù)開發(fā)組學(xué)分析平臺(tái)及其在腫瘤免疫和細(xì)胞治療領(lǐng)域的應(yīng)用。2019年,劉琦教授課題組基于人工智能主題學(xué)習(xí)(Topic model)模型,在Nature Communications發(fā)表了針對(duì)于單細(xì)胞CRISPR篩選數(shù)據(jù)進(jìn)行分析的計(jì)算平臺(tái)MUSIC (Model-based Understanding of single cell CRISPR screening)[4]。本次工作是劉琦教授課題組繼2019年MUSIC工作之后在單細(xì)胞測(cè)序數(shù)據(jù)分析領(lǐng)域的又一有益探索。該論文第一作者是劉琦教授課題組的博士生段斌,通訊作者是劉琦教授。該研究成果得到國家科技部精準(zhǔn)醫(yī)學(xué)重點(diǎn)研發(fā)計(jì)劃,國家科技部慢病項(xiàng)目重點(diǎn)研發(fā)計(jì)劃、國家自然科學(xué)基金面上項(xiàng)目以及上海市人工智能技術(shù)標(biāo)準(zhǔn)專項(xiàng)項(xiàng)目的資助。
論文鏈接:
https://doi.org/10.1126/sciadv.abd0855
1.Regev, A., et al., The Human Cell Atlas. Elife, 2017. 6.
2.Rozenblatt-Rosen, O., et al., The Human Tumor Atlas Network: Charting Tumor Transitions across Space and Time at Single-Cell Resolution. Cell, 2020. 181(2): p. 236-249.
3.Duan, B., et al., Learning for single cell assignment. Science Advance, 2020.
4.Duan, B., et al., Model-based understanding of single-cell CRISPR screening. Nat Commun, 2019. 10(1): p. 2233.