鄒征廷團隊基於蛋白語言模型揭示蛋白高階特征的適應性趨同演化

趨同演化是生物演化中的重要現象,指不同類群的生物在適應相似環境的過程中,獨立演化出相似的功能性狀,例如鳥類、蝙蝠、翼龍獨立演化出撲翼飛行能力。長期以來,演化生物學領域致力於探索表型趨同背後的分子適應性演化機製。為此,傳統研究方法多聚焦於蛋白序列中單個氨基酸位點的趨同變化;然而,越來越多的證據表明,即使沒有明確的位點趨同,同源蛋白仍可能通過高階結構或理化特征的趨同演化實現功能上的相似性。 

近日,鄒征廷團隊在《美國國家科學院院刊》(PNAS)發表題為“Language models reveal a complex sequence basis for adaptive convergent evolution of protein functions”的研究論文,提出ACEP(Adaptive Convergence by Embedding of Protein)計算分析框架,利用前沿的預訓練蛋白語言模型(Protein Language Model,PLM),係統揭示了蛋白高階特征在功能適應性趨同演化中的重要作用。 

通過在海量蛋白序列數據上進行預訓練,蛋白語言模型能夠捕捉序列中複雜的上下文信息和高階特征,將蛋白序列轉化為包含這些演化特征的高維嵌入向量 (embedding)。研究團隊發現,即使在已知不存在位點趨同的案例中(如無頜類與有頜類獨立演化出血紅蛋白、嗜熱原核生物蛋白理化性質的趨同等等),PLM生成的嵌入向量仍能有效反映蛋白高階特征的相似性,表明高階特征趨同是蛋白功能趨同的重要分子基礎。 

基於這一發現,團隊設計了ACEP分析流程,其核心包括三個步驟:首先計算目標類群(如能夠進行回聲定位的蝙蝠與齒鯨)同源蛋白嵌入向量的真實距離;隨後通過模擬中性演化過程構建背景距離分布;最後基於分布對真實距離進行統計檢驗,判斷是否存在顯著的高階特征趨同信號。ACEP在多個經典的已知案例中得到顯著結果,如在回聲定位哺乳動物的Prestin蛋白和景天酸代謝植物的PEPC/PPCK蛋白上均檢測到顯著趨同信號。 

進一步的全基因組篩選顯示,ACEP在蝙蝠與齒鯨中識別出數百個具有高階特征趨同信號的候選基因,功能富集分析顯著關聯“感官感知”等條目,涵蓋已知回聲定位基因(如SLC26A5CDH23)和多個新候選基因(如CIB2GSN)。部分候選基因還得到正選擇檢驗的支持,增強了其發生適應性趨同的可信度。 

為提升結果的可解釋性,團隊進一步分析了嵌入向量趨同背後的具體高階特征。例如,在回聲定位相關基因SLC17A8中,即使屏蔽已知趨同位點,ACEP信號依然顯著,且淨電荷密度等具體理化特征呈現趨同;在嗜熱原核生物的多個保守蛋白中,疏水性和β-折疊比例等高溫穩定性相關特征也顯示出一致的趨同模式。 

該研究不僅揭示了蛋白高階特征趨同是適應性演化的重要機製,也展示了人工智能技術在針對複雜的基因型-表型映射進行演化生物學分析時的強大潛力。ACEP框架為在全基因組水平係統挖掘基因的複雜適應性趨同模式提供了新工具,代碼已通過HuggingFace平台開源(https://huggingface.co/NEO699700/ACEP)。 

該研究第一作者為必威精装版app西汉姆联 博士研究生曹振楸,通訊作者為鄒征廷研究員,微軟公司張宏久博士參與研究。研究獲得中國科學院先導項目、國家自然科學基金等支持。鄒征廷研究組目前以計算分子演化分析和相關人工智能應用為主要研究方向,有博士後等工作機會,歡迎谘詢。 

文章鏈接:https://doi.org/10.1073/pnas.2418254122


ACEP流程示意圖以及在回聲定位哺乳類中檢測出的與“感官感知”相關的候選適應性趨同基因

關於我們
聯係我們
地  址:北京市朝陽區北辰西路1號院5號
郵  編:100101
電子郵件:ioz@ioz.ac.cn
電  話:+86-10-64807098
傳  真:+86-10-64807099
友情鏈接
Baidu
map