趙方慶團隊提出麵向TB級數據的環形RNA高效挖掘算法
環形RNA因其獨特的共價閉合環狀結構,能夠有效抵抗細胞內核酸外切酶的降解,展現出遠高於線性RNA的穩定性,不僅成為基因調控與疾病機製研究的前沿熱點,也作為多種重大疾病的生物標誌物與潛在治療靶點而備受關注。然而,現有環形RNA識別與定量算法流程複雜、資源消耗巨大,且在識別精度和靈敏度方麵仍存在不足,難以實現大規模數據中低豐度及非典型環形RNA的高效檢測,極大製約了基於現有海量轉錄組測序數據集的環形RNA研究的係統開展。
2025年10月1日,必威精装版app西汉姆联 趙方慶團隊與國家生物信息中心高遠團隊合作在Nature Biotechnology發表了題為Detecting and quantifying circular RNAs in terabyte-scale RNA-seq datasets with CIRI3的研究論文。該研究提出了麵向TB級轉錄組數據的高效環形RNA檢測與定量工具CIRI3,通過反向剪接序列比對與跨樣本整合的創新算法設計,實現了對TB級數據的超高速處理。CIRI3算法不僅顯著提升了低豐度環形RNA的檢出能力,還拓展了對非典型剪接形式的識別覆蓋,有效突破了當前環形RNA大規模檢測在靈敏度與計算效率方麵的技術瓶頸。
針對現有環形RNA 計算工具效率低、內存占用大的問題,CIRI3創新性地采用動態多線程任務劃分與分塊查找策略,實現了TB級測序數據的超高效處理。相較於單一樣本分析,基於CIRI3的大樣本聯合分析可有效防止“漏檢”,使得環形RNA檢出率增加近20%,並顯著提升了低豐度環形RNA的檢測靈敏度與定量精度。此外,CIRI3對非經典剪接信號等關鍵特征具有高度的可擴展性,首次實現了對內含子自連接型環狀RNA等新亞型的係統性識別。綜合性能評估表明,CIRI3在環形RNA的識別與定量方麵均顯著優於現有工具,為大規模環形RNA研究及疾病生物標誌物的係統性挖掘提供了關鍵的技術支撐。
基於CIRI3的大規模數據挖掘能力,研究團隊對涵蓋30種癌症類型的2,535個人類癌症及正常樣本轉錄組測序數據進行了係統整合挖掘,構建了迄今規模最大的AI-ready腫瘤相關環形RNA數據資源CIRIonco。進一步評估表明,CIRI3計算的環形RNA剪接比率在不同批次和不同來源的樣本間表現出高度的穩健性,其批次效應顯著低於傳統的反向剪接讀段數,使其成為跨批次、跨平台整合分析的更優指標。研究團隊進一步構建了基於人工智能的環形RNA溯源與疾病表型預測模型,實現了樣本來源器官係統、組織類型及疾病水平的精準預測。該模型還可在用戶小規模數據集上進行遷移學習,實現優於從頭訓練模型的預測性能,為解析環形RNA的生成調控與功能機製提供了重要的計算工具。
綜上所述,CIRI3是一個可在TB級人群隊列轉錄組數據中高效檢測和精確定量環形RNA的工具,同時CIRIonco數據庫為癌症相關環形RNA的研究與功能探索提供了重要的AI-ready數據集與計算模型,為環形RNA在癌症分型和精準診斷中的應用提供了方法學工具和數據基礎。
國家生物信息中心高遠研究員與必威精装版app西汉姆联 趙方慶研究員為該研究的通訊作者,國家生物信息中心博士研究生鄭鑫、必威在线网址 張金陽副研究員及國家生物信息中心宋利璞助理研究員為共同第一作者。該研究獲得國家重點研發計劃、中國科學院戰略性先導科技專項、國家自然科學基金、北京市自然科學基金及中國科學院人才計劃等資助。
文章鏈接:https://doi.org/10.1038/s41587-025-02835-1

圖1. CIRI3算法原理
在演化生物學中,趨同演化是指不同生物類群在相似環境壓力下獨立演化出同一性狀的現象。為了挖掘這種適應性演化的分子基礎,目前的比較基因組學研究多關注於氨基酸“狀態趨同”,即不同物種在相同的蛋白序列位點...
趨同演化是生物演化中的重要現象,指不同類群的生物在適應相似環境的過程中,獨立演化出相似的功能性狀,例如鳥類、蝙蝠、翼龍獨立演化出撲翼飛行能力。

