中國日報10月31日電(記者 李夢涵)在人工智能深度賦能科學研究的浪潮中,如何高效、準確地將海量非結構化科學文獻轉化為可計算、可推理的結構化知識,已成為“人工智能+科學”亟待突破的核心問題之一。傳統光學字符識別(OCR)技術雖在通用文本場景中表現成熟,但在面對科學文獻——尤其是包含復雜公式符號、專業圖表、多模態排版與跨學科術語的學術論文時,存在識別錯誤、結構邏輯丟失、輸出格式單一等問題,難以支持科研自動化、知識圖譜構建、智能問答等下游任務的發展。
針對這一關鍵挑戰,中國科學院自動化研究所“AI+科學”研究團隊近日正式推出新一代科學文獻解析工具——磐石·科學文獻解析器(S1-Parser)。該工具從底層算法出發,通過構建面向科學語義理解的多模態訓練體系與強化學習機制,在公式、文本、圖表等多元素協同解析上實現質的飛躍,為全球科研工作者提供真正“懂科學”的智能解析引擎。
科學文獻的識別不僅是字符的還原,更是語義結構的重建。為此,團隊摒棄了僅依賴通用視覺語言大模型的思路,轉而構建一套專為科學文獻場景量身定制的算法訓練范式。其核心在于三大技術支柱:全場景覆蓋的科學數據構建、多模態監督微調策略,以及面向科學文獻語義的強化學習優化機制。
在數據層面,團隊系統性地采集并構建了覆蓋三大典型科學書寫形態的訓練語料:手寫體、數字排版體與紙質掃描體。手寫體數據涵蓋不同學者的筆跡風格、連筆習慣與輕微涂改等真實場景;數字排版體數據橫跨數學、物理、天文、工程、生物、計算機等多個學科,包含大量嵌套公式、特殊符號與復雜排版;紙質掃描體數據則兼顧高清與低質量樣本,模擬實際掃描或拍照中可能出現的模糊、傾斜、低分辨率等情況。所有數據均經過嚴格去噪、標準化標注與格式對齊,并通過均衡采樣策略確保模型在多樣場景下的泛化能力。這一“全形態、多學科、高質量”的數據基礎,為模型理解科學表達的復雜性提供了堅實支撐。
在模型訓練階段,團隊采用兩階段優化策略。首先,通過多模態有監督微調,使模型初步掌握文本、公式、表格、插圖等異構元素的聯合表征能力。在此基礎上,引入一種面向科學文獻語義的梯度強化學習策略優化框架。不同于傳統以字符準確率為導向的訓練目標,該強化學習策略優化框架專門設計了三重科學導向的獎勵信號:公式語法正確性、符號完整性與結構合理性。通過強化學習優化算法持續優化這些獎勵信號,模型不僅“看得清”,更能“理解對”,生成的公式在語義層面高度可靠,可直接用于符號計算、定理驗證等高階任務。
研發團隊在多個科學文獻數據集上開展了系統評測,磐石·科學文獻解析器在篇章級解析、公式專項識別等任務中均展現出了國際領先水平。
為了更好滿足科研需求,磐石·科學文獻解析器的輸出不僅包含高精度的文本與公式識別結果,還支持 JSON、Markdown 等結構化格式輸出,可無縫對接知識抽取、文獻重排版、智能問答等下游應用。目前,磐石·科學文獻解析器(V1.0)已正式開源,并作為核心組件集成于“磐石·科學基礎大模型”(ScienceOne),服務全球科研社區。下一步,研究團隊將持續拓展其對多模態科學內容的解析能力,并推動構建開放、協作的科學智能生態。