近日,云知聲正式推出首個工業(yè)級文檔智能基礎(chǔ)大模型 Unisound U1-OCR,憑借技術(shù)創(chuàng)新實現(xiàn)從 OCR 2.0 到 3.0 的跨越,完成從 “字符感知” 到 “文檔認(rèn)知” 的質(zhì)的飛躍,樹立文檔智能行業(yè)新標(biāo)桿。
該模型采用 ViT+LLM 架構(gòu),視覺編碼器搭載 NaViT 架構(gòu)實現(xiàn)分辨率動態(tài)處理,3B 量級參數(shù)兼顧計算效率與語義理解能力。其首創(chuàng) “語義驅(qū)動 + 動態(tài)聚焦” 策略,先構(gòu)建文檔 “語義地圖” 再提取內(nèi)容;強(qiáng)化空間對齊模塊解決空間盲區(qū)問題,搭配 Multi-Token Prediction 技術(shù)提升長文檔邏輯連貫性,推理效率提升 80% 以上。多任務(wù)協(xié)同強(qiáng)化訓(xùn)練則實現(xiàn)結(jié)構(gòu)還原、分類與抽取的深度對齊,有效遏制定位幻覺。
在權(quán)威評測中,U1-OCR 斬獲多項 SOTA:OmniDocBench V1.5 以 95.1 分領(lǐng)先主流模型,D4LA、DocLayNet 評測 F1 分?jǐn)?shù)分別達(dá) 90.8、95.9,醫(yī)療等強(qiáng)業(yè)務(wù)場景表現(xiàn)超越更大規(guī)模通用 VLM 模型。
此外,模型打造 “坐標(biāo) - 文本 - 語義” 融合架構(gòu),實現(xiàn)像素級定位與結(jié)果溯源;融入醫(yī)療、金融等行業(yè)知識,50 余種業(yè)務(wù)文書分類準(zhǔn)確率超 99%;支持私有化離線部署,十多頁文檔數(shù)秒即可處理,同時可適配非標(biāo)準(zhǔn)拍照、花式排版等極端復(fù)雜場景,為工業(yè)級文檔智能落地提供核心技術(shù)支撐。