四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

云知聲發(fā)布 Unisound U1-OCR 大模型 首創(chuàng)工業(yè)級文檔智能基礎(chǔ)? 開啟 OCR 3.0 時代

云知聲發(fā)布首個工業(yè)級文檔智能基礎(chǔ)大模型 Unisound U1-OCR,實現(xiàn)從 OCR 2.0 到 3.0 的跨越。該模型采用 ViT+LLM 架構(gòu),搭載 NaViT 架構(gòu)實現(xiàn)分辨率動態(tài)處理,3B 量級參數(shù)兼顧效率與語義理解能力。其首創(chuàng)“語義驅(qū)動+動態(tài)聚焦”策略,強(qiáng)化空間對齊模塊,提升長文檔邏輯連貫性,推理效率提升 80% 以上。

近日,云知聲正式推出首個工業(yè)級文檔智能基礎(chǔ)大模型 Unisound U1-OCR,憑借技術(shù)創(chuàng)新實現(xiàn)從 OCR 2.0 到 3.0 的跨越,完成從 “字符感知” 到 “文檔認(rèn)知” 的質(zhì)的飛躍,樹立文檔智能行業(yè)新標(biāo)桿。

該模型采用 ViT+LLM 架構(gòu),視覺編碼器搭載 NaViT 架構(gòu)實現(xiàn)分辨率動態(tài)處理,3B 量級參數(shù)兼顧計算效率與語義理解能力。其首創(chuàng) “語義驅(qū)動 + 動態(tài)聚焦” 策略,先構(gòu)建文檔 “語義地圖” 再提取內(nèi)容;強(qiáng)化空間對齊模塊解決空間盲區(qū)問題,搭配 Multi-Token Prediction 技術(shù)提升長文檔邏輯連貫性,推理效率提升 80% 以上。多任務(wù)協(xié)同強(qiáng)化訓(xùn)練則實現(xiàn)結(jié)構(gòu)還原、分類與抽取的深度對齊,有效遏制定位幻覺。

在權(quán)威評測中,U1-OCR 斬獲多項 SOTA:OmniDocBench V1.5 以 95.1 分領(lǐng)先主流模型,D4LA、DocLayNet 評測 F1 分?jǐn)?shù)分別達(dá) 90.8、95.9,醫(yī)療等強(qiáng)業(yè)務(wù)場景表現(xiàn)超越更大規(guī)模通用 VLM 模型。

此外,模型打造 “坐標(biāo) - 文本 - 語義” 融合架構(gòu),實現(xiàn)像素級定位與結(jié)果溯源;融入醫(yī)療、金融等行業(yè)知識,50 余種業(yè)務(wù)文書分類準(zhǔn)確率超 99%;支持私有化離線部署,十多頁文檔數(shù)秒即可處理,同時可適配非標(biāo)準(zhǔn)拍照、花式排版等極端復(fù)雜場景,為工業(yè)級文檔智能落地提供核心技術(shù)支撐。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

云知聲發(fā)布 Unisound U1-OCR 大模型 首創(chuàng)工業(yè)級文檔智能基礎(chǔ)? 開啟 OCR 3.0 時代

云知聲發(fā)布首個工業(yè)級文檔智能基礎(chǔ)大模型 Unisound U1-OCR,實現(xiàn)從 OCR 2.0 到 3.0 的跨越。該模型采用 ViT+LLM 架構(gòu),搭載 NaViT 架構(gòu)實現(xiàn)分辨率動態(tài)處理,3B 量級參數(shù)兼顧效率與語義理解能力。其首創(chuàng)“語義驅(qū)動+動態(tài)聚焦”策略,強(qiáng)化空間對齊模塊,提升長文檔邏輯連貫性,推理效率提升 80% 以上。

近日,云知聲正式推出首個工業(yè)級文檔智能基礎(chǔ)大模型 Unisound U1-OCR,憑借技術(shù)創(chuàng)新實現(xiàn)從 OCR 2.0 到 3.0 的跨越,完成從 “字符感知” 到 “文檔認(rèn)知” 的質(zhì)的飛躍,樹立文檔智能行業(yè)新標(biāo)桿。

該模型采用 ViT+LLM 架構(gòu),視覺編碼器搭載 NaViT 架構(gòu)實現(xiàn)分辨率動態(tài)處理,3B 量級參數(shù)兼顧計算效率與語義理解能力。其首創(chuàng) “語義驅(qū)動 + 動態(tài)聚焦” 策略,先構(gòu)建文檔 “語義地圖” 再提取內(nèi)容;強(qiáng)化空間對齊模塊解決空間盲區(qū)問題,搭配 Multi-Token Prediction 技術(shù)提升長文檔邏輯連貫性,推理效率提升 80% 以上。多任務(wù)協(xié)同強(qiáng)化訓(xùn)練則實現(xiàn)結(jié)構(gòu)還原、分類與抽取的深度對齊,有效遏制定位幻覺。

在權(quán)威評測中,U1-OCR 斬獲多項 SOTA:OmniDocBench V1.5 以 95.1 分領(lǐng)先主流模型,D4LA、DocLayNet 評測 F1 分?jǐn)?shù)分別達(dá) 90.8、95.9,醫(yī)療等強(qiáng)業(yè)務(wù)場景表現(xiàn)超越更大規(guī)模通用 VLM 模型。

此外,模型打造 “坐標(biāo) - 文本 - 語義” 融合架構(gòu),實現(xiàn)像素級定位與結(jié)果溯源;融入醫(yī)療、金融等行業(yè)知識,50 余種業(yè)務(wù)文書分類準(zhǔn)確率超 99%;支持私有化離線部署,十多頁文檔數(shù)秒即可處理,同時可適配非標(biāo)準(zhǔn)拍照、花式排版等極端復(fù)雜場景,為工業(yè)級文檔智能落地提供核心技術(shù)支撐。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。