文心4.5最強衍生模型發布 PaddleOCR-VL登頂OCR綜合性能全球第一觀點
10月16日晚,百度正式發布并開源自研多模態文檔解析模型PaddleOCR-VL。
10月16日晚,百度正式發布并開源自研多模態文檔解析模型PaddleOCR-VL。在全球權威文檔解析評測榜單OmniBenchDoc V1.5中,PaddleOCR-VL以92.6分取得綜合性能全球第一成績,四大核心能力(文本、表格、公式、閱讀順序)全線SOTA,超越 GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B等主流多模態大模型,以及MonkeyOCR-Pro-3B、MinerU2.5、dots.ocr等OCR專業模型,刷新全球OCR VL模型性能天花板。

據了解,PaddleOCR-VL其核心模型參數僅0.9B,輕量高效,能夠在極低計算開銷下,精準識別文本、手寫漢字、表格、公式、圖表等復雜元素,支持109 種語言,覆蓋中文、英語、法語、日語、俄語、阿拉伯語、西班牙語等多語場景,廣泛適用于政企文檔管理、知識檢索、檔案數字化、科研信息抽取等文檔智能任務。
作為文心4.5衍生模型,PaddleOCR-VL-0.9B通過融合NaViT動態分辨率視覺編碼器與ERNIE-4.5-0.3B語言模型,在精度與效率上取得雙重突破。
精度方面,在OmniDocBench v1.5上,PaddleOCR-VL實現了文本編輯距離僅0.035、公式識別CDM91.43、表格 TEDS93.52、閱讀順序預測誤差值0.043的紀錄級表現,模型在復雜文檔、手寫稿、歷史檔案識別等高難度場景中亦能表現穩定。


推理方面,在單張A100GPU上,PaddleOCR-VL每秒可處理1881個Token,推理速度較 MinerU2.5提升14.2%,較 dots.ocr 提升253.01%。

區別于傳統OCR僅能逐行識別文字,PaddleOCR-VL能夠像人一樣讀懂、理解復雜版面結構,精準提取財報表格、數學公式、課堂手寫筆記等多元信息,并在識別后自動還原符合人類閱讀習慣的閱讀順序,精準區分標題、正文、圖片與圖注,確保信息無遺漏、邏輯不混亂。
架構上,PaddleOCR-VL 采用創新的兩階段架構:第一階段由 PP-DocLayoutV2 模型負責版面檢測與閱讀順序預測;第二階段由 PaddleOCR-VL-0.9B 識別并結構化輸出文字、表格、公式、圖表等元素。相較端到端方案,能夠在復雜版面中更穩定、更高效,有效避免多模態模型常見的幻覺與錯位問題。

憑借輕量架構與高精度表現,PaddleOCR-VL 在性能、成本和落地性上實現最佳平衡,具備強實用價值。其結構化輸出能力還能與 RAG(檢索增強生成)系統深度結合,為大模型提供高質量知識輸入,成為 AI 知識處理新階段的重要基礎設施。
目前,PaddleOCR-VL 已全面開源:
開源地址:
https://github.com/PaddlePaddle/PaddleOCR
技術報告地址:
https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf
體驗Demo地址:
https://aistudio.baidu.com/application/detail/98365
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。
