0.9B小模型碾压PaddleOCR！GLM-OCR本地OCR新王者来了

1.5GB显存就能跑，精准度直逼Gemini Pro，一行命令离线识别手写笔记

你有没有过这种经历？拍下一张发票、扫描一份合同、或者翻开一本旧书里的手写笔记，结果上传云端OCR工具后，不是隐私泄露就是识别错一大堆标点。以前我们只能靠百度PaddleOCR或者在线大模型凑合，现在不一样了。

前几天刷到一条X帖子，作者直接放出了GLM-OCR这个0.9B参数的SOTA模型。评测显示，它在多个基准上干翻了PaddleOCR，精准度已经逼近Gemini Pro。更夸张的是，1.5GB显存就能驱动，量化后甚至不到1GB，完全离线跑，数据100%不离机。

说白了，这东西把“本地OCR”从鸡肋直接拉到生产力级别。谁要是还在为文档数字化头疼，赶紧往下看，我把来龙去脉、真实效果和上手步骤全给你捋清楚。

GLM-OCR到底是什么？0.9B参数为何能成SOTA

先简单说说OCR（光学字符识别）这事儿。它本质就是让电脑把图片里的文字“读”出来。以前的传统OCR工具，比如PaddleOCR，靠规则+深度学习，在印刷体上还行，但遇到手写、复杂表格、公式、中英混排就容易翻车。

GLM-OCR不一样。它是专门设计的视觉语言模型（VLM），参数只有0.9B，却在专业OCR基准上拿下顶级成绩。原帖附的那张基准对比表看得人直呼内行：

• OmniDocBench v1.5（文档解析）：GLM-OCR 94.6，PaddleOCR-VL-1.5是94.5，DeepSeek-OCR2 91.1
• OCRBench（纯文本识别）：94.0，直接甩开PaddleOCR的75.3
• UniMERNet（公式识别）：96.5
• PubTabNet（表格识别）：85.2
• NanOnets-KIE（信息抽取）：93.7

对比栏里还列了MinerU2.5、dots.ocr、Gemini-3-Pro、GPT系列。GLM-OCR在多数场景里不是第一就是第二，尤其在文本和公式上，把通用大模型都按在地上摩擦。

这不是营销话术，是实打实的评测数据。0.9B这么小的参数能做到这个地步，靠的就是针对OCR任务的专项优化，而不是堆参数。

精度碾压+速度飞快，网友实测直接服了

光看基准表还不够，真实场景才见真章。原帖下面很快就有网友放出了对比测试结果。

一张“GLM-OCR vs PaddleOCR”实测图里，总体平均准确率：GLM-OCR 97.12%，PaddleOCR 91.56%。精确匹配15个样本里，GLM拿下12个，Paddle只9个。分场景看：

• 英文简单文本：100% vs 91.7%
• 中英混合：100% vs 87.0%
• 复杂标点：100% vs 83.3%
• 特殊符号：83.3% vs 41.7%

纯中文和噪声场景打平，但其他地方GLM几乎全胜。PaddleOCR被按在地上摩擦不是夸张，是真事。

还有一位网友用手写中文便签测试。图片是一张边缘发毛的黄色便条，上面写着“展信舒宛，临问秋安。早晚的风都变冷了……”这类文艺手写体。GLM-OCR 0.43秒就完整识别出来，连日期“2022年10月12日晚5:45”都没漏。下方还显示token速度431.73 tokens/s，识别结果和原手写几乎一模一样。

这速度比以前用Qwen3.5-2B做识别快多了。纯文字场景下，GLM-OCR优势巨大。表格抽取也有人问，作者回复说效果很牛，证明它不光认字，还能结构化输出。

资源占用极低，完全离线，隐私党福音

现在很多人怕云端OCR：发票照片一上传，谁知道数据去哪儿了？GLM-OCR直接解决这个痛点。

• 显存需求：仅需1.5GB，量化后不到1GB，普通笔记本或老显卡都能跑
• 部署方式：支持Ollama、vLLM、LM Studio一键安装
• 运行模式：100%离线，无需联网，数据永不离开本地

这意味着你在公司内网、飞机上、甚至信号差的乡村，都能随时识别文档。隐私保护做到极致，再也不用担心敏感合同被第三方看到。

实践上手：3分钟部署+实际使用全流程

看完数据心动了吧？上手真的简单。我把最常用的Ollama方式拆成傻瓜式步骤（其他平台类似）。

1. 安装Ollama
去官网（ollama.com）下载对应系统版本，Windows/Mac/Linux一键安装。装好后命令行输入ollama --version确认。
2. 拉取模型
直接敲一行命令：
ollama run glm-ocr
第一次会自动下载，后面秒启动。
3. 开始识别

• 打开Ollama网页界面（默认http://localhost:11434）
• 上传图片，输入提示词比如“请提取图片中所有文字，并输出为Markdown表格格式”
• 回车就出结果

想结构化表格？提示词加“识别表格并转为CSV”。手写笔记？直接说“保持原格式输出”。支持多语言、中英混排、公式转LaTeX。

用LM Studio的话，界面更友好：下载App → 搜索GLM-OCR → 一键加载 → 拖图片进去识别。vLLM适合服务器批量处理，API调用更稳。

实际操作中，0.43秒识别一张手写便签只是开始。批量处理发票、扫描PDF转可编辑Word，都能轻松搞定。

谁最需要GLM-OCR？这些场景直接起飞

• 学生党：扫描教材手写笔记，瞬间转数字，复习效率翻倍
• 财务/行政：发票、合同、报表批量识别，再也不用手动敲字
• 程序员：截图代码、文档里的公式，直接喂给大模型继续开发
• 图书爱好者：老书扫描电子化，保留原文排版和手写批注
• 隐私敏感行业：律师、医生、科研人员，本地跑再也不怕泄露

以前这些场景要么靠付费云服务，要么精度差到崩溃。现在0.9B小模型就把门槛拉到几乎为零。

当然，它也不是万能的。超复杂排版或极端模糊图片可能还需要人工校对，但相比以前的本地方案，已经是质的飞跃。

总结：本地OCR时代真的来了

GLM-OCR用0.9B参数证明了：小模型+专项优化，能在精度、速度、资源三方面同时碾压前辈。1.5GB显存、一行命令、完全离线，这些关键词放在2026年听起来像科幻，但现在就是现实。

如果你还在用老PaddleOCR，或者每次识别都要上网，不妨现在就试试ollama run glm-ocr。测完回来告诉我你的真实效果——说不定下一个SOTA就是你贡献的。

{{userData.name}}已认证