1.5GB显存就能跑,精准度直逼Gemini Pro,一行命令离线识别手写笔记
你有没有过这种经历?拍下一张发票、扫描一份合同、或者翻开一本旧书里的手写笔记,结果上传云端OCR工具后,不是隐私泄露就是识别错一大堆标点。以前我们只能靠百度PaddleOCR或者在线大模型凑合,现在不一样了。
前几天刷到一条X帖子,作者直接放出了GLM-OCR这个0.9B参数的SOTA模型。评测显示,它在多个基准上干翻了PaddleOCR,精准度已经逼近Gemini Pro。更夸张的是,1.5GB显存就能驱动,量化后甚至不到1GB,完全离线跑,数据100%不离机。
说白了,这东西把“本地OCR”从鸡肋直接拉到生产力级别。谁要是还在为文档数字化头疼,赶紧往下看,我把来龙去脉、真实效果和上手步骤全给你捋清楚。

GLM-OCR到底是什么?0.9B参数为何能成SOTA
先简单说说OCR(光学字符识别)这事儿。它本质就是让电脑把图片里的文字“读”出来。以前的传统OCR工具,比如PaddleOCR,靠规则+深度学习,在印刷体上还行,但遇到手写、复杂表格、公式、中英混排就容易翻车。
GLM-OCR不一样。它是专门设计的视觉语言模型(VLM),参数只有0.9B,却在专业OCR基准上拿下顶级成绩。原帖附的那张基准对比表看得人直呼内行:
-
• OmniDocBench v1.5(文档解析):GLM-OCR 94.6,PaddleOCR-VL-1.5是94.5,DeepSeek-OCR2 91.1 -
• OCRBench(纯文本识别):94.0,直接甩开PaddleOCR的75.3 -
• UniMERNet(公式识别):96.5 -
• PubTabNet(表格识别):85.2 -
• NanOnets-KIE(信息抽取):93.7
对比栏里还列了MinerU2.5、dots.ocr、Gemini-3-Pro、GPT系列。GLM-OCR在多数场景里不是第一就是第二,尤其在文本和公式上,把通用大模型都按在地上摩擦。
这不是营销话术,是实打实的评测数据。0.9B这么小的参数能做到这个地步,靠的就是针对OCR任务的专项优化,而不是堆参数。
精度碾压+速度飞快,网友实测直接服了
光看基准表还不够,真实场景才见真章。原帖下面很快就有网友放出了对比测试结果。
一张“GLM-OCR vs PaddleOCR”实测图里,总体平均准确率:GLM-OCR 97.12%,PaddleOCR 91.56%。精确匹配15个样本里,GLM拿下12个,Paddle只9个。分场景看:
-
• 英文简单文本:100% vs 91.7% -
• 中英混合:100% vs 87.0% -
• 复杂标点:100% vs 83.3% -
• 特殊符号:83.3% vs 41.7%
纯中文和噪声场景打平,但其他地方GLM几乎全胜。PaddleOCR被按在地上摩擦不是夸张,是真事。
还有一位网友用手写中文便签测试。图片是一张边缘发毛的黄色便条,上面写着“展信舒宛,临问秋安。早晚的风都变冷了……”这类文艺手写体。GLM-OCR 0.43秒就完整识别出来,连日期“2022年10月12日 晚5:45”都没漏。下方还显示token速度431.73 tokens/s,识别结果和原手写几乎一模一样。
这速度比以前用Qwen3.5-2B做识别快多了。纯文字场景下,GLM-OCR优势巨大。表格抽取也有人问,作者回复说效果很牛,证明它不光认字,还能结构化输出。
资源占用极低,完全离线,隐私党福音
现在很多人怕云端OCR:发票照片一上传,谁知道数据去哪儿了?GLM-OCR直接解决这个痛点。
-
• 显存需求:仅需1.5GB,量化后不到1GB,普通笔记本或老显卡都能跑 -
• 部署方式:支持Ollama、vLLM、LM Studio一键安装 -
• 运行模式:100%离线,无需联网,数据永不离开本地
这意味着你在公司内网、飞机上、甚至信号差的乡村,都能随时识别文档。隐私保护做到极致,再也不用担心敏感合同被第三方看到。
实践上手:3分钟部署+实际使用全流程
看完数据心动了吧?上手真的简单。我把最常用的Ollama方式拆成傻瓜式步骤(其他平台类似)。
-
1. 安装Ollama
去官网(ollama.com)下载对应系统版本,Windows/Mac/Linux一键安装。装好后命令行输入ollama --version确认。 -
2. 拉取模型
直接敲一行命令:ollama run glm-ocr
第一次会自动下载,后面秒启动。 -
3. 开始识别
-
• 打开Ollama网页界面(默认http://localhost:11434) -
• 上传图片,输入提示词比如“请提取图片中所有文字,并输出为Markdown表格格式” -
• 回车就出结果
想结构化表格?提示词加“识别表格并转为CSV”。手写笔记?直接说“保持原格式输出”。支持多语言、中英混排、公式转LaTeX。
用LM Studio的话,界面更友好:下载App → 搜索GLM-OCR → 一键加载 → 拖图片进去识别。vLLM适合服务器批量处理,API调用更稳。
实际操作中,0.43秒识别一张手写便签只是开始。批量处理发票、扫描PDF转可编辑Word,都能轻松搞定。
谁最需要GLM-OCR?这些场景直接起飞
-
• 学生党:扫描教材手写笔记,瞬间转数字,复习效率翻倍 -
• 财务/行政:发票、合同、报表批量识别,再也不用手动敲字 -
• 程序员:截图代码、文档里的公式,直接喂给大模型继续开发 -
• 图书爱好者:老书扫描电子化,保留原文排版和手写批注 -
• 隐私敏感行业:律师、医生、科研人员,本地跑再也不怕泄露
以前这些场景要么靠付费云服务,要么精度差到崩溃。现在0.9B小模型就把门槛拉到几乎为零。
当然,它也不是万能的。超复杂排版或极端模糊图片可能还需要人工校对,但相比以前的本地方案,已经是质的飞跃。
总结:本地OCR时代真的来了
GLM-OCR用0.9B参数证明了:小模型+专项优化,能在精度、速度、资源三方面同时碾压前辈。1.5GB显存、一行命令、完全离线,这些关键词放在2026年听起来像科幻,但现在就是现实。
如果你还在用老PaddleOCR,或者每次识别都要上网,不妨现在就试试ollama run glm-ocr。测完回来告诉我你的真实效果——说不定下一个SOTA就是你贡献的。


