Dify工作流的使用(三)表格OCR

charles

通过前面的文章，我们基本可以了解到知识库的建立和大模型使用的一些基本流程。今天分享下工作流视觉模型的一个demo，如果前面的内容了解了这里其实也很简单了

dify工作流的使用(二)" data-itemshowtype="0" target="_blank" linktype="text" data-linktype="2">DeepSeek+Dify工作流的使用(二)
DeepSeek+Dify工作流的使用(一)插入代码
DeepSeek+Dify打造数据库查询专家修正(一)
DeepSeek+Dify打造数据库查询专家
Dify个人助理本地搭建快速入门

分享个点吧（不专业

如果之前写过简单的123或者猫狗识别的（可以自己再网上找demo跑跑），就会有个疑惑的写的这个demo和大模型之间的区别是什么？或者一些开源的某个方面专业的模型例如那个u2net抠图的当然这个不是文本的，它应该不影响有这个疑惑吧。
昨天偶然看的一个关于大模型介绍的一个视频收获（纯个人理解）：因为之前接触和了解的都是一些转专门的模型（也没几个），所以对大模型是有个很模糊的概念不知所云就知道参数量很大和专业的模型中间的关系是不知道的，听了之后发现其实大模型后面会有些专门的小模型再里面的会有个中间层(transformer专业名词)做一些转发进行处理的（提示词很大程度是干这个的）。

本期分享借助工作流做一个表格OCR的demo

之前的文章有分享过一些对特定表格处理的demo。方式这里简单说下
最基础的是用OPENCV定制化识别表格，但是没有直接文字识别的方法
还有一些专门的模型PaddleOCR、阿里读光有线和无线表格识别算法模型
会python/c++的可以本地试下上面说的模型。如果要自己编译通过其他方式调用是有点费劲的
之前写的文章：java表格识别PaddleOcr总结
今天分享下用大模型进行识别可以自行试下效果和关注下模型费用的问题可以做个对比（上面说的模型可以看官网有费用价格表的）。
差别接大模型可能API简单点吧，另外返回的识别数据专业模型可以有坐标的（也可能是我提示词的原因）。这个需要自己注意点。实际用可以根据自己的实际情况定夺，这里分享下只是说多了一种方式吧。

整体的流程概叙

简单的工作流

Dify工作流的使用(三)表格OCR

测试的图片

Dify工作流的使用(三)表格OCR

效果

Dify工作流的使用(三)表格OCR

注意事项

首先模型那里需要选择视觉模型才可以（不然的话其他模型会一直提示没有文件的上传的）
写入适当的提示词

#角色：你是一位精通OCR表格提取专家
#任务：你的任务是对用户上传图片中表格的内容进行提取，提取内容为字符串形式

其他的跟之前介绍的工作流demo基本一样

前沿技术多模态技术新闻资讯

ChartGemma：基于真实图表数据的图表理解与推理模型

2025-5-6 13:10:00

前沿技术大模型技术新闻资讯

OpenAI深夜炸场！GPT-4.1系列携mini/nano登场，API限时免费！

2025-5-6 13:51:27

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

❯

购物车

优惠劵

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部