
业务背景
-
非身份证图片 上传与身份证无关的错误图片或者是社保卡等其他证件照片。 -
两面照片顺序错误 上传时将国徽面与人像面类型选择错误。 -
模糊 照片模糊不清,关键信息(如姓名、身份证号码、有效期等)区域可能无法被准确识别。 -
反光 因光线过强、反光或拍摄角度不当,部分区域过亮导致信息无法识别。 -
遮挡 身份证关键信息被手指或其他物品遮挡,导致部分关键内容无法被正确识别。 -
不完整 身份证边缘被截断、内容超出范围或比例不符合要求。 -
多张卡证 将身份证两面图片合成一张图片上传。

为何引入多模态模型进行图片检测
-
基于深度学习的 OCR 基于深度学习的 OCR 是应用深度学习算法专门设计的一种优化的字符识别系统。其流程包括图像处理、特征提取、文字检测和文字识别。这种 OCR 系统专注于从图像中检测并准确识别文字。 它的应用领域包括针对特定 OCR 场景,如身份证识别、发票抬头提取、车牌识别等,以及其他高效、大规模处理任务。
-
多模态模型的文字提取 基于大模型(如 GPT 类语言模型或多模态模型)的文字提取是利用预训练的大规模神经网络模型完成 OCR 中的文字提取任务。这些模型通常训练了大量的非结构化文本、语言和图片数据,通过大规模参数和上下文关联能力实现泛化。 它的应用领域包括,模型泛化能力需要较强场景(例如图片中的复杂关系理解,结合上下文进行逻辑分析的 OCR)。与更高层次 NLP 和逻辑推理结合的应用,比如文档结构提取、多语言翻译场景。
-
OCR成功说明文字可以提取,但提取出的信息并不一定完整,可能会因为遮挡或反光缺失部分数据;而OCR失败则说明照片无法识别,质量较差。 -
多模态图片理解+上下文驱动,不仅识别图片文字/内容,还能实现个性定制、场景适配、智能决策与人性化输出,包括:
-
识别多种证件类型及其要素,如驾驶证、学生证、工作证、发票、车牌等多种证件或者“非标准模板”证件比如临时证明。 -
根据上下文指定返回格式和内容,可按业务需要,返回 JSON、XML、表格数组等不同结构,针对特定行业或接口,自动适配输出字段、定制脱敏、字段顺序、英文/中文切换。 -
灵活的质量检测,定制照片质量规则,支持根据实际业务场景调整质量检测的“容忍度”。 -
场景化建议与对客文案生成,针对识别结果和质量问题,自动生成定制化对客文案。

模型调用问题与对策
-
幻觉问题: 在部分信息被遮挡的情况下,模型会错误地填补缺失部分的信息,如身份证有效期 "08.23 – 2041.08.23"会填补为 "2008.08.23 – 2041.08.23";将“珠海”识别为“上海”。 -
RT 较高: 当前多模态接口的平均响应时间较高(约3秒),同步调用会影响用户体验,尤其在对时效性要求高的场景下。 -
准确率: 不同模型(如genmini、GPT、Qwen)准确率存在较大差异。 -
稳定性: 如果接口出现服务不稳定、异常、非预期的返回如何做兼容。
-
1. 幻觉问题: 继续沿用当前线上稳定的阿里云 OCR 服务来完成信息数据提取,仅将模型服务用于照片质量检测,减少潜在误差。
-
2. RT 较高: 根据OCR结果做差异化调用处理:
-
OCR 成功时,异步调用模型服务,避免阻塞用户主流程,保证用户操作链路的流畅,调用返回后进行Toast轻提示; -
OCR 失败时,同步调用模型服务,采用模型识别检测结果,将模型给出的文案建议用Modal强提示。(也可提供用户主动触发检测的交互方式)。
-
3. 准确率: 可持续优化提示词,但准确率极大程度取决于模型本身,由于身份证属于敏感数据,在安全性要求下须使用阿里千问模型。
-
4. 稳定性:
-
异常及非预期返回做兼容兜底。 -
线上设置开关和监控。

上线策略和线上表现
-
“无感知预发布”策略: 上线初期仅埋点收集数据,确保用户界面与体验保持不变。根据数据验证,确认功能表现符合预期后,再进入到下个阶段。 -
“递进”策略: 为了平衡风险及效果验证,上线分阶段递进策略。首阶段,试点仅针对OCR识别失败的用户进行模型调用,收集数据并评估功能表现,确保链路稳定性。待试点稳定、指标验证达标后,后续将扩展至OCR识别成功与失败的全量场景。 -
“灰度发布”策略: 逐步放量,1% → 5% → 10% → 30% → 50% → 100%。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
非身份证 您上传的图片不符合身份证照片的要求,请确认并重新上传真实有效的身份证照片。
-
非人像面或者国徽面 您上传的身份证照片与所选类型不符,请核对后重新上传正确的人像面或国徽面照片。 -
遮挡 检测到您的身份证关键信息区域有被遮挡,请确保信息清晰可见后重新上传。 -
模糊 您的身份证关键信息区域较为模糊无法识别,请重新拍摄并上传清晰的身份证照片。 -
多张卡证 系统检测到图片中包含多张身份证,请仅上传单张完整的身份证照片。 -
异常或非预期兜底文案 身份证识别失败, 请重新上传。

百炼模型服务调用成本
总费用 = 输入 Token 数 x 模型输入单价 + 输出 Token 数 x 模型输出单价。
图像Token的计算规则
图像转成Token的方法为每28×28像素对应一个Token,一张图最少4个Token;模型的单图Token的上限为1280,超过该值的图像会被缩放,直到图像的Token小于1280。
可将单图Token上限从1280提升至16384,但RT也会增加。

再计入prompt token、系统token以及返回时的元信息等,通过官方工具大致估算调用单价在0.01元左右。

业务和技术上的价值
-
AI 应用场景突破 场金首个面向终端用户的AI接入实践,在产品场景中的落地应用实现突破,探索了如何将大模型应用与实际业务结合。 -
提升转化率与入件率 在用户上传身份证的关键阶段,通过合理提示建议使用户上传更优质的图片,有效提高了转化率与入件率。 -
场景适配 通过大模型提示词的增强优化,无需对每个场景进行大规模定制,用于多种类型的证件上传场景即可快速扩展功能,为更多业务场景赋能,未来结合工作流或智能体编排,将进一步提升可维护性和功能扩展能力。 -
通用性 借助统一的Mtop接口设计,最大程度减少不同产品间工程代码重复,提高技术复用性,同时降低了各产品之间的技术接入门槛。


