多模态AI质检：身份核验场景实践

本文介绍了一项将多模态AI模型应用于身份证照片质量检测的实践。针对用户上传身份证时常见的图片问题，项目通过引入阿里云百炼平台的多模态模型，在OCR识别失败时进行智能检测与反馈，提供对客友好的提示文案，从而引导用户重新上传合格照片。该方案采用“无感知预发布+递进+灰度”上线策略，确保稳定性，并在不牺牲安全性的前提下，利用大模型提升图像理解能力。

业务背景

随着现代互联网业务的不断发展与深入，用户身份信息核验已经成为各种应用场景中不可或缺的一部分。身份证上传成为验证用户身份的核心手段之一。然而，在我们淘天场景金融（以下简称“场金”）项目实际运行的业务数据表明，用户在上传身份证时，存在以下常见的图片质量问题而导致最终用户的业务流程中断：

非身份证图片

上传与身份证无关的错误图片或者是社保卡等其他证件照片。
两面照片顺序错误

上传时将国徽面与人像面类型选择错误。
模糊

照片模糊不清，关键信息（如姓名、身份证号码、有效期等）区域可能无法被准确识别。
反光

因光线过强、反光或拍摄角度不当，部分区域过亮导致信息无法识别。
遮挡

身份证关键信息被手指或其他物品遮挡，导致部分关键内容无法被正确识别。
不完整

身份证边缘被截断、内容超出范围或比例不符合要求。
多张卡证

将身份证两面图片合成一张图片上传。

这些问题使照片上的信息无法正常提取，用户会因身份验证失败而退出当前业务流程。即使身份证信息能正常提取也可能在机构审核中因为照片质量不符合机构侧要求而导致审核失败，对用户体验和业务带来了负面影响，所以我们目标是让用户上传质量更高的身份证照片。

为何引入多模态模型进行图片检测

目前场金的OCR由阿里云OCR服务提供，此次采用的模型服务由阿里云百炼平台提供。

▐ OCR和多模态模型文字提取的区别

基于深度学习的 OCR

基于深度学习的 OCR 是应用深度学习算法专门设计的一种优化的字符识别系统。其流程包括图像处理、特征提取、文字检测和文字识别。这种 OCR 系统专注于从图像中检测并准确识别文字。

它的应用领域包括针对特定 OCR 场景，如身份证识别、发票抬头提取、车牌识别等，以及其他高效、大规模处理任务。

多模态模型的文字提取

基于大模型（如 GPT 类语言模型或多模态模型）的文字提取是利用预训练的大规模神经网络模型完成 OCR 中的文字提取任务。这些模型通常训练了大量的非结构化文本、语言和图片数据，通过大规模参数和上下文关联能力实现泛化。

它的应用领域包括，模型泛化能力需要较强场景（例如图片中的复杂关系理解，结合上下文进行逻辑分析的 OCR）。与更高层次 NLP 和逻辑推理结合的应用，比如文档结构提取、多语言翻译场景。

因此两者的应用领域不同，再结合实际情况我们可以得出以下结论：

OCR成功说明文字可以提取，但提取出的信息并不一定完整，可能会因为遮挡或反光缺失部分数据；而OCR失败则说明照片无法识别，质量较差。
多模态图片理解+上下文驱动，不仅识别图片文字/内容，还能实现个性定制、场景适配、智能决策与人性化输出，包括：

识别多种证件类型及其要素，如驾驶证、学生证、工作证、发票、车牌等多种证件或者“非标准模板”证件比如临时证明。
根据上下文指定返回格式和内容，可按业务需要，返回 JSON、XML、表格数组等不同结构，针对特定行业或接口，自动适配输出字段、定制脱敏、字段顺序、英文/中文切换。
灵活的质量检测，定制照片质量规则，支持根据实际业务场景调整质量检测的“容忍度”。
场景化建议与对客文案生成，针对识别结果和质量问题，自动生成定制化对客文案。

模型调用问题与对策

在调用模型服务的实践中，归纳了以下几个主要问题：

幻觉问题：

在部分信息被遮挡的情况下，模型会错误地填补缺失部分的信息，如身份证有效期 "08.23 – 2041.08.23"会填补为 "2008.08.23 – 2041.08.23"；将“珠海”识别为“上海”。
RT 较高：

当前多模态接口的平均响应时间较高（约3秒），同步调用会影响用户体验，尤其在对时效性要求高的场景下。
准确率：

不同模型（如genmini、GPT、Qwen）准确率存在较大差异。
稳定性：

如果接口出现服务不稳定、异常、非预期的返回如何做兼容。

针对以上问题，采用以下方案决策：

1. 幻觉问题：

继续沿用当前线上稳定的阿里云 OCR 服务来完成信息数据提取，仅将模型服务用于照片质量检测，减少潜在误差。

2. RT 较高：

根据OCR结果做差异化调用处理：

OCR 成功时，异步调用模型服务，避免阻塞用户主流程，保证用户操作链路的流畅，调用返回后进行Toast轻提示；
OCR 失败时，同步调用模型服务，采用模型识别检测结果，将模型给出的文案建议用Modal强提示。（也可提供用户主动触发检测的交互方式）。

3. 准确率：

可持续优化提示词，但准确率极大程度取决于模型本身，由于身份证属于敏感数据，在安全性要求下须使用阿里千问模型。

4. 稳定性：

异常及非预期返回做兼容兜底。
线上设置开关和监控。

上线策略和线上表现

▐ 平滑发布

此次为用户端首次上线AI功能，为确保上线过程平稳可控，我们采用多阶段的发布节奏：

“无感知预发布”策略：

上线初期仅埋点收集数据，确保用户界面与体验保持不变。根据数据验证，确认功能表现符合预期后，再进入到下个阶段。
“递进”策略：

为了平衡风险及效果验证，上线分阶段递进策略。首阶段，试点仅针对OCR识别失败的用户进行模型调用，收集数据并评估功能表现，确保链路稳定性。待试点稳定、指标验证达标后，后续将扩展至OCR识别成功与失败的全量场景。
“灰度发布”策略：

逐步放量，1% → 5% → 10% → 30% → 50% → 100%。

▐ 线上表现

截至目前，接口响应时间整体稳定在3秒左右，未出现百炼服务异常和出现非预期的返回的情况。上线后，接口仅在 OCR 失败时调用，统计显示各类图片质量问题分布如下，显示“非身份证”及“类型传反”的情况占比超过 90%

模型理解结果	占比
类型传反（国徽面和人像面传反）	53.67%
非身份证	38.26%
模糊和反光	5.41%
不完整和遮挡	2.66%
多张卡证	0%

针对以上不同结果的对客友好的提示文案：

非身份证

您上传的图片不符合身份证照片的要求，请确认并重新上传真实有效的身份证照片。
非人像面或者国徽面

您上传的身份证照片与所选类型不符，请核对后重新上传正确的人像面或国徽面照片。
遮挡

检测到您的身份证关键信息区域有被遮挡，请确保信息清晰可见后重新上传。
模糊

您的身份证关键信息区域较为模糊无法识别，请重新拍摄并上传清晰的身份证照片。
多张卡证

系统检测到图片中包含多张身份证，请仅上传单张完整的身份证照片。
异常或非预期兜底文案

身份证识别失败，请重新上传。

▐ 其他相关指标

上线后，相关指标表现出积极变化，OCR失败用户的再次失败率（OCR失败用户中再次识别仍失败的比例）有所下降，申请转化率有所提升。整体来看，功能上线后对业务流程产生了正向影响，在手淘海量用户群体下，这些转化率的提升能够带来极其可观的业务增益！

百炼模型服务调用成本

计费方式

总费用 = 输入 Token 数 x 模型输入单价 + 输出 Token 数 x 模型输出单价。

图像Token的计算规则

图像转成Token的方法为每28×28像素对应一个Token，一张图最少4个Token；模型的单图Token的上限为1280，超过该值的图像会被缩放，直到图像的Token小于1280。

可将单图Token上限从1280提升至16384，但RT也会增加。

百炼Qwen-VL-Max模型计费

调用单价预估

再计入prompt token、系统token以及返回时的元信息等，通过官方工具大致估算调用单价在0.01元左右。

业务和技术上的价值

引入多模态模型照片检测，在业务和技术上带来以下核心价值：

AI 应用场景突破

场金首个面向终端用户的AI接入实践，在产品场景中的落地应用实现突破，探索了如何将大模型应用与实际业务结合。
提升转化率与入件率

在用户上传身份证的关键阶段，通过合理提示建议使用户上传更优质的图片，有效提高了转化率与入件率。
场景适配

通过大模型提示词的增强优化，无需对每个场景进行大规模定制，用于多种类型的证件上传场景即可快速扩展功能，为更多业务场景赋能，未来结合工作流或智能体编排，将进一步提升可维护性和功能扩展能力。
通用性

借助统一的Mtop接口设计，最大程度减少不同产品间工程代码重复，提高技术复用性，同时降低了各产品之间的技术接入门槛。

综上，基于多模态模型的图片质量检测实践，为身份核验的业务流程提供了强有力的技术支撑。

{{userData.name}}已认证

多模态AI质检：身份核验场景实践

图像Token的计算规则

Claude Prompt：本质

Cursor+Llama 或 DeepSeek，做个自己的 AI 编程智能体