0.35秒OCR整页文档,比Qwen2.5 VL高出10%的文档转换多模态模型!


SmolDocling是一种多模态的图文到文本模型,专为高效的文档转换而设计,目前冲到huggingface热榜2th。
0.35秒OCR整页文档,比Qwen2.5 VL高出10%的文档转换多模态模型!
SmolDocling由Docling团队,IBM Research联合推出,其在A100 GPU上平均每页仅需0.35秒256M参数Qwen2.5 VL(7B)更高效!
0.35秒OCR整页文档,比Qwen2.5 VL高出10%的文档转换多模态模型!
0.35秒OCR整页文档,比Qwen2.5 VL高出10%的文档转换多模态模型!
SmolDocling功能特性:
DocTags高效标记 —— 引入DocTags,这是一种与DoclingDocuments完全兼容的高效且简洁的文档表示方式。
0.35秒OCR整页文档,比Qwen2.5 VL高出10%的文档转换多模态模型!
光学字符识别(OCR) —— 从图像中准确提取文本。
布局和定位 —— 保留文档结构和文档元素的边界框。

代码识别 —— 检测并格式化代码块,包括缩进。

公式识别 —— 识别并处理数学表达式。

图表识别 —— 提取并解释图表数据。
表格识别 —— 支持结构化表格提取,包括列标题和行标题。
图形分类 —— 区分图形和图形元素。
标题对应 —— 将标题链接到相关图像和图形。
列表分组 —— 正确组织和结构化列表元素。
全页转换 —— 处理整个页面,实现全面的文档转换,涵盖所有页面元素(代码、公式、表格、图表等)。
带边界框的OCR —— 使用边界框进行OCR区域识别。
通用文档处理 —— 针对科学和非科学文档进行了训练。
无缝集成Docling —— 导入Docling并以多种格式导出。
https://hf-mirror.com/ds4sd/SmolDocling-256M-previewhttps://arxiv.org/pdf/2503.11576SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

前沿技术大模型技术新闻资讯

深度剖析MCP:当AI协议遇上糟糕的工程实践

2025-5-16 7:33:11

RAG技术前沿技术新闻资讯

什么是RAG与为什么要RAG?

2025-5-16 7:50:04

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索