MinerU功能介绍


介绍:怎么将文档转为json或markdown
MinerU功能介绍
步骤一:介绍
官网:https://mineru.net/
MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以方便的抽取为任意格式。
主要功能:
  • 删除页眉、页脚、脚注、页码等元素,确保语义连贯
  • 输出符合人类阅读顺序的文本,适用于单栏、多栏以及复杂排版
  • 保留源文档的结构,包括标题、段落、列表等
  • 提取图像、图片描述、表格、表格标题及脚注
  • 自动识别并转换文档中的公式为LaTeX格式
  • 自动识别并转换文档中的表格为HTML格式
  • 自动检测扫描版PDF和乱码PDF,并启用OCR功能
  • 支持纯CPU环境运行,并支持GPU(CUDA)/NPU(CANN)/MPS加速
  • ……

步骤二:安装
方式一:使用pip或uv安装MinerU
pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simplepip install uv -i https://mirrors.aliyun.com/pypi/simpleuv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple
方式二:通过源码安装
git clone https://github.com/opendatalab/MinerU.gitcd MinerUuv pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple
步骤三:使用
①命令行方式调用
mineru -p <input_path> -o <output_path>
eg:可以通过命令行、API、WebUI等多种方式使用MinerU进行PDF解析
MinerU功能介绍
②API方式调用
具体可以查看官方的接口文档
MinerU功能介绍
单个文件解析示例
import requests
token = "官网申请的api token"url = "https://mineru.net/api/v4/extract/task"header = {    "Content-Type""application/json",    "Authorization": f"Bearer {token}"}data = {    "url""https://cdn-mineru.openxlab.org.cn/demo/example.pdf",    "model_version""vlm"}
res = requests.post(url,headers=header,json=data)print(res.status_code)print(res.json())print(res.json()["data"])
语言为Python!再看看DeepSeek接口文档
MinerU功能介绍
在AI领域,Python是首选,看到这里,想起了没,读过我写的dify使用的教程的小伙伴知道,Dify中的脚本节点支持的是Python和nodejs!
MinerU功能介绍
MinerU的生态也挺不错的,支持Dify和Ragflow,适合小企业本地部署,完成AI应用的需求开发。

企业落地新闻资讯智能化改造

Text-to-SQL总失败?我搞了个能自动学习的AI,效果惊了!

2026-5-7 1:29:22

前沿技术新闻资讯智能硬件

小团队高效能:Android Studio 中的 Gemini 助 Ultrahuman 实现 15% 研发提速

2026-5-7 1:38:37

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索