MinerU PDF to Markdown Model
这个模型可以将PDF文档转换为Markdown格式。
模型架构
MinerU使用多模型组合架构:
- Layout: 文档布局分析
- MFD: 数学公式检测
- MFR: 数学公式识别
- TabRec: 表格识别与重建
使用方法
from transformers import pipeline
# 初始化转换器
converter = pipeline("pdf-to-markdown", model="your-username/MinerU")
# 转换PDF文件
markdown = converter("document.pdf")
模型信息
- 任务: PDF到Markdown转换
- 框架: PyTorch
- 许可: Apache 2.0
系统要求
- Python >= 3.7
- PyTorch >= 1.9.0
- transformers >= 4.28.0
- detectron2
限制说明
- 支持的最大页数: XX页
- 支持的PDF最大大小: XX MB
- 支持的语言: 中文、英文