MinerU / README.md
kitjesen's picture
Upload 6 files
8afa9a1 verified
|
raw
history blame
800 Bytes

MinerU PDF to Markdown Model

这个模型可以将PDF文档转换为Markdown格式。

模型架构

MinerU使用多模型组合架构:

  • Layout: 文档布局分析
  • MFD: 数学公式检测
  • MFR: 数学公式识别
  • TabRec: 表格识别与重建

使用方法

from transformers import pipeline

# 初始化转换器
converter = pipeline("pdf-to-markdown", model="your-username/MinerU")

# 转换PDF文件
markdown = converter("document.pdf")

模型信息

  • 任务: PDF到Markdown转换
  • 框架: PyTorch
  • 许可: Apache 2.0

系统要求

  • Python >= 3.7
  • PyTorch >= 1.9.0
  • transformers >= 4.28.0
  • detectron2

限制说明

  • 支持的最大页数: XX页
  • 支持的PDF最大大小: XX MB
  • 支持的语言: 中文、英文