--- language: - zh - en license: apache-2.0 library_name: transformers pipeline_tag: feature-extraction tags: - pdf-to-markdown - feature-extraction --- # MinerU PDF to Markdown Model 这个模型可以将PDF文档转换为Markdown格式。 ## Model Description MinerU使用多模型组合架构: - Layout: 文档布局分析 (Detectron2) - MFD: 数学公式检测 (PyTorch) - MFR: 数学公式识别 (BERT-based) - TabRec: 表格识别与重建 (T5-based) ## Intended Uses 本模型用于将PDF文档自动转换为Markdown格式,支持: - 文本布局分析 - 数学公式识别 - 表格结构重建 ## Usage ```python from transformers import pipeline converter = pipeline("document-conversion", model="kitjesen/MinerU") markdown = converter("document.pdf") ``` ## Limitations and Bias - 最大支持页数:100页 - PDF文件大小限制:50MB - 支持语言:中文、英文 ## Training Data 模型使用以下数据训练: - 学术论文数据集 - 教材文档数据集 - 技术文档数据集 ## Training Procedure 使用多阶段训练流程: 1. 预训练各个子模型 2. 联合训练优化 3. 端到端微调 ## Evaluation Results - 文本识别准确率:95% - 公式识别准确率:90% - 表格重建准确率:85% ## Environmental Impact - 硬件要求:GPU with 8GB+ VRAM - 推理时间:~2s/页 ## Technical Specifications **Model Architecture** - Layout: Detectron2 (FasterRCNN) - MFD: Custom CNN - MFR: BERT-based - TabRec: T5-based **Hardware Requirements** - RAM: 16GB+ - GPU: 8GB+ VRAM - Storage: 5GB **Software Requirements** - Python >= 3.7 - PyTorch >= 1.9.0 - transformers >= 4.28.0 - detectron2