当前位置: 科技师 » 电脑知识 » 正文

MinerU – 文档数据提取工具

MinerU(文档数据提取工具)简介

MinerU是一个一站式开源免费的文档数据提取工具,主要包括两个模块:Magic-PDF和Magic-Doc。

MinerU - 文档数据提取工具

Magic-PDF是一个PDF文档提取工具,能够将PDF文档转换为Markdown格式。它支持本地文件或对象存储上的PDF文件。主要特点包括:

1. 支持多种前端模型输入
2. 去除页眉、页脚、脚注和页码
3. 保持原始文档的结构和格式,包括标题、段落、列表等
4. 提取并显示Markdown中的图像和表格
5. 将方程式转换为LaTeX格式
6. 自动检测并转换乱码PDF
7. 兼容CPU和GPU环境
8. 支持Windows、Linux和macOS平台

Magic-Doc是一个网页和电子书提取工具,能够将网页或多种格式的电子书转换为Markdown格式。主要特点包括:

1. 网页提取:精确解析文本、图像、表格和公式信息
2. 电子书提取:支持epub、mobi等多种文档格式,完全适配文本和图像
3. 语言类型识别:准确识别176种语言

MinerU(文档数据提取工具)官网及

未经允许不得转载:科技师 » MinerU – 文档数据提取工具

相关文章