MinerU-PDF文档提取工具
00 分钟
2024-11-14
2024-11-14
type
status
date
slug
summary
tags
category
icon
password

资源信息

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。

主要功能

  • 删除页眉、页脚、脚注、页码等元素,确保语义连贯
  • 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片描述、表格、表格标题及脚注
  • 自动识别并转换文档中的公式为LaTeX格式
  • 自动识别并转换文档中的表格为LaTeX或HTML格式
  • 自动检测扫描版PDF和乱码PDF,并启用OCR功能
  • OCR支持84种语言的检测与识别
  • 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
  • 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
  • 支持CPU和GPU环境
  • 兼容Windows、Linux和Mac平台
notion image
 

资源地址

如果上面下载链接失效请进群组获取:https://t.me/xiaomoshare
 
 

更多资源

1、更多好资源,尽在小默分享站
2、站长的零基础零元建站培训班劲爆活动:通过下面链接成功加入培训班的学员,站长承诺,通过学习或站长的指导没有搭建出属于自己的网站的一律全额退款,加入链接:https://mall.17yong.xyz/?cid=2&mid=2
3、国内可靠的合租平台,各种AI工具【ChatGPT、MJ】、影视【奈飞、Spotify、Youtube、Disney+、HBO】流媒体服务,【优惠码:xiaomook】:https://nf.video/prm0O
notion image
4、获取其他资源请扫码加站长VX
notion image
 
上一篇
黑马Python+大数据高级班
下一篇
ClipTurbo小视频宝-短视频工具