Docling开源解析文档导出处理工具
00 分钟
2024-11-16
2024-11-16
type
status
date
slug
summary
tags
category
icon
password

资源信息

一个文档处理工具,它可以解析 PDF、DOCX、PPTX、HTML 等多种文档格式,并转换为 Markdown 或 JSON 格式。
Docling 提供了强大的 PDF 分析功能,包括页面布局、读取顺序和表格结构,并支持 OCR 识别扫描的 PDF。

功能

  • 读取流行的文档格式(PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown)并导出为 Markdown 和 JSON
  • 高级 PDF 文档理解,包括页面布局、阅读顺序和表格结构
  • 统一、富有表现力的 DoclingDocument 表示格式
  • 轻松与 LlamaIndex 🦙 和 LangChain 🦜🔗 集成,打造强大的 RAG / QA 应用程序
  • 扫描 PDF 的 OCR 支持
  • 简单方便的 CLI

安装

要使用 Docling,只需从包管理器安装 docling,例如 pip:
适用于 macOS、Linux 和 Windows 环境。x86_64 和 arm64 架构。

使用

转换单个文档 要转换单个 PDF 文档,请使用 convert(),例如:
CLI 您还可以直接从命令行使用 Docling 来转换单个文件(无论是本地文件还是通过 URL)或整个目录。
一个简单的示例如下所示:
要查看所有可用选项(导出格式等),请运行 docling --help
notion image
 

资源地址

如果上面下载链接失效请进群组获取:https://t.me/xiaomoshare
 
 

更多资源

1、更多好资源,尽在小默分享站
2、站长的零基础零元建站培训班劲爆活动:通过下面链接成功加入培训班的学员,站长承诺,通过学习或站长的指导没有搭建出属于自己的网站的一律全额退款,加入链接:https://mall.17yong.xyz/?cid=2&mid=2
3、国内可靠的合租平台,各种AI工具【ChatGPT、MJ】、影视【奈飞、Spotify、Youtube、Disney+、HBO】流媒体服务,【优惠码:xiaomook】:https://nf.video/prm0O
notion image
4、获取其他资源请扫码加站长VX
notion image
 
上一篇
VideoLingo一键生成影视级双语字幕/视频配音
下一篇
小红书引流图片生成器