Docling
IBM Research 开发的文档解析 API。将 PDF、DOCX、PPTX、HTML、图片转换为结构化的 Markdown 或 JSON。
部署后可以做什么
- 打开域名 — Swagger UI 在
/docs 路径加载
- 转换 PDF — 上传 PDF 文件获取结构化输出
- 处理 DOCX/PPTX — 转换 Office 文档并保留结构
- 提取表格 — AI 驱动的表格结构识别
- 批量处理 — 通过 API 转换多个文档
- OCR 支持 — 从扫描文档和图片中提取文字
授权
MIT — GitHub