Crawl4AI
🚀🤖 Crawl4AI 是一款开源的 LLM 友好型网络爬虫和数据采集工具,支持多种 LLM API 密钥,专为 AI 流水线、RAG 和知识库构建而设计。
核心特性
- Markdown 生成:生成干净的、结构化的 Markdown,支持 AI 友好的过滤和引用管理
- 结构化数据提取:支持所有 LLM(开源和商业)驱动的数据提取,提供多种分块策略
- 浏览器集成:完整的浏览器控制、会话管理、代理支持,兼容 Chromium、Firefox 和 WebKit
- 爬取与采集:支持媒体提取、动态内容、截图、缓存、元数据提取等
- 部署就绪:Docker 优化镜像、JWT 认证、API 网关、可扩展架构
支持的 LLM API
- OpenAI、Anthropic、Deepseek、Groq、Together、Mistral、Gemini
快速开始
- 填写所需的 LLM API 密钥(可选)
- 部署完成后,访问
/playground 体验交互式爬虫界面
参考资源
开源协议
Apache-2.0