Crawl4AI
🚀🤖 Crawl4AI 是一款开源的 LLM 友好型网络爬虫和数据采集工具,专为 AI 应用场景优化。它支持多种主流 LLM API,提供强大的数据提取和处理能力,是构建 AI 流水线、RAG 系统和知识库的理想选择。
核心特性
📝 Markdown 生成
- 生成干净的、结构化的 Markdown 文档
- AI 友好的内容过滤,自动移除噪音
- 智能引用管理,将链接转换为编号引用列表
- 支持自定义 Markdown 生成策略
- 采用 BM25 算法进行核心信息提取
📊 结构化数据提取
- 支持所有 LLM(开源和商业)驱动的数据提取
- 多种分块策略:主题分块、正则分块、句子级分块
- 基于余弦相似度的语义内容检索
- 快速的 CSS/XPath 选择器提取
- 自定义 Schema 定义,提取结构化 JSON 数据
🌐 浏览器集成
- 使用用户自有浏览器,完全避免机器人检测
- 支持 Chrome 开发者工具协议进行远程控制
- 浏览器配置文件管理,保存认证状态和 Cookie
- 会话管理,支持多步骤爬取
- 代理支持,含认证功能
- 完整浏览器控制:修改请求头、Cookie、User Agent 等
- 兼容 Chromium、Firefox 和 WebKit
- 动态视口调整,确保完整渲染
🔎 爬取与采集
- 媒体支持:提取图片、音频、视频及响应式图片格式
- 动态内容爬取:执行 JS 脚本,等待异步内容加载
- 页面截图功能,便于调试和分析
- 支持原始 HTML 和本地文件处理
- 全面的链接提取:内部链接、外部链接、iframe 内容
- 自定义钩子,可在每个步骤自定义爬取行为
- 智能缓存机制,提升速度并避免重复请求
- 元数据提取和 iframe 内容无缝提取
- 懒加载处理和全页扫描,支持无限滚动页面
🚀 部署特性
- Docker 优化镜像,内置 FastAPI 服务器
- JWT 令牌认证,确保 API 安全
- 一键部署 API 网关
- 可扩展架构,支持大规模生产环境
- 云部署就绪配置
支持的 LLM API
OpenAI、Anthropic、Deepseek、Groq、Together、Mistral、Gemini
快速开始
- 填写所需的 LLM API 密钥(可选,用于 AI 驱动的提取功能)
- 部署完成后,访问
/playground 体验交互式爬虫界面
- 查看官方文档了解更多高级用法
参考资源
开源协议
Apache-2.0