icon

Crawl4AI

Crawl4AI 是一款开源的 LLM 友好型网络爬虫和数据采集工具,支持多种 LLM API 密钥,专为 AI 流水线、RAG 和知识库构建而设计。

template cover
部署次数112
发布者ronglecat
创建于2025-06-13
模版内的服务
service icon
标签
CrawlerAIWeb

Crawl4AI

🚀🤖 Crawl4AI 是一款开源的 LLM 友好型网络爬虫和数据采集工具,专为 AI 应用场景优化。它支持多种主流 LLM API,提供强大的数据提取和处理能力,是构建 AI 流水线、RAG 系统和知识库的理想选择。

核心特性

📝 Markdown 生成

  • 生成干净的、结构化的 Markdown 文档
  • AI 友好的内容过滤,自动移除噪音
  • 智能引用管理,将链接转换为编号引用列表
  • 支持自定义 Markdown 生成策略
  • 采用 BM25 算法进行核心信息提取

📊 结构化数据提取

  • 支持所有 LLM(开源和商业)驱动的数据提取
  • 多种分块策略:主题分块、正则分块、句子级分块
  • 基于余弦相似度的语义内容检索
  • 快速的 CSS/XPath 选择器提取
  • 自定义 Schema 定义,提取结构化 JSON 数据

🌐 浏览器集成

  • 使用用户自有浏览器,完全避免机器人检测
  • 支持 Chrome 开发者工具协议进行远程控制
  • 浏览器配置文件管理,保存认证状态和 Cookie
  • 会话管理,支持多步骤爬取
  • 代理支持,含认证功能
  • 完整浏览器控制:修改请求头、Cookie、User Agent 等
  • 兼容 Chromium、Firefox 和 WebKit
  • 动态视口调整,确保完整渲染

🔎 爬取与采集

  • 媒体支持:提取图片、音频、视频及响应式图片格式
  • 动态内容爬取:执行 JS 脚本,等待异步内容加载
  • 页面截图功能,便于调试和分析
  • 支持原始 HTML 和本地文件处理
  • 全面的链接提取:内部链接、外部链接、iframe 内容
  • 自定义钩子,可在每个步骤自定义爬取行为
  • 智能缓存机制,提升速度并避免重复请求
  • 元数据提取和 iframe 内容无缝提取
  • 懒加载处理和全页扫描,支持无限滚动页面

🚀 部署特性

  • Docker 优化镜像,内置 FastAPI 服务器
  • JWT 令牌认证,确保 API 安全
  • 一键部署 API 网关
  • 可扩展架构,支持大规模生产环境
  • 云部署就绪配置

支持的 LLM API

OpenAI、Anthropic、Deepseek、Groq、Together、Mistral、Gemini

快速开始

  1. 填写所需的 LLM API 密钥(可选,用于 AI 驱动的提取功能)
  2. 部署完成后,访问 /playground 体验交互式爬虫界面
  3. 查看官方文档了解更多高级用法

参考资源

开源协议

Apache-2.0