Crawl4AI

Crawl4AI 是一款开源的 LLM 友好型网络爬虫和数据采集工具，支持多种 LLM API 密钥，专为 AI 流水线、RAG 和知识库构建而设计。

template cover

部署次数187 次

发布者ronglecat

创建于2025-06-13

源码查看源码

标签

CrawlerAIWeb

模版内的服务

Crawl4AI

unclecode/crawl4ai:latest

Crawl4AI

🚀🤖 Crawl4AI 是一款开源的 LLM 友好型网络爬虫和数据采集工具，专为 AI 应用场景优化。它支持多种主流 LLM API，提供强大的数据提取和处理能力，是构建 AI 流水线、RAG 系统和知识库的理想选择。

GitHub: https://github.com/unclecode/crawl4ai
官方文档: https://docs.crawl4ai.com/
Zeabur 环境变量指南: https://zeabur.com/docs/configuration/env

核心特性

📝 Markdown 生成

生成干净的、结构化的 Markdown 文档
AI 友好的内容过滤，自动移除噪音
智能引用管理，将链接转换为编号引用列表
支持自定义 Markdown 生成策略
采用 BM25 算法进行核心信息提取

📊 结构化数据提取

支持所有 LLM（开源和商业）驱动的数据提取
多种分块策略：主题分块、正则分块、句子级分块
基于余弦相似度的语义内容检索
快速的 CSS/XPath 选择器提取
自定义 Schema 定义，提取结构化 JSON 数据

🌐 浏览器集成

使用用户自有浏览器，完全避免机器人检测
支持 Chrome 开发者工具协议进行远程控制
浏览器配置文件管理，保存认证状态和 Cookie
会话管理，支持多步骤爬取
代理支持，含认证功能
完整浏览器控制：修改请求头、Cookie、User Agent 等
兼容 Chromium、Firefox 和 WebKit
动态视口调整，确保完整渲染

🔎 爬取与采集

媒体支持：提取图片、音频、视频及响应式图片格式
动态内容爬取：执行 JS 脚本，等待异步内容加载
页面截图功能，便于调试和分析
支持原始 HTML 和本地文件处理
全面的链接提取：内部链接、外部链接、iframe 内容
自定义钩子，可在每个步骤自定义爬取行为
智能缓存机制，提升速度并避免重复请求
元数据提取和 iframe 内容无缝提取
懒加载处理和全页扫描，支持无限滚动页面

🚀 部署特性

Docker 优化镜像，内置 FastAPI 服务器
JWT 令牌认证，确保 API 安全
一键部署 API 网关
可扩展架构，支持大规模生产环境
云部署就绪配置

支持的 LLM API

OpenAI、Anthropic、Deepseek、Groq、Together、Mistral、Gemini

快速开始

填写所需的 LLM API 密钥（可选，用于 AI 驱动的提取功能）
部署完成后，访问 /playground 体验交互式爬虫界面
查看官方文档了解更多高级用法

参考资源

开源协议

Apache-2.0

部署次数187 次

发布者ronglecat

创建于2025-06-13

源码查看源码

标签

CrawlerAIWeb

模版内的服务

Crawl4AI

unclecode/crawl4ai:latest