Crawl4AI
🚀🤖 Crawl4AI 是一款開源的 LLM 友善型網路爬蟲和資料採集工具,專為 AI 應用場景優化。它支援多種主流 LLM API,提供強大的資料提取和處理能力,是建構 AI 流水線、RAG 系統和知識庫的理想選擇。
核心特性
📝 Markdown 生成
- 生成乾淨的、結構化的 Markdown 文件
- AI 友善的內容過濾,自動移除雜訊
- 智慧引用管理,將連結轉換為編號引用清單
- 支援自訂 Markdown 生成策略
- 採用 BM25 演算法進行核心資訊提取
📊 結構化資料提取
- 支援所有 LLM(開源和商業)驅動的資料提取
- 多種分塊策略:主題分塊、正則分塊、句子級分塊
- 基於餘弦相似度的語意內容檢索
- 快速的 CSS/XPath 選擇器提取
- 自訂 Schema 定義,提取結構化 JSON 資料
🌐 瀏覽器整合
- 使用使用者自有瀏覽器,完全避免機器人偵測
- 支援 Chrome 開發者工具協定進行遠端控制
- 瀏覽器設定檔管理,儲存認證狀態和 Cookie
- 工作階段管理,支援多步驟爬取
- 代理支援,含認證功能
- 完整瀏覽器控制:修改請求標頭、Cookie、User Agent 等
- 相容 Chromium、Firefox 和 WebKit
- 動態視窗調整,確保完整渲染
🔎 爬取與採集
- 媒體支援:提取圖片、音訊、影片及響應式圖片格式
- 動態內容爬取:執行 JS 腳本,等待非同步內容載入
- 頁面截圖功能,便於除錯和分析
- 支援原始 HTML 和本機檔案處理
- 全面的連結提取:內部連結、外部連結、iframe 內容
- 自訂鉤子,可在每個步驟自訂爬取行為
- 智慧快取機制,提升速度並避免重複請求
- 中繼資料提取和 iframe 內容無縫提取
- 延遲載入處理和全頁掃描,支援無限捲動頁面
🚀 部署特性
- Docker 優化映像檔,內建 FastAPI 伺服器
- JWT 權杖認證,確保 API 安全
- 一鍵部署 API 閘道
- 可擴展架構,支援大規模生產環境
- 雲端部署就緒設定
支援的 LLM API
OpenAI、Anthropic、Deepseek、Groq、Together、Mistral、Gemini
快速開始
- 填寫所需的 LLM API 金鑰(選填,用於 AI 驅動的提取功能)
- 部署完成後,造訪
/playground 體驗互動式爬蟲介面
- 查看官方文件了解更多進階用法
參考資源
開源授權
Apache-2.0