Crawl4AI

Crawl4AI 是一款開源的 LLM 友善型網路爬蟲和資料採集工具，支援多種 LLM API 金鑰，專為 AI 流水線、RAG 和知識庫建構而設計。

template cover

部署次數187 次

發布者ronglecat

建立於2025-06-13

原始碼查看原始碼

標籤

CrawlerAIWeb

模板內的服務

Crawl4AI

unclecode/crawl4ai:latest

Crawl4AI

🚀🤖 Crawl4AI 是一款開源的 LLM 友善型網路爬蟲和資料採集工具，專為 AI 應用場景優化。它支援多種主流 LLM API，提供強大的資料提取和處理能力，是建構 AI 流水線、RAG 系統和知識庫的理想選擇。

GitHub: https://github.com/unclecode/crawl4ai
官方文件: https://docs.crawl4ai.com/
Zeabur 環境變數指南: https://zeabur.com/docs/configuration/env

核心特性

📝 Markdown 生成

生成乾淨的、結構化的 Markdown 文件
AI 友善的內容過濾，自動移除雜訊
智慧引用管理，將連結轉換為編號引用清單
支援自訂 Markdown 生成策略
採用 BM25 演算法進行核心資訊提取

📊 結構化資料提取

支援所有 LLM（開源和商業）驅動的資料提取
多種分塊策略：主題分塊、正則分塊、句子級分塊
基於餘弦相似度的語意內容檢索
快速的 CSS/XPath 選擇器提取
自訂 Schema 定義，提取結構化 JSON 資料

🌐 瀏覽器整合

使用使用者自有瀏覽器，完全避免機器人偵測
支援 Chrome 開發者工具協定進行遠端控制
瀏覽器設定檔管理，儲存認證狀態和 Cookie
工作階段管理，支援多步驟爬取
代理支援，含認證功能
完整瀏覽器控制：修改請求標頭、Cookie、User Agent 等
相容 Chromium、Firefox 和 WebKit
動態視窗調整，確保完整渲染

🔎 爬取與採集

媒體支援：提取圖片、音訊、影片及響應式圖片格式
動態內容爬取：執行 JS 腳本，等待非同步內容載入
頁面截圖功能，便於除錯和分析
支援原始 HTML 和本機檔案處理
全面的連結提取：內部連結、外部連結、iframe 內容
自訂鉤子，可在每個步驟自訂爬取行為
智慧快取機制，提升速度並避免重複請求
中繼資料提取和 iframe 內容無縫提取
延遲載入處理和全頁掃描，支援無限捲動頁面

🚀 部署特性

Docker 優化映像檔，內建 FastAPI 伺服器
JWT 權杖認證，確保 API 安全
一鍵部署 API 閘道
可擴展架構，支援大規模生產環境
雲端部署就緒設定

支援的 LLM API

OpenAI、Anthropic、Deepseek、Groq、Together、Mistral、Gemini

快速開始

填寫所需的 LLM API 金鑰（選填，用於 AI 驅動的提取功能）
部署完成後，造訪 /playground 體驗互動式爬蟲介面
查看官方文件了解更多進階用法

參考資源

開源授權

Apache-2.0

部署次數187 次

發布者ronglecat

建立於2025-06-13

原始碼查看原始碼

標籤

CrawlerAIWeb

模板內的服務

Crawl4AI

unclecode/crawl4ai:latest