logo
icon

Crawl4AI

Crawl4AI 是一款開源的 LLM 友善型網路爬蟲和資料採集工具,支援多種 LLM API 金鑰,專為 AI 流水線、RAG 和知識庫建構而設計。

template cover
部署次數120
發布者ronglecat
建立於2025-06-13
模板內的服務
service icon
標籤
CrawlerAIWeb

Crawl4AI

🚀🤖 Crawl4AI 是一款開源的 LLM 友善型網路爬蟲和資料採集工具,專為 AI 應用場景優化。它支援多種主流 LLM API,提供強大的資料提取和處理能力,是建構 AI 流水線、RAG 系統和知識庫的理想選擇。

核心特性

📝 Markdown 生成

  • 生成乾淨的、結構化的 Markdown 文件
  • AI 友善的內容過濾,自動移除雜訊
  • 智慧引用管理,將連結轉換為編號引用清單
  • 支援自訂 Markdown 生成策略
  • 採用 BM25 演算法進行核心資訊提取

📊 結構化資料提取

  • 支援所有 LLM(開源和商業)驅動的資料提取
  • 多種分塊策略:主題分塊、正則分塊、句子級分塊
  • 基於餘弦相似度的語意內容檢索
  • 快速的 CSS/XPath 選擇器提取
  • 自訂 Schema 定義,提取結構化 JSON 資料

🌐 瀏覽器整合

  • 使用使用者自有瀏覽器,完全避免機器人偵測
  • 支援 Chrome 開發者工具協定進行遠端控制
  • 瀏覽器設定檔管理,儲存認證狀態和 Cookie
  • 工作階段管理,支援多步驟爬取
  • 代理支援,含認證功能
  • 完整瀏覽器控制:修改請求標頭、Cookie、User Agent 等
  • 相容 Chromium、Firefox 和 WebKit
  • 動態視窗調整,確保完整渲染

🔎 爬取與採集

  • 媒體支援:提取圖片、音訊、影片及響應式圖片格式
  • 動態內容爬取:執行 JS 腳本,等待非同步內容載入
  • 頁面截圖功能,便於除錯和分析
  • 支援原始 HTML 和本機檔案處理
  • 全面的連結提取:內部連結、外部連結、iframe 內容
  • 自訂鉤子,可在每個步驟自訂爬取行為
  • 智慧快取機制,提升速度並避免重複請求
  • 中繼資料提取和 iframe 內容無縫提取
  • 延遲載入處理和全頁掃描,支援無限捲動頁面

🚀 部署特性

  • Docker 優化映像檔,內建 FastAPI 伺服器
  • JWT 權杖認證,確保 API 安全
  • 一鍵部署 API 閘道
  • 可擴展架構,支援大規模生產環境
  • 雲端部署就緒設定

支援的 LLM API

OpenAI、Anthropic、Deepseek、Groq、Together、Mistral、Gemini

快速開始

  1. 填寫所需的 LLM API 金鑰(選填,用於 AI 驅動的提取功能)
  2. 部署完成後,造訪 /playground 體驗互動式爬蟲介面
  3. 查看官方文件了解更多進階用法

參考資源

開源授權

Apache-2.0