logo
icon

Firecrawl

開源網頁爬蟲與擷取 API,專為 AI 應用、知識庫和資料管線設計。

開源網頁爬蟲與擷取 API,專為 AI 應用、知識庫和資料管線設計。

平台Zeabur
部署次數2
發布者zeaburZeabur

Firecrawl

🚀 Firecrawl 是一個開源的網頁爬蟲與擷取 API,專為 AI 應用、知識庫和資料管線設計。

此模板部署完整的自架 Firecrawl 堆疊:

  • api — Firecrawl 主程式。執行 harness.js --start-docker,在同一個容器內管理 API 伺服器、worker、extract-worker,以及多個 NUQ queue worker 子行程。
  • playwright — 處理 JavaScript 渲染頁面的瀏覽器自動化微服務。
  • redis — 快取與速率限制儲存。
  • rabbitmq — NUQ 任務佇列的 broker。
  • postgres — Postgres 17 + pg_cron,預載 NUQ queue schema。

資源建議

Firecrawl 是資源密集型服務。upstream 的 docker-compose.yaml 建議 api 服務至少配置 4 vCPU / 8 GB RAMplaywright 至少 2 vCPU / 4 GB RAM。建議部署在 Pro 方案或 dedicated server 上。

設定

必填的只有網域。部署表單還提供一個可選的 Zeabur AI Hub API Key 欄位——按 Generate 當場生一把 key,api 容器啟動時會自動把自己接到 AI HubOPENAI_BASE_URL=https://hnd1.aihub.zeabur.ai/v1MODEL_NAME=claude-sonnet-4-5。AI Hub 直接從 Zeabur credit 扣費,不用另外申請 OpenAI 帳號。

想用其他 provider(OpenAI 直連、OpenRouter、xAI、Ollama…): 部署時 AI Hub 欄位留空,完成後到 api 服務 env tab 設 OPENAI_API_KEY(可選 OPENAI_BASE_URLMODEL_NAME)。auto-config 只有在部署時選了 AI Hub 才會觸發,使用者自己設的值不會被覆寫。完整支援的變數清單見 apps/api/src/config.ts

已經用 AI Hub 部署完想換成自己的? 直接在 api env tab 設 OPENAI_API_KEY(你自己的 key)然後 restart api 服務即可——wrapper 看到 user 已設值就會跳過 AI Hub auto-config。

AI Hub 上跑的注意事項:

  • AI Hub 目前沒有 embedding model。Crawl 連結相關度排序會退化為原順序,其他 LLM 功能(extract、agent、summary)不受影響。
  • 少數 Firecrawl 功能(互動式 browser-agent、direct-quote 處理)寫死透過 @ai-sdk/google 呼叫 Google Gemini,不走 OPENAI_BASE_URL。若要啟用,請另外在 api 服務設 GOOGLE_GENERATIVE_AI_API_KEY

BULL_AUTH_KEY(保護內建 Bull queue dashboard)會自動生成,可在 api 服務 env tab 查看。

預設 不啟用 API 認證(USE_DB_AUTHENTICATION=false)。API 端點是公開的——若部署於公開網路,請使用 Cloudflare、auth proxy 或網路 ACL 保護你的網域。

快速測試

部署完成後,呼叫 scrape 端點:

curl -X POST https://<your-domain>/v1/scrape \
  -H 'Content-Type: application/json' \
  -d '{"url": "https://docs.firecrawl.dev"}'

Queue 管理面板

Firecrawl 沒有給終端用戶的 UI,它是 API-only 服務。維運用的內建 Bull Dashboard 掛在:

https://<your-domain>/admin/<BULL_AUTH_KEY>/queues

可監控 queue 吞吐量、檢視 active / completed / failed jobs、重跑失敗任務。BULL_AUTH_KEY 可在 api 服務的 env tab 查到。

版本資訊

Firecrawl upstream 沒有發行 semver 標籤——只有 :latest,每次 main 分支推進就會重建。為了讓你的部署可重現,這個模板把每個 image 用 digest(@sha256:...)釘住,目前釘的是 2026-05-04 那個 build。後續更新會以新版模板的形式釋出。

參考資料