logo
icon

Firecrawl

开源网页爬虫与抓取 API,专为 AI 应用、知识库和数据管道设计。

开源网页爬虫与抓取 API,专为 AI 应用、知识库和数据管道设计。

平台Zeabur
部署次数2
发布者zeaburZeabur

Firecrawl

🚀 Firecrawl 是一个开源的网页爬虫与抓取 API,专为 AI 应用、知识库和数据管道设计。

此模板部署完整的自托管 Firecrawl 堆栈:

  • api — Firecrawl 主程序。执行 harness.js --start-docker,在同一容器内管理 API 服务器、worker、extract-worker,以及多个 NUQ queue worker 子进程。
  • playwright — 处理 JavaScript 渲染页面的浏览器自动化微服务。
  • redis — 缓存与速率限制存储。
  • rabbitmq — NUQ 任务队列的 broker。
  • postgres — Postgres 17 + pg_cron,预载 NUQ queue schema。

资源建议

Firecrawl 是资源密集型服务。upstream 的 docker-compose.yaml 建议 api 服务至少配置 4 vCPU / 8 GB RAMplaywright 至少 2 vCPU / 4 GB RAM。建议部署在 Pro 套餐或 dedicated server 上。

配置

必填的只有域名。部署表单还提供一个可选的 Zeabur AI Hub API Key 字段——点击 Generate 当场生成一个 key,api 容器启动时会自动接入 AI HubOPENAI_BASE_URL=https://hnd1.aihub.zeabur.ai/v1MODEL_NAME=claude-sonnet-4-5。AI Hub 直接从 Zeabur credit 扣费,无需另外注册 OpenAI 账号。

想用其他 provider(OpenAI 直连、OpenRouter、xAI、Ollama…): 部署时 AI Hub 字段留空,完成后到 api 服务 env tab 设置 OPENAI_API_KEY(可选 OPENAI_BASE_URLMODEL_NAME)。auto-config 仅在部署时选择 AI Hub 才会触发,用户自己设置的值不会被覆盖。完整支持的变量清单见 apps/api/src/config.ts

已经用 AI Hub 部署完想换成自己的? 直接在 api env tab 设置 OPENAI_API_KEY(您自己的 key)然后 restart api 服务即可——wrapper 看到 user 已设值就会跳过 AI Hub auto-config。

AI Hub 上运行的注意事项:

  • AI Hub 目前没有 embedding model。Crawl 链接相关度排序会退化为原顺序,其他 LLM 功能(extract、agent、summary)不受影响。
  • 少数 Firecrawl 功能(交互式 browser-agent、direct-quote 处理)写死通过 @ai-sdk/google 调用 Google Gemini,不走 OPENAI_BASE_URL。若要启用,请在 api 服务额外设置 GOOGLE_GENERATIVE_AI_API_KEY

BULL_AUTH_KEY(保护内置 Bull queue dashboard)会自动生成,可在 api 服务 env tab 查看。

默认 不启用 API 认证(USE_DB_AUTHENTICATION=false)。API 端点是公开的——若部署于公网,请使用 Cloudflare、auth proxy 或网络 ACL 保护您的域名。

快速测试

部署完成后,调用 scrape 端点:

curl -X POST https://<your-domain>/v1/scrape \
  -H 'Content-Type: application/json' \
  -d '{"url": "https://docs.firecrawl.dev"}'

Queue 管理面板

Firecrawl 没有给终端用户的 UI,它是 API-only 服务。运维用的内置 Bull Dashboard 挂载于:

https://<your-domain>/admin/<BULL_AUTH_KEY>/queues

可监控 queue 吞吐量、查看 active / completed / failed jobs、重跑失败任务。BULL_AUTH_KEY 可在 api 服务的 env tab 查到。

版本信息

Firecrawl upstream 没有发布 semver 标签——只有 :latest,每次 main 分支推进就会重建。为了让您的部署可复现,本模板将每个 image 通过 digest(@sha256:...)固定,当前对应 2026-05-04 的 build。后续更新会以新版模板的形式发布。

参考资料