logo
icon

Firecrawl

API web crawler dan scraper open-source untuk aplikasi AI, basis pengetahuan, dan pipeline data.

API web crawler dan scraper open-source untuk aplikasi AI, basis pengetahuan, dan pipeline data.

PlatformZeabur
Dideploy2
PenerbitzeaburZeabur

Firecrawl

🚀 Firecrawl adalah API web crawler dan scraper open-source untuk aplikasi AI, basis pengetahuan, dan pipeline data.

Template ini men-deploy seluruh stack Firecrawl self-hosted:

  • api — proses utama Firecrawl. Menjalankan harness.js --start-docker, yang mengelola server API, worker, extract-worker, dan beberapa subproses worker antrian NUQ di dalam container yang sama.
  • playwright — microservice otomasi browser untuk halaman ber-JavaScript.
  • redis — penyimpanan cache dan rate-limit.
  • rabbitmq — broker untuk antrian tugas NUQ.
  • postgres — Postgres 17 + pg_cron, sudah di-load dengan skema antrian NUQ.

Rekomendasi sumber daya

Firecrawl membutuhkan banyak sumber daya. docker-compose.yaml upstream merekomendasikan minimal 4 vCPU / 8 GB RAM untuk service api dan 2 vCPU / 4 GB RAM untuk playwright. Disarankan deploy di paket Pro atau dedicated server.

Konfigurasi

Hanya domain yang wajib diisi. Form deploy juga menyediakan field opsional Zeabur AI Hub API Key — klik Generate untuk membuat key langsung di sana, container api akan otomatis terkonfigurasi untuk pakai AI Hub saat pertama kali start (OPENAI_BASE_URL=https://hnd1.aihub.zeabur.ai/v1, MODEL_NAME=claude-sonnet-4-5). AI Hub ditagih ke kredit Zeabur Anda, tidak perlu daftar OpenAI terpisah.

Provider LLM lain (OpenAI langsung, OpenRouter, xAI, Ollama, …): kosongkan field AI Hub saat deploy, lalu set OPENAI_API_KEY (dan opsional OPENAI_BASE_URL, MODEL_NAME) di tab env service api setelah deploy. Auto-config hanya aktif kalau AI Hub dipilih saat deploy, jadi nilai yang user set sendiri tidak akan ditimpa. Daftar lengkap variabel yang didukung ada di apps/api/src/config.ts.

Sudah deploy dengan AI Hub tapi mau ganti nanti? Cukup set OPENAI_API_KEY (key Anda sendiri) di tab env service api lalu restart service api — wrapper akan mendeteksi nilai yang user set dan melewatkan AI Hub auto-config.

Catatan saat menjalankan di AI Hub:

  • AI Hub saat ini tidak menyediakan embedding model. Ranking relevansi link saat crawl akan fallback ke "tanpa ranking"; fitur LLM lain (extract, agent, summary) tidak terpengaruh.
  • Beberapa fitur Firecrawl (browser-agent interaktif, penanganan direct-quote) memanggil Google Gemini langsung via @ai-sdk/google tanpa melalui OPENAI_BASE_URL. Untuk mengaktifkannya, set juga GOOGLE_GENERATIVE_AI_API_KEY di service api.

BULL_AUTH_KEY (untuk melindungi Bull queue dashboard internal) dibuat otomatis; bisa dilihat di tab env service api.

Autentikasi API dinonaktifkan secara default (USE_DB_AUTHENTICATION=false). Endpoint API bersifat publik — lindungi domain Anda dengan Cloudflare, auth proxy, atau ACL jaringan jika dipublikasikan ke internet.

Tes cepat

Setelah deploy selesai, panggil endpoint scrape:

curl -X POST https://<your-domain>/v1/scrape \
  -H 'Content-Type: application/json' \
  -d '{"url": "https://docs.firecrawl.dev"}'

Dashboard antrian

Firecrawl tidak punya UI untuk pengguna akhir — ini adalah service API saja. Untuk operator, tersedia Bull Dashboard bawaan di:

https://<your-domain>/admin/<BULL_AUTH_KEY>/queues

Gunakan untuk memantau throughput antrian, melihat job active / completed / failed, dan menjalankan ulang error. BULL_AUTH_KEY bisa ditemukan di tab env service api.

Versi

Firecrawl upstream tidak menerbitkan tag semver — hanya :latest, yang di-build ulang setiap kali branch main maju. Agar deploy Anda reprodusibel, template ini mengunci setiap image dengan digest (@sha256:...). Pin saat ini sesuai dengan build pada 2026-05-04. Update dirilis sebagai revisi template baru.

Referensi