logo
icon

Firecrawl

API de rastreo y extracción web de código abierto para aplicaciones de IA, bases de conocimiento y pipelines de datos.

API de rastreo y extracción web de código abierto para aplicaciones de IA, bases de conocimiento y pipelines de datos.

PlataformaZeabur
Implementado2
EditorzeaburZeabur

Firecrawl

🚀 Firecrawl es una API de rastreo y extracción web de código abierto para aplicaciones de IA, bases de conocimiento y pipelines de datos.

Esta plantilla despliega la pila completa de Firecrawl autoalojada:

  • api — proceso principal de Firecrawl. Ejecuta harness.js --start-docker, que gestiona el servidor API, worker, extract-worker y varios subprocesos worker de la cola NUQ dentro del mismo contenedor.
  • playwright — microservicio de automatización del navegador para páginas con JavaScript.
  • redis — almacén para caché y limitación de velocidad.
  • rabbitmq — broker para la cola de tareas NUQ.
  • postgres — Postgres 17 + pg_cron, con el esquema de cola NUQ precargado.

Recursos recomendados

Firecrawl consume muchos recursos. El docker-compose.yaml upstream recomienda al menos 4 vCPU / 8 GB RAM para el servicio api y 2 vCPU / 4 GB RAM para playwright. Recomendamos desplegar en un plan Pro o un servidor dedicado.

Configuración

Solo el dominio es obligatorio. El formulario de despliegue también incluye un campo opcional Zeabur AI Hub API Key — pulsa Generate para crear una clave al instante, y el contenedor api se autoconfigura para usar AI Hub en su primer arranque (OPENAI_BASE_URL=https://hnd1.aihub.zeabur.ai/v1, MODEL_NAME=claude-sonnet-4-5). AI Hub se factura contra tus créditos de Zeabur, sin necesidad de registrarte en OpenAI.

Otros proveedores LLM (OpenAI directo, OpenRouter, xAI, Ollama, …): deja el campo de AI Hub en blanco, despliega y luego define OPENAI_API_KEY (y opcionalmente OPENAI_BASE_URL, MODEL_NAME) en la pestaña env del servicio api. La autoconfiguración solo se activa cuando se elige AI Hub al desplegar, por lo que los valores definidos por el usuario nunca se sobreescriben. La lista completa de variables soportadas está en apps/api/src/config.ts.

¿Ya desplegaste con AI Hub y quieres cambiar luego? Define OPENAI_API_KEY (tu propia clave) en la pestaña env del servicio api y reinicia el servicio api — el wrapper detecta el valor definido por el usuario y omite la autoconfiguración de AI Hub.

Consideraciones al ejecutar sobre AI Hub:

  • AI Hub no proporciona modelos de embedding actualmente. La ordenación de relevancia de enlaces durante el crawl se desactiva (los enlaces se devuelven sin ordenar); el resto de funciones LLM (extract, agent, summary) no se ven afectadas.
  • Algunas funciones de Firecrawl (browser-agent interactivo, manejo de citas directas) llaman a Google Gemini directamente vía @ai-sdk/google sin pasar por OPENAI_BASE_URL. Para habilitarlas, define también GOOGLE_GENERATIVE_AI_API_KEY en el servicio api.

BULL_AUTH_KEY (que protege el panel interno Bull queue) se genera automáticamente; puedes verlo en la pestaña env del servicio api.

La autenticación está deshabilitada por defecto (USE_DB_AUTHENTICATION=false). El endpoint de la API es público — protege tu dominio con Cloudflare, un auth proxy o una ACL de red si está expuesto a Internet.

Prueba rápida

Tras el despliegue, llama al endpoint scrape:

curl -X POST https://<your-domain>/v1/scrape \
  -H 'Content-Type: application/json' \
  -d '{"url": "https://docs.firecrawl.dev"}'

Panel de cola

Firecrawl no tiene UI para usuarios finales — es un servicio solo de API. Para operadores, hay un Bull Dashboard incorporado en:

https://<your-domain>/admin/<BULL_AUTH_KEY>/queues

Úsalo para monitorear el rendimiento de la cola, inspeccionar trabajos active / completed / failed y reintentar errores. Encuentra tu BULL_AUTH_KEY en la pestaña env del servicio api.

Versionado

Firecrawl upstream no publica etiquetas semver — solo :latest, que se reconstruye cada vez que avanza la rama main. Para que tu despliegue sea reproducible, esta plantilla fija cada imagen por digest (@sha256:...). El pin actual corresponde a la build del 2026-05-04. Las actualizaciones se publican como nuevas revisiones de la plantilla.

Referencias