
API de rastreo y extracción web de código abierto para aplicaciones de IA, bases de conocimiento y pipelines de datos.
API de rastreo y extracción web de código abierto para aplicaciones de IA, bases de conocimiento y pipelines de datos.
🚀 Firecrawl es una API de rastreo y extracción web de código abierto para aplicaciones de IA, bases de conocimiento y pipelines de datos.
Esta plantilla despliega la pila completa de Firecrawl autoalojada:
harness.js --start-docker, que gestiona el servidor API, worker, extract-worker y varios subprocesos worker de la cola NUQ dentro del mismo contenedor.Firecrawl consume muchos recursos. El docker-compose.yaml upstream recomienda al menos 4 vCPU / 8 GB RAM para el servicio api y 2 vCPU / 4 GB RAM para playwright. Recomendamos desplegar en un plan Pro o un servidor dedicado.
Solo el dominio es obligatorio. El formulario de despliegue también incluye un campo opcional Zeabur AI Hub API Key — pulsa Generate para crear una clave al instante, y el contenedor api se autoconfigura para usar AI Hub en su primer arranque (OPENAI_BASE_URL=https://hnd1.aihub.zeabur.ai/v1, MODEL_NAME=claude-sonnet-4-5). AI Hub se factura contra tus créditos de Zeabur, sin necesidad de registrarte en OpenAI.
Otros proveedores LLM (OpenAI directo, OpenRouter, xAI, Ollama, …): deja el campo de AI Hub en blanco, despliega y luego define OPENAI_API_KEY (y opcionalmente OPENAI_BASE_URL, MODEL_NAME) en la pestaña env del servicio api. La autoconfiguración solo se activa cuando se elige AI Hub al desplegar, por lo que los valores definidos por el usuario nunca se sobreescriben. La lista completa de variables soportadas está en apps/api/src/config.ts.
¿Ya desplegaste con AI Hub y quieres cambiar luego? Define OPENAI_API_KEY (tu propia clave) en la pestaña env del servicio api y reinicia el servicio api — el wrapper detecta el valor definido por el usuario y omite la autoconfiguración de AI Hub.
Consideraciones al ejecutar sobre AI Hub:
@ai-sdk/google sin pasar por OPENAI_BASE_URL. Para habilitarlas, define también GOOGLE_GENERATIVE_AI_API_KEY en el servicio api.BULL_AUTH_KEY (que protege el panel interno Bull queue) se genera automáticamente; puedes verlo en la pestaña env del servicio api.
La autenticación está deshabilitada por defecto (USE_DB_AUTHENTICATION=false). El endpoint de la API es público — protege tu dominio con Cloudflare, un auth proxy o una ACL de red si está expuesto a Internet.
Tras el despliegue, llama al endpoint scrape:
curl -X POST https://<your-domain>/v1/scrape \
-H 'Content-Type: application/json' \
-d '{"url": "https://docs.firecrawl.dev"}'
Firecrawl no tiene UI para usuarios finales — es un servicio solo de API. Para operadores, hay un Bull Dashboard incorporado en:
https://<your-domain>/admin/<BULL_AUTH_KEY>/queues
Úsalo para monitorear el rendimiento de la cola, inspeccionar trabajos active / completed / failed y reintentar errores. Encuentra tu BULL_AUTH_KEY en la pestaña env del servicio api.
Firecrawl upstream no publica etiquetas semver — solo :latest, que se reconstruye cada vez que avanza la rama main. Para que tu despliegue sea reproducible, esta plantilla fija cada imagen por digest (@sha256:...). El pin actual corresponde a la build del 2026-05-04. Las actualizaciones se publican como nuevas revisiones de la plantilla.