OpenLLM
Una plataforma abierta para ejecutar grandes modelos de lenguaje como endpoints API compatibles con OpenAI. OpenLLM permite servir cualquier modelo de código abierto soportado con un solo comando e incluye una interfaz de chat integrada para pruebas.
Qué puedes hacer después del despliegue
- Visitar tu dominio — Abrir la interfaz de chat integrada para interactuar con tu LLM
- Usar la API compatible con OpenAI — Conectar cualquier cliente SDK de OpenAI a tu endpoint para acceso programático
- Integrar con frameworks — Usar con LangChain, LlamaIndex, AutoGen y otros frameworks de IA
- Probar en el Playground — Experimentar con diferentes prompts y parámetros en la interfaz web
- Monitorizar rendimiento — Ver métricas de solicitudes y estadísticas de rendimiento del modelo
Características principales
- API compatible con OpenAI (endpoints chat/completions, completions)
- Interfaz de chat web integrada para pruebas interactivas
- Soporte para Llama, Mistral, Gemma, Phi, Qwen y muchos más modelos
- Respuestas en streaming para generación de texto en tiempo real
- Descarga y caché automática de modelos
- Soporte de cuantización (GPTQ, AWQ, SqueezeLLM)
- Inferencia multi-GPU con paralelismo tensorial
- Soporte de adaptadores para modelos fine-tuned con LoRA
- Compatible con LangChain, LlamaIndex y BentoML
- API RESTful con documentación OpenAPI automática
Licencia
Apache-2.0 — GitHub