OpenLLM
一个开放平台,可将大型语言模型作为 OpenAI 兼容 API 端点运行。OpenLLM 让你用单一命令即可服务任何支持的开源模型,并内置聊天界面供测试使用。
部署后可以做什么
- 访问你的域名 — 打开内置聊天界面与 LLM 互动
- 使用 OpenAI 兼容 API — 连接任何 OpenAI SDK 客户端到你的端点进行编程访问
- 与框架集成 — 搭配 LangChain、LlamaIndex、AutoGen 等 AI 框架使用
- 在 Playground 测试 — 在网页界面中实验不同的提示词和参数
- 监控性能 — 查看请求指标和模型性能统计
主要功能
- OpenAI 兼容 API(chat/completions、completions 端点)
- 内置网页聊天界面供交互测试
- 支持 Llama、Mistral、Gemma、Phi、Qwen 等多种模型
- 流式响应支持实时文本生成
- 自动模型下载和缓存
- 量化支持(GPTQ、AWQ、SqueezeLLM)
- 多 GPU 推理与张量并行
- 支持 LoRA 微调模型的适配器
- 兼容 LangChain、LlamaIndex 和 BentoML
- RESTful API 附自动 OpenAPI 文档
许可证
Apache-2.0 — GitHub