OpenLLM
Platform terbuka untuk menjalankan model bahasa besar sebagai endpoint API yang kompatibel dengan OpenAI. OpenLLM memungkinkan Anda melayani model open-source yang didukung dengan satu perintah dan menyertakan antarmuka chat bawaan untuk pengujian.
Apa yang bisa dilakukan setelah deployment
- Kunjungi domain Anda — Buka chat UI bawaan untuk berinteraksi dengan LLM
- Gunakan API kompatibel OpenAI — Hubungkan klien OpenAI SDK ke endpoint untuk akses terprogram
- Integrasikan dengan framework — Gunakan dengan LangChain, LlamaIndex, AutoGen, dan framework AI lainnya
- Uji di Playground — Eksperimen dengan prompt dan parameter berbeda di antarmuka web
- Pantau performa — Lihat metrik permintaan dan statistik performa model
Fitur Utama
- API kompatibel OpenAI (endpoint chat/completions, completions)
- Chat UI web bawaan untuk pengujian interaktif
- Dukungan Llama, Mistral, Gemma, Phi, Qwen, dan banyak model lainnya
- Dukungan respons streaming untuk pembuatan teks real-time
- Unduhan dan cache model otomatis
- Dukungan kuantisasi (GPTQ, AWQ, SqueezeLLM)
- Inferensi multi-GPU dengan paralelisme tensor
- Dukungan adapter untuk model fine-tuned LoRA
- Kompatibel dengan LangChain, LlamaIndex, dan BentoML
- API RESTful dengan dokumentasi OpenAPI otomatis
Lisensi
Apache-2.0 — GitHub