OpenLLM
大規模言語モデルをOpenAI互換APIエンドポイントとして実行するためのオープンプラットフォームです。OpenLLMは単一のコマンドでサポートされているオープンソースモデルを提供でき、テスト用の組み込みチャットインターフェースを備えています。
デプロイ後にできること
- ドメインにアクセス — 組み込みチャットUIを開いてLLMと対話
- OpenAI互換APIを使用 — 任意のOpenAI SDKクライアントをエンドポイントに接続してプログラムからアクセス
- フレームワークとの統合 — LangChain、LlamaIndex、AutoGenなどのAIフレームワークと連携
- Playgroundでテスト — Webインターフェースで異なるプロンプトやパラメータを実験
- パフォーマンスを監視 — リクエストメトリクスとモデルパフォーマンス統計を確認
主な機能
- OpenAI互換API(chat/completions、completionsエンドポイント)
- インタラクティブテスト用の組み込みWebチャットUI
- Llama、Mistral、Gemma、Phi、Qwenなど多数のモデルに対応
- リアルタイムテキスト生成のためのストリーミングレスポンス
- 自動モデルダウンロードとキャッシュ
- 量子化サポート(GPTQ、AWQ、SqueezeLLM)
- テンソル並列によるマルチGPU推論
- LoRAファインチューニングモデルのアダプターサポート
- LangChain、LlamaIndex、BentoMLと互換
- 自動OpenAPIドキュメント付きRESTful API
ライセンス
Apache-2.0 — GitHub