SGLangの研究から商用推論プラットフォームへの移行
SGLangの研究から商用推論プラットフォームへの移行 SGLangは、UC BerkeleyのIon Stoica研究室から生まれたオープンソース研究プロジェクトとして始まり、大規模言語モデル(LLM)推論サービングにおける文書化された非効率性に対処するために設計されました。このプロジェクトは、本番推論システムにおける2つの確立された制約を特に対象としていました:(1)異種リクエストパターン下でのレイテンシの変動、(2)可変プロンプト長と出力トークン要件を持つ同...