Google Kubernetes Engine(GKE)は Google Cloud のマネージド Kubernetes サービスで、Google のインフラストラクチャを使用して、コンテナ化されたアプリケーションを大規模にデプロイして運用できます。次の LLM サービング フレームワークで、GKE で Cloud Tensor Processing Unit(TPU)と Graphic Processing Unit(GPU)を使用して Gemma を提供できます。
- vLLM を使用して GKE で GPU を使用して Gemma を提供する
- TGI を使用して GKE で GPU を使用して Gemma を提供する
- Triton と TensorRT-LLM により GKE で GPU を使用して Gemma を提供する
- GKE で JetStream で TPU を使用して Gemma を提供する
- GKE で Saxml を実行して TPU を使用して Gemma を提供する
GKE で Gemma を提供すると、効率的なスケーラビリティや高可用性など、マネージド Kubernetes のすべてのメリットを活かした、本番環境に対応した堅牢な推論サービング ソリューションを実装できます。
詳しくは、以下のページをご覧ください。
- GKE の概要: Google Kubernetes Engine(GKE)を使ってみる
- GKE での AI/ML オーケストレーション: GKE で最適化された AI/ML ワークロードを実行します。