vLLMによる大規模言語モデル

始める前に

このセクションの環境を準備してください：

~$prepare-environment aiml/chatbot

これにより、ラボ環境に以下の変更が適用されます：

Amazon EKSクラスターにKarpenterをインストールします
Amazon EKSクラスターにAWS Load Balancer Controllerをインストールします

これらの変更を適用するTerraformはこちらで確認できます。

Mistral 7Bは、パフォーマンスと効率性のバランスを提供するために設計された73億のパラメータを持つオープンソースの大規模言語モデル（LLM）です。膨大な計算リソースを必要とするより大きなモデルとは異なり、Mistral 7Bは実用的なリソース要件を維持しながら、印象的な機能を提供します。テキスト生成、補完、情報抽出、データ分析、複雑な推論タスクに優れています。

このモジュールでは、Amazon EKS上でMistral 7Bをデプロイして効率的に提供する方法を探ります。以下の内容を学びます：

加速されたML（機械学習）ワークロード用の必要なインフラストラクチャのセットアップ
AWS Trainiumアクセラレーターを使用したモデルのデプロイ
モデル推論エンドポイントの構成とスケーリング
デプロイされたモデルとのシンプルなチャットインターフェースの統合

モデル推論を加速するために、Trn1インスタンスファミリーを通じてAWS Trainiumを活用します。これらの目的に合わせて構築されたアクセラレーターは、ディープラーニングワークロード向けに最適化されており、標準的なCPUベースのソリューションと比較してモデル推論に大幅なパフォーマンス向上を提供します。

私たちの推論アーキテクチャは、LLM向けに特別に設計された高スループットかつメモリ効率の良い推論エンジンであるvLLMを活用します。vLLMはOpenAI互換のAPIエンドポイントを提供し、既存のアプリケーションとの統合を容易にします。