vLLMによる大規模言語モデル
始める前に
このセクションの環境を準備してください:
~$prepare-environment aiml/chatbot
これにより、ラボ環境に以下の変更が適用されます:
- Amazon EKSクラスターにKarpenterをインストールします
- Amazon EKSクラスターにAWS Load Balancer Controllerをインストールします
これらの変更を適用するTerraformはこちらで確認できます。
Mistral 7Bは、パフォーマンスと効率性のバランスを提供するために設計された73億のパラメータを持つオープンソースの大規模言語モデル(LLM)です。膨大な計算リソースを必要とするより大きなモデルとは異なり、Mistral 7Bは実用的なリソース要件を維持しながら、印象的な機能を提供します。テキスト生成、補完、情報抽出、データ分析、複雑な推論タスクに優 れています。
このモジュールでは、Amazon EKS上でMistral 7Bをデプロイして効率的に提供する方法を探ります。以下の内容を学びます:
- 加速されたML(機械学習)ワークロード用の必要なインフラストラクチャのセットアップ
- AWS Trainiumアクセラレーターを使用したモデルのデプロイ
- モデル推論エンドポイントの構成とスケーリング
- デプロイされたモデルとのシンプルなチャットインターフェースの統合
モデル推論を加速するために、Trn1インスタンスファミリーを通じてAWS Trainiumを活用します。これらの目的に合わせて構築されたアクセラレーターは、ディープラーニングワークロード向けに最適化されており、標準的なCPUベースのソリューションと比較してモデル推論に大幅なパフォーマンス向上を提供します。
私たちの推論アーキテクチャは、LLM向けに特別に設計された高スループットかつメモリ効率の良い推論エンジンであるvLLMを活用します。vLLMはOpenAI互換のAPIエンドポイントを提供し、既存のアプリケーションとの統合を容易にします。