EKSを使用したカオスエンジニアリング

始める前に

このセクションの環境を準備してください:

~$prepare-environment observability/resiliency

これにより、ラボ環境に以下の変更が適用されます:

これらの変更を適用するTerraformはこちらで確認できます。

回復力とは何か？

クラウドコンピューティングにおける回復力とは、障害や通常の運用に対する課題に直面した際に、許容可能なパフォーマンスレベルを維持するシステムの能力を指します。以下を含みます:

Amazon EKSはマネージドKubernetesプラットフォームを提供していますが、回復力のあるアーキテクチャを設計・実装することは依然として重要です。その理由は:

このラボでは、様々な高可用性シナリオを探索し、EKS環境の回復力をテストします。一連の実験を通じて、異なるタイプの障害に対処し、Kubernetesクラスターがこれらの課題にどのように対応するかを理解するための実践的な経験を得ることができます。

シミュレーションと対応:

ポッド障害: ChaosMeshを使用して、個々のポッド障害に対するアプリケーションの回復力をテスト。
ノード障害: Kubernetesの自己修復能力を観察するためのノード障害シミュレーション。
- AWS Fault Injection Simulatorなし: Kubernetesの自己修復能力を観察するための手動ノード障害シミュレーション。
- AWS Fault Injection Simulatorあり: 部分的および完全なノード障害シナリオのためのAWS Fault Injection Simulatorの活用。
アベイラビリティゾーン障害: マルチAZデプロイメント戦略を検証するためのAZ全体の喪失シミュレーション。

このチャプターの終わりには、以下のことができるようになります:

これらの実験は以下の理解に役立ちます:

このチャプターでは、以下を使用します:

カオスエンジニアリングとは、システムの弱点を特定するために意図的に制御された障害を導入する実践です。システムの回復力を積極的にテストすることで、以下のことができます:

このラボの終わりには、EKS環境の高可用性機能と改善が必要な分野について包括的な理解を得ることができます。

備考

AWS回復力機能についてより詳しい情報は、以下を確認することをお勧めします: