Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWS SNSでエラー通知させ、SLOについて考える

AWS SNSでエラー通知させ、SLOについて考える

以下、登壇資料。
JAWS-UG SRE支部 #9 初心者LT大会
https://jawsug-sre.connpass.com/event/321380/

melanmeg

July 08, 2024
Tweet

More Decks by melanmeg

Other Decks in Programming

Transcript

  1. { "logs": { "logs_collected": { "files": { "collect_list": [ {

    "file_path": "/var/log/syslog", "log_group_name": "/var/log/syslog", "log_stream_name": "{instance_id}", "timestamp_format": "%b %d %H:%M:%S" } ] } } } } ログ出力設定ファイル エラー通知の導入方法 1. 適当なVMを用意 2. ログドライバーをインストール 3. ログ出力設定 4. CloudWatch側でログを検知し、 メ��ル通知する AWSでログの中からエラーログだけを 通知する監視基盤がほしい あるお客さんの要望
  2. 改善案 現状エラーログはすべてメール通知 ⇒エラー通知が多すぎて、管理者が状況を把握しずらいと想定 ⇒特定の条件でアラートが発生したらLambda経由でメール通知する ※2023/12/22 CloudWatch AlermがLambdaをアラーム状態変更アクションとしてサポートされたよう 引用:https://aws.amazon.com/jp/about-aws/whats-new/2023/12/amazon-cloudwatch-alarms-lambda-change-action/ 定義を考えてみる •

    SLI:リクエストが十分なだけ成功しているかどうか 仮定として、以下条件までを許容するとする。 期間:1ヶ月 合計リクエスト数:1,000,000 エラーログの総数:500 • SLO:99.95% • エラーバジェット:エラーログが500��まで 1ヶ月内にエラーログが 500個を超えたらアラートを発生