メニューを閉じる

テクノモバイルグループ

メニューを開く

2019.12.30

インフラ

原因不明のAWS ElastiCacheのレスポンス悪化とサポートの対応

AWSにあるアプリをNewRelicで観測してる。
ある日突然、突発的にレスポンスが悪化するように。本当に何もしていない。
犯人はRedis(ElastiCache)で、日に数度、数秒間レイテンシが10ms→5000msぐらいに悪化する。

 

CPU、メモリ、ネットワーク、などサーバーの数値はCloudWatchやNewRelicで異常は見られない。

 

該当のElastiCacheに接続しているEC2側で性能劣化などの異常は観測されず、複数のEC2及びアプリケーションが接続されているがそれら全てで同じタイミングで現象が発生している。

これはElastiCacheのネットワークに障害が発生しているに違いない。
私はビジネスサポートプランに入っているセレブなので、サポート問い合わせ。

 

返事に1週間。
「該当ノードでネットワークの疎通障害だったみたい。もう治ったと思うよ」
現象は続いてるので「治ってないよ」とレスした。

 

返事に1週間。
「だとしてもAWSとして対応が必要なレベルじゃない。フェイルオーバーしてみて」
MultiAZでもフェイルオーバーのダウンタイムは信用ならないのと、データ捨てていいキャッシュ用途だったで、別ノード作ってエンドポイント切り替えで対応。

RDBならまだしもRedisでレスポンス数秒って障害だと思うんだけど何なんだろう・・・

私はオンプレやIaaSが長く自分で全部見えてたので、クラウドのこういう不明さは未だに気持ち悪いと思っちゃう。
サポートのレスポンスも悪いので大事なサービスで原因不明の事がおきたら調査せずとりあえず逃げる対応とった方がいい。


【テクノモバイルではエンジニア/デザイナーを積極採用中です!】

下記項目に1つでも当てはまる方は是非、詳細ページへ!
  • 自分でアプリを作ってみたい
  • ITで世の中にワクワクを生み出したい
  • 使いやすさ、デザインにこだわったWebサイトを開発したい

採用情報の詳細はこちら


Qangaroo(カンガルー)

  • 徹底した見やすさと優れた操作性で、テストの「見える化」を実現。
  • テストの進捗が見える。開発がスマートに進む。
  • クラウド型テスト管理ツール『Qangaroo(カンガルー)』
https://qangaroo.jp/

最近の記事

SNS共有

X CLOSE
X CLOSE
X CLOSE