第4回 Chaos Engieering 読書会@リモートのログ
引き続き Discord によるオンライン開催。
合計 300 ページくらいのところを毎回 30 ページくらい進んでるので、全部で 10 回くらいになるのかなぁ。
次回は 8/15(土曜日)で、CapitalOne の事例から。
- 対象
- トピック
- ディスカッション
- 参考情報
対象
- 6 Microsoft Variation and Prioritization of Experiments
- 6.3 Prioritization of Failures
- 6.4 Degree of Variation
- 6.5 Deploying Experiments at Scale
- 6.6 Conclusion
- 7 LinkedIn Being Mindful of Members
- 7.1. Learning from Disaster
- 7.2. Granularly Targeting Experiments
- 7.3. Experimenting at Scale, Safely
- 7.4. In Practice: LinkedOut
- 7.5. Conclusion
トピック
- 便乗してマイク買った! SHURE MV88+ VIDEO KIT
- 前回のトピックを参照 (
いいマイク買った! (RODE NT-USB Mini)
)
- 前回のトピックを参照 (
- オーディオミキサー買った! MAONCASTER
- エンジニアの情報発信スキルに動画制作スキルが加わる未来が来る
- 「ブログエンジンを書く」から「いい感じの動画を公開する」へ
- テキストと比べた動画の(発話の)難しさ
- 滑舌や言い間違い、つっかえたり
- Evernote から Notion へ移行した
- Twitter の障害に巻き込まれた
- やっぱり座椅子じゃなくてアーロンチェア買うことにした
ディスカッション
6. Microsoft Variation and Prioritization of Experiments
6.3 Prioritization of Failures
- 普通のリスクアセスメントの考え方だった
6.4 Degree of Variation
もしMicrosoftやAmazonやAakamaiがニュースになるような障害を起こしても顧客はそんなに気にしないかもしれません。彼らは彼らのサービスの回復のみを望むでしょう。
- 契約を変えるか金を出すのか、どちらかの選択肢しかない
- CDN がエッジコンピューティング機能を持つようになってきてるからいろいろと不安感が増してる気がする
- DataDog を使うとどういうふうに依存関係を見れるようになるの
- 分散トレーシングのメトリクスからサービスマップを生成するとかそういう感じで見れる
6.5 Deploying Experiments at Scale
- そもそもだけど、カオスエンジニアリングに取り組む前提になっているのは、監視ができているとかそういう状態なのかな?
- そうだと思う
- 定常状態を定義できることが前提だから
- メトリクスとしてログを見れる人が限定されている環境がほとんどだと思うけどそれってどうなんだという
- それぞれのサービスのログを見れるのはサービスの担当者だけってなってる
- 必要な情報は最近の分なら DataDog に集約して見えるようにしてる
- それぞれのサービスのログを見れるのはサービスの担当者だけってなってる
- 公開されてるカオス実験のレポートって見ないけどログも入ってるのかなぁ
- 障害報告書と同じような構成になるから入ってるんじゃないかな
- システムの内部から見た場合と外部から見た場合で求める粒度が違いそう
6.6 Conclusion
はい
7. LinkedIn Being Mindful of Members
7.1. Learning from Disaster
- 1986 年のチェルノブイリ原子力発電所事故の事例から学びましょう
- カオスエンジニアリングに興味を持った人は皆知っておいた方がいい事例だった
実験は、ユーザーへ影響を与える可能性を最小化するため、安全第一でやらないといけない
7.2. Granularly Targeting Experiments
7.3. Experimenting at Scale, Safely
- 連鎖障害しそうな分散システムで緊急停止ボタンはどうあるべきなんだろう
7.4. In Practice: LinkedOut
- 他の事例だとすごいコストがかかる活動をイメージしがちだったけど、LinkedIn の事例はフレームワークやツールや自動化に触れていてイメージしやすい
- 余剰でやる活動、というより、普通に行う活動に一体化してるのがよい
- 実験することを念頭に設計したフレームワークで開発し、実験することを前提に利用者を考慮したツールを整備する考え方は今後大切になってくる
参考情報
いろいろ並べたけど全部は読めてない。
トピックより
ディスカッションより
- Jaeger
- Kiari
- Introduciong the Service Map in Datadog
- Chaos Engieering Without Observability ... Is Just Chaos
- Nora Jones on Resilience Engineering, Mental Models, and Learning from Incidents
- Architecture Articles | LinkedIn
- A Brief History of Scaling LinkedIn
- Rest.li Filters
- LinkedInのカオスエンジニアリング - "LinkedOut"障害注入テストフレームワーク
- rest.li/r2-disruptor/src/main/java/com/linkedin/r2/disruptor
- 米ハワイ州に警報システム改修の要請、弾道ミサイル誤報で
- ヤフーニュース「野村沙知代さん死去」プッシュ通知乱発で「お詫び」【UPDATE】
- 障害挿入クエリを使用した Amazon Aurora のテスト
- Istio / Docs / Tasks / Traffic Management / Fault Injection