こんにちは、かたいなかです。
先日開催されたSRE NEXT 2025に参加してきました。
この記事では、特に興味深かったセッションの内容を中心に、参加した感想をまとめます。
SRE NEXT 2025 とは?
信頼性に関するプラクティスに深い関心を持つエンジニアのためのカンファレンスです。 同じくコミュニティベースのSRE勉強会である「SRE Lounge」のメンバーが中心となり運営・開催されます。 SRE NEXT 2025のテーマは「Talk NEXT」です。 SRE NEXT 2023で掲げた価値観 Diversity、Interactivity、Empathyを大切にしつつ、 SREの担う幅広い技術領域のトピックや組織、人材育成に対してディスカッションやコミュニケーションを通じて、 新たな知見や発見を得られる場にします。
(公式サイトより引用)
2025年のSRE NEXTは、7/11(金)、7/12(土)にTOC 有明にて開催されました。
特に興味を惹かれたセッション
以下では特に興味を惹かれたセッションについて感想をまとめます。
招待講演『Fast by Friday: Making performance analysis fast and easy』
Brendan Greggさんが今のビジョンとして取り組まれている、「Fast by Friday」についてのセッションでした。
パフォーマンス関連の問題の調査には数ヶ月かかってしまうこともよくあります。「Fast by Friday」は、そのような状態を脱して、月曜日に問題が発生したら金曜日までに解決することを目指すというものです。
これを実現するために、どうすればよいかや、今現在実装されているツールでどこまでできるのかなどの話をされていました。
印象に残ったのは、スピーディな解決のためには調査ツールや診断方法の準備が重要であることです。これは、自分たちが障害対応を素早く行えるようにする上でも応用できる考え方で、調査を行うツールがすぐ使えるように準備しておくことなど考え直せるところが多いように感じました。
個人的にも、『詳解システムパフォーマンス』の第2版の日本語版が出版される際に、先に英語版を読んでレビュー記事を出したりするほどにはBrendan Greggさんのファンでした。そのため、今回のセッションは非常に楽しみにしていました。2日目終了後にも、懇親会等で直接お話する機会をいただくことができ、感激でした。
『SRE不在の開発チームが障害対応と向き合った100日間』
システム障害対応に関しての知見は書籍や登壇資料などで、すでに界隈で共有されているプラクティスも多いです。この発表では、それらをログラスで実際に適用してみたらどうなったかの事例を紹介していました。
障害対応の様子を見た他部門からの厳しいフィードバックを元に、インシデントコマンダーの専任化や、標準的な障害対応フローの整備、waroomの導入などにより、障害対応に向き合える体制を作っていった記録は実際の記録として大変参考になるものでした。
印象に残ったのは、登壇のなかでお話されていた、プロセス整備だけではうまくいかず、インシデントコマンダーとしてのスキルの向上や、障害対応の文化づくりに地道に取り組んでいく必要性についてのお話のところです。自分たちも、粘り強く、コミュニケーションを重ねながら、障害対応の文化を育てていかねばという思いを強くしました。
また、いきなり全員がインシデントコマンダーができる状態を目指すのではなく、まずは専任のインシデントコマンダーを育て、その人たちが中心となってさらなる組織へのインストールを進めるという動き方は、現実的かつ効果的な方法で参考にしたいです。
『ABEMAの本番環境負荷試験への挑戦』
Abemaで本番環境を利用して負荷試験を行う基盤を整備した話でした。
イベントに合わせて大量のトラフィックや突然のスパイクなどが発生しているAbemaでは、負荷試験などでどの程度の負荷に耐えられるかを検証しておく必要性が大きいです。一方で、システムの複雑性から専用の環境を構築するのは大変なため、負荷試験環境を本番環境を利用して構築するというアプローチをとったそうです。
実現した手法としても、既存の本番環境をもとにマルチテナント化のような手法で負荷試験環境を整備し、KubernetesのOperatorを用いて構築にかかる工数も大きく下げたというのが、先進的で聞いていてとても面白かったです。また、既存で整備されているIstioなどを活用しながら、さらなる価値をもたらす基盤を構築していけるのは価値の積み上げとして理想的だと感じました。
また、ただ基盤を作っただけではなく、本番環境を用いての負荷試験を行う上でのビジネス側との合意形成なども含めて解説されていました。丁寧に仕事を進められている印象で、技術以外にも学べることが大変多かったです。
『ARR150億円、エンジニア140名、27チーム、17プロダクトから始めるSLO』
SmartHRでのSLOの導入の事例の発表でした。
SmartHRでは、高信頼性を求められるプロダクトの増加に伴い、SRE組織の立ち上げやSLOの導入を行ったとのことでした。
SLOの導入にあたっては、徹底的にシンプルに導入する方針で進めたのですが、当初はうまくいかなかったそうです。
これは、SLO違反時にも新機能開発が優先されてしまい、SLO違反に対応するチケットへの取り組みが進まなかったためとのことでした。
その後、大規模障害の苦い経験を経て、開発チーム側でもSLO違反時の対応チケットに取り組む必要性が認識され、対応チケットにも取り組んでもらえるようになったとのことでした。
新機能開発による価値提供に組織としてのフォーカスがあたっている状態で、信頼性の向上に工数を割いてもらうのが難しいというのは、自分の経験でも何度か経験したことがあります。そのため、とても共感できる発表でした。
『SREの次のキャリアの道しるべ 〜SREがマネジメントレイヤーに挑戦して、気づいたこととTips〜』
SREとしてのキャリアを経て執行役員になられた川崎さんによる、SREとしての知見をマネジメントレイヤで活かしていくことについての発表でした。
リスクの管理や失敗からの学びを活かせるようにすることなど、会社全体をひとつのシステムとして捉えて応用することで、SREとしてのプラクティスがマネジメントレイヤでも活かせることを語っていたのが印象的でした。
技術的な事柄にくらべて、マネジメントレイヤでの悩みは外に公開しづらいこともあり、なかなか公に語られることが少ないため、貴重な知見の共有だと感じました。
自分自身のキャリアを考えるうえで参考にさせていただければと思いました。
参加しての感想
セッション以外の、懇親会やアンカンファレンスでも、SLOやSREの組織の立ち上げなどについて、教科書通りにはいかない泥臭いこと等を含めた有意義な議論が活発にされていました。
この2日間で得られた知見を仕事でも活かしていかねばと、SREingに対しての思いを新たにすることができました。
運営にかかわられた皆さん、本当にありがとうございました。