SREの支援だけでなく、自社には無い知見を得ながらエンジニアリングを改善できる
「シゴトでココロオドルひとをふやす」をミッションにビジネスSNS「Wantedly」を提供するウォンテッドリー株式会社(以下 Wantedly)。個人向けには会社訪問アプリ「Wantedly Visit」とつながり管理アプリ「Wantedly People」を、企業向けには採用サービスとエンケージメントサービスとしてオンライン社内報「Story」、チームマネジメントサービス「Pulse」、福利厚生「Perk」を提供しています。各プロダクトのプラットフォーム構築やプロダクトの信頼性を高めるSRE領域の業務を担当し、Wantedly全サービスの裏側を支えるInfrastructure Squadリーダー 齋藤悠一さんは、SREにおける2つの課題を抱えていたと語ります。課題解決に向けてSRE as a Serviceを利用した同社で、どのような効果があったかを伺いました。
「SREを重視する文化」を持つ企業がゆえの課題とは
SREへの社内の認識や、浸透度合いについてお聞かせください。
齋藤:SREは企業によって温度差が激しく、新たなプロダクトを次々と生み出すことが優先されるがあまり信頼性が疎かになってしまう企業や、SREの重要性を理解しているものの実行に移せないという企業も少なくありません。その点、WantedlyはSREの重要性が組織に理解されており、プロダクトの信頼性が損なわれれば開発をいったん止めてでも信頼性の回復のためにエンジニアリングソースを割いたり、また逆に信頼性を満たす範囲で高速にプロダクトのリリースを行ったりと、開発速度と信頼性のトレードオフを考慮しつつプロダクトやシステムの改善を進めることができています。またSREの領域に協力してくれるメンバーも多く、SREを重視する文化が形成されつつある状態です。
文化形成がなされている環境下で、どのような課題を抱えていたのでしょうか?
齋藤:SREに関しては2つの課題がありました。1つは、人員不足が原因でSREの優先度を高められないという問題です。開発組織が50人規模なのに対しSRE as a Service採用以前はInfrastructure Squadのメンバーが3人(2021年10月現在6名)しかおらず、またSRE以外に社内ネットワーク構築などの情報システム領域の業務も受け持っていたため、緊急度の高いタスクに追われSREに充てられる時間もマンパワーも不足していました。プロダクトを伸ばしていくために必要なプラットフォームの改善や生産性の向上に対して、先回りして対処したいのにできない状況でした。
2つ目の課題は?
齋藤:もう1つは将来的なSREの戦略立案です。SREを重視する社内文化が醸成されている環境でさらにもう一歩、全社的にSREを進めていくうえで欠かせない、方針やビジョンを確立できていない状態でした。
すでにSREのカルチャーがあるからこその課題ですね。
齋藤:社内のメンバーとSREについてディスカッションしたり、私や他のメンバーも個人的に気になった企業のSRE担当者や、知り合いのエンジニアに直接話を聞くなど、社外のSREについて情報収集を行っていましたが、自社のSREのカルチャーをフィードバックした意見を得るのは難しく、方向性は示せても「本当にこの方向性で正しいのか?」という確証が持てなかったのです。社外のSREの経験者から第三者視点のフィードバックをもらいながら、着実によい方向へと進めていきたいけれど、どこに相談を持ちかけたらいいのだろうか?という悩みも抱えていました。
SRE as a Serviceを知ったのは、ちょうどそのころだったのですね。確か、Twitterで川崎様からDMをいただきました。
齋藤:採用で人員を増やしたり、外部のSRE経験が豊富な方に外部講師を依頼したり、アドバイザーとして加わってもらおうかと考えていました。そのタイミングで、TopotalさんがSRE as a Serviceのサービス開始したことをCTOの川崎が知り、私たちが抱えている課題とマッチしそうだったので、話を伺うことになりました。
SREに限った話ではありませんが、あらゆる組織においてその組織内だけで知識を蓄積していくと、組織変革のフェーズではバイアスになってしまい、成長の機会が失われるケースがよくあります。採用や外部の講師を招くことで外部の知識を取り入れながら、「社内文化」として少しずつアップデートしていく必要があると思うのです。
その観点から、さまざまな企業でのSREの経験と知識を持つスペシャリストのような人から知識を受け取れること、さらにSREの改善だけにとどまらず自分を含めたInfrastructure Squad全体、また開発組織メンバーの育成機会を作る観点でも、SRE as a Serviceがよさそうだということで採用を決めました。
SRE as a Serviceを通じて、障害対応に対するマインドセットが変わった
SRE as a Serviceを利用したプロジェクトで、印象に残っているものはありますか?
齋藤:SRE as a Serviceで取り組んでもらった大きなプロジェクトに、障害対応フローの構築があります。現状は障害対応が発生した際、Infrastructure Squadのメンバーが障害を検知してプロダクトチームへとエスカレーションし、障害対応を専門とするチームとプロダクトチームが一緒に障害を解消する体制になっています。この体制では、組織のスケールについていけないと思っていて。
その理由はどういったことでしょうか?
齋藤:すべてのプロダクトにInfrastructure Squadは関わっているものの、個々のプロダクトに対する知識はやはり限定的になります。いろいろなマイクロサービスなどが生まれ、日々変化するシステムをすべて把握するのは難しいものがあります。そのため、障害を素早く解消するには、プロダクトを一から理解しているプロダクトチームが障害に気付いて対応することが重要だと思っています。
単に障害対応のフロントをプロダクトチームが担当するだけではなく開発からリリース、その後の運用までのすべてのサイクル(Software Development Life Cycle:SDLC)を単一のチームで担うのが、プロダクトの信頼性を上げつつ素早くプロダクトを作っていくうえで理想的な構造だと考えています。
障害対応やサービスの信頼性に責任を持つという意識をプロダクトチームに根づかせるためには、エンジニア全体の障害対応スキルを向上させること、誰が担当しても素早く解消できる均一のオペレーションフローを構築することが必要です。そしてその実現にはSREのプラクティスが重要です。
Topotalさんには、目の前の目的にとどまらず、将来像の枠組みについてもディスカッションをしながら、障害対応のフローを明確にしてツールに落とし込んでもらいました。SREの知見も申し分なく、ツールはうまくワークしています。
利用後、どのような変化を感じられましたか?
齋藤:これまでは、障害対応時にコマンダー(司令塔)を立てるべきという認知が薄かったのですが、障害対応フローの確立と支援ツールができたことで、障害対応の全体像が把握できるようになり、効率よく障害対応を行えるようになりました。改善されたフローや導入したツールは障害対応にあたるエンジニア全体に認知され、障害対応に対するマインドセットも変わり、行動も変わるところが見えたのが大きな変化でした。僕たちが目指していきたい世界に着実に進んでいるという実感をしています。
もともとの狙いとして、外部の知見や外部の開発者のナレッジをチームメンバーに還元することで、SREの仕事だけではなく、各個人のメンバーの能力を向上させていきたいという狙いもありました。実際にメンバーとディスカッションしてみると、Wantedlyにはない新たな視点を得られるだけでなく、技術やエンジニアリング全般への考え方に対して、いいフィードバックをもらえて、「Topotalさんと話していて、刺激的になってとてもいい」という話も聞きました。エンジニアとしての成長機会を増やす効果もかなりあったと思ってます。
ディスカッションを通じて「今後やっていくべきこと」の解像度が上がる
齋藤さんご自身のことで、変化を感じた点はありましたか?
齋藤:私も、エンジニアとしての歴はWantedlyに入社してからだったのでまだ5〜6年で、SREというコンテキストで仕事をし始めたのもここ数年でした。またWantedly自体が若いメンバーで形成されている組織ということもあって、大きな企業にはどんな組織があって、発生した問題をどう解決していったかという知見を持ち合わせていませんでした。そこが私の成長機会を阻害していた部分でもあったかなと思っていて。他のチームメンバーと同じようにTopotalさんとのディスカッションを通じて、不足していた情報がかなりよく分かってきて、そこからWantedlyで今後やっていくべきことの解像度がかなり上がったと実感しています。
「Topotalでよかった」と思えたエピソードがあればお聞かせください。
齋藤:私たちが携わっているSRE業務への理解はもとより、社内の状況やSREのカルチャーをより深く浸透させていくことを重視する背景もちゃんと理解したうえで、SREという仕事自体がよりよいものになっていくためにはこういうやり方をしたらいいんじゃないかとか、タスクだったりプロジェクトに対してこういうアプローチで解決するのがよさそう、といったアドバイスをしてもらえるところが、SRE as a Serviceでなかったら得られなかったのではと感じています。
SRE as a Serviceに、今後期待することを教えてください。
齋藤:私たちは、社内全体にSREの取り組みを拡大して、プロダクトの生産性も信頼性も向上することを実現したいと考えています。そのために、Topotalさんの知識や経験を活かしながらプロダクティブな施策に対しても協力してもらい、SREを社内にいっそう浸透させ、より一歩踏み込んだタスクも一緒に進められたらと思っています。
お問い合わせ