エンジニアリングサービス

SRE as a Service

Embedded SRE for customers

SRE の実践を支援する

サービスの価値を最大限に引き出すためのエンジニアリングを提供します。 SRE のワークフローをもとに、DevOps フィードバックループの高速化に必要な仕組みの導入を支援します。 大規模サービスの運用実績のある SRE チームが、インフラレイヤだけでなくアプリケーションレイヤにも踏み込みながら改善に取り組みます。

活用事例

ECSに移行しながら開発チームを巻き込んでSREを実践できた
2024/05/20
株式会社FiT
エンジニア組織をより強くするために、SREのスペシャリストと改善に取り組む
2023/05/11
株式会社 Gunosy
開発チームに権限移譲する組織モデルを目指して
2023/01/19
株式会社 ROBOT PAYMENT
スタートアップに必要な SRE の仕組みを作ってくれた
2022/10/24
株式会社 mikan
常に SRE チームの内製化を考えてくれていた
2022/09/30
株式会社 EventHub
SREの支援だけでなく、自社には無い知見を得ながらエンジニアリングを改善できる
2021/12/20
Wantedly

支援実績

各領域の支援内容

Containerization
コンテナ化は、環境差異の解消と迅速なデプロイを実現するための基盤となります。導入フェーズから本番運用の改善まで、お客様のニーズに合わせた設計・実装を支援します。
支援内容
Dockerfile の作成・変更
コンテナレジストリの構築(ex. ECR、GCR を用いたプライベートコンテナレジストリの構築)
Twelve-Factor App に基づいた既存アプリの変更支援(ex. 環境変数への切り出しや依存関係の明確化など)
Infrastructure as Code
インフラをコードで管理することで、差分管理・再利用・人為的ミスの削減が実現できます。ゼロからのコード化からベストプラクティスに沿ったリファクタリングまで幅広く支援します。
支援内容
Terraform、Ansible、Itamae を用いたインフラのコード化
API ベースのインフラ自動化
イベント駆動のオートスケール
Orchestration
複数のコンテナやクラウドリソースを効率的に管理するには、オーケストレーションの仕組みが不可欠です。Auto Scaling やマネージド Kubernetes サービスを活用した設計・構築を支援します。
支援内容
AWS、GCP、Azure におけるオートスケールの実装支援
ECS、EKS、AKS、GKE の設計・構築・設定支援
Helm、Kustomize を用いた構成管理
サービスメッシュ導入支援
CI / CD
新しいコードをより早く、より少ないリスクで本番環境に反映するために CI/CD は不可欠です。パイプラインの自動化からデプロイ手法の改善・負荷テストの組み込みまで支援します。
支援内容
CI/CD パイプラインの自動化(ex. Jenkins、Github Actions、CodeBuild、ArgoCD)
無停止デプロイの設計・実装支援(ex. Blue-Green Deployment、Rolling Deployment)
負荷テスト環境の設計・構築支援(ex. artillery、mysqlslap)
Security
クラウドネイティブ環境の普及に伴い、セキュリティの設計・実装はますます複雑になっています。脆弱性対策から権限管理まで、様々な環境に対してセキュリティの設計・実装を支援します。
支援内容
脆弱性スキャン(ex. Trivy、Dependabot、Vuls)
IPS/IDS、WAF、ウィルススキャンソフトの導入(ex. Trend Micro Cloud One、CloudFlare WAF、WafCharm)
監査証跡の設計・導入(ex. Auditbeat、Falco、CloudTrail)
ABAC や RBAC の適切な権限設定支援(ex. AWS IAM、Cloud IAM、Azure RBAC)
Observability
システムで何が起きているかを把握し、トラブル時に迅速に原因を特定するために Observability は不可欠です。メトリクス収集からログ分析・アラート管理まで、お客様の環境に合わせたプラットフォームの設計・構築を支援します。
支援内容
監視・メトリクス収集(ex. Prometheus、Datadog、CloudWatch)
アラートマネジメント(ex. Alertmanager、Pagerduty)
APM(Application Performance Management)の導入(ex. New Relic、Scout APM)
ログ集約、管理、分析基盤の設計・構築(ex. BigQuery、Athena、Elastic Stack、Glue、Kinesis、Fluentd)
SLI / SLO
サービスの信頼性を定量的に管理するための指標(SLI)と目標(SLO)を設計・導入し、エラーバジェットを起点にした継続的な改善サイクルの実現を支援します。
支援内容
サービス特性に合わせた SLI の定義(可用性・レイテンシ・エラーレートなど)
SLO の数値目標策定とエラーバジェットポリシーの設計
既存の Observability 基盤との連携による SLO ダッシュボードの構築
SLO レビュー運用フローの整備
Capacity Planning
SLO を維持するために必要なリソース量を定義・管理し、負荷テストや自動スケーリングを活用した、コスト効率の高いキャパシティ管理の実現を支援します。
支援内容
負荷テストによるボトルネックの特定とキャパシティ限界値の把握
SLI / SLO に基づく可用性維持に必要なキャパシティの定義
Kubernetes などを活用した自動スケーリングによる短期的負荷への対応
過剰プロビジョニングの見直しによるコスト最適化
無料で相談する