エンジニアリングサービス

SRE as a Service

Embedded SRE for customers

SRE の実践を支援する

サービスの価値を最大限に引き出すためのエンジニアリングを提供します。 SRE のワークフローをもとに、DevOps フィードバックループの高速化に必要な仕組みの導入を支援します。大規模サービスの運用実績のある SRE チームが、インフラレイヤだけでなくアプリケーションレイヤにも踏み込みながら改善に取り組みます。

活用事例

ECSに移行しながら開発チームを巻き込んでSREを実践できた

2024/05/20

株式会社FiT 様

エンジニア組織をより強くするために、SREのスペシャリストと改善に取り組む

2023/05/11

株式会社 Gunosy 様

開発チームに権限移譲する組織モデルを目指して

2023/01/19

株式会社 ROBOT PAYMENT 様

スタートアップに必要な SRE の仕組みを作ってくれた

2022/10/24

株式会社 mikan 様

常に SRE チームの内製化を考えてくれていた

2022/09/30

株式会社 EventHub 様

SREの支援だけでなく、自社には無い知見を得ながらエンジニアリングを改善できる

2021/12/20

Wantedly 様

支援実績

各領域の支援内容

Containerization

コンテナ化は、環境差異の解消と迅速なデプロイを実現するための基盤となります。導入フェーズから本番運用の改善まで、お客様のニーズに合わせた設計・実装を支援します。

支援内容

Dockerfile の作成・変更

コンテナレジストリの構築（ex. ECR、GCR を用いたプライベートコンテナレジストリの構築）

Twelve-Factor App に基づいた既存アプリの変更支援（ex. 環境変数への切り出しや依存関係の明確化など）

Infrastructure as Code

インフラをコードで管理することで、差分管理・再利用・人為的ミスの削減が実現できます。ゼロからのコード化からベストプラクティスに沿ったリファクタリングまで幅広く支援します。

支援内容

Terraform、Ansible、Itamae を用いたインフラのコード化

API ベースのインフラ自動化

イベント駆動のオートスケール

Orchestration

複数のコンテナやクラウドリソースを効率的に管理するには、オーケストレーションの仕組みが不可欠です。Auto Scaling やマネージド Kubernetes サービスを活用した設計・構築を支援します。

支援内容

AWS、GCP、Azure におけるオートスケールの実装支援

ECS、EKS、AKS、GKE の設計・構築・設定支援

Helm、Kustomize を用いた構成管理

サービスメッシュ導入支援

CI / CD

新しいコードをより早く、より少ないリスクで本番環境に反映するために CI/CD は不可欠です。パイプラインの自動化からデプロイ手法の改善・負荷テストの組み込みまで支援します。

支援内容

CI/CD パイプラインの自動化（ex. Jenkins、Github Actions、CodeBuild、ArgoCD）

無停止デプロイの設計・実装支援（ex. Blue-Green Deployment、Rolling Deployment）

負荷テスト環境の設計・構築支援（ex. artillery、mysqlslap）

Security

クラウドネイティブ環境の普及に伴い、セキュリティの設計・実装はますます複雑になっています。脆弱性対策から権限管理まで、様々な環境に対してセキュリティの設計・実装を支援します。

支援内容

脆弱性スキャン（ex. Trivy、Dependabot、Vuls）

IPS/IDS、WAF、ウィルススキャンソフトの導入（ex. Trend Micro Cloud One、CloudFlare WAF、WafCharm）

監査証跡の設計・導入（ex. Auditbeat、Falco、CloudTrail）

ABAC や RBAC の適切な権限設定支援（ex. AWS IAM、Cloud IAM、Azure RBAC）

Observability

システムで何が起きているかを把握し、トラブル時に迅速に原因を特定するために Observability は不可欠です。メトリクス収集からログ分析・アラート管理まで、お客様の環境に合わせたプラットフォームの設計・構築を支援します。

支援内容

監視・メトリクス収集（ex. Prometheus、Datadog、CloudWatch）

アラートマネジメント（ex. Alertmanager、Pagerduty）

APM（Application Performance Management）の導入（ex. New Relic、Scout APM）

ログ集約、管理、分析基盤の設計・構築（ex. BigQuery、Athena、Elastic Stack、Glue、Kinesis、Fluentd）

SLI / SLO

サービスの信頼性を定量的に管理するための指標（SLI）と目標（SLO）を設計・導入し、エラーバジェットを起点にした継続的な改善サイクルの実現を支援します。

支援内容

サービス特性に合わせた SLI の定義（可用性・レイテンシ・エラーレートなど）

SLO の数値目標策定とエラーバジェットポリシーの設計

既存の Observability 基盤との連携による SLO ダッシュボードの構築

SLO レビュー運用フローの整備

Capacity Planning

SLO を維持するために必要なリソース量を定義・管理し、負荷テストや自動スケーリングを活用した、コスト効率の高いキャパシティ管理の実現を支援します。

支援内容

負荷テストによるボトルネックの特定とキャパシティ限界値の把握

SLI / SLO に基づく可用性維持に必要なキャパシティの定義

Kubernetes などを活用した自動スケーリングによる短期的負荷への対応

過剰プロビジョニングの見直しによるコスト最適化

無料で相談する