Name: sre-practices
Rating: 78
Author: forwardimpact

--- frontmatter

name: sre-practices
description: |
  Guide for ensuring system reliability through observability, incident
  response, and capacity planning. Use when designing monitoring, handling
  incidents, setting SLOs, or improving system resilience.

sre-practices

Site Reliability Engineering

Stage Guidance

Plan Stage

Code Stage

Review Stage

Reference

Service Level Concepts

SLI (Service Level Indicator)

SLO (Service Level Objective)

Error Budget

Observability

Three Pillars

Alerting Principles

Incident Response

Incident Lifecycle

During an Incident

Post-Mortem Process

Blameless Culture

Post-Mortem Template

Resilience Patterns