Engenharia de confiabilidade de sites (SRE)
Faça da confiabilidade um resultado mensurável e projetado em vez de um combate constante a incêndios.

Visão geral
A engenharia de confiabilidade de sites aplica a engenharia de software à operação para tornar os serviços confiáveis, escaláveis e eficientes. Definimos objetivos de nível de serviço e error budgets que atribuem um número à confiabilidade aceitável, e depois os usamos para equilibrar a entrega de funcionalidades com a estabilidade. Automatizamos o trabalho repetitivo, melhoramos a resposta a incidentes e reduzimos as falhas recorrentes que acordam as equipes às 3 da manhã.
Metodologia & Padrões
Práticas de SRE do Google incluindo SLOs e SLIs, error budgets e redução do trabalho repetitivo, post-mortems sem culpa, e práticas de gestão de incidentes alinhadas ao NIST SP 800-61 para incidentes relevantes para a segurança.
O que está incluído
O que você recebe
Perguntas Frequentes
Um objetivo de nível de serviço é uma meta de confiabilidade, por exemplo, 99,9 por cento das requisições bem-sucedidas. A diferença entre essa meta e 100 por cento constitui seu error budget. Quando o orçamento está saudável, você pode entregar mais rápido; quando está esgotado, você se concentra na estabilidade. Isso transforma a confiabilidade em uma decisão compartilhada e baseada em dados.
Eles se sobrepõem, mas diferem no foco. O DevOps é uma cultura ampla para uma entrega rápida e confiável. O SRE é uma implementação específica, conduzida pela engenharia, da confiabilidade usando SLOs, error budgets e a redução do trabalho repetitivo. Muitas organizações aplicam práticas de SRE dentro de uma abordagem DevOps mais ampla.