Site Reliability Engineering (SRE)
Machen Sie Zuverlässigkeit zu einem messbaren und konzipierten Ergebnis statt zu einem permanenten Kampf gegen Brände.

Überblick
Das Site Reliability Engineering wendet Software-Engineering auf den Betrieb an, um Dienste zuverlässig, skalierbar und effizient zu machen. Wir definieren Service-Level-Ziele und Fehlerbudgets, die die akzeptable Zuverlässigkeit beziffern, und nutzen sie anschließend, um die Auslieferung von Funktionen und die Stabilität auszubalancieren. Wir automatisieren repetitive Aufgaben, verbessern die Reaktion auf Vorfälle und reduzieren die wiederkehrenden Ausfälle, die Teams um 3 Uhr morgens wecken.
Methodik & Standards
SRE-Praktiken von Google, einschließlich der SLOs und SLIs, der Fehlerbudgets und der Reduzierung repetitiver Aufgaben, der schuldfreien Post-Mortems und der an NIST SP 800-61 ausgerichteten Praktiken des Vorfallmanagements für sicherheitsrelevante Vorfälle.
Im Leistungsumfang enthalten
Das erhalten Sie
Häufig gestellte Fragen
Ein Service-Level-Ziel ist ein Zuverlässigkeitsziel, zum Beispiel 99,9 Prozent erfolgreiche Anfragen. Die Lücke zwischen diesem Ziel und 100 Prozent bildet Ihr Fehlerbudget. Wenn das Budget gesund ist, können Sie schneller ausliefern; wenn es erschöpft ist, konzentrieren Sie sich auf Stabilität. Das verwandelt Zuverlässigkeit in eine gemeinsame und datenbasierte Entscheidung.
Sie überschneiden sich, unterscheiden sich aber in ihrer Ausrichtung. DevOps ist eine breite Kultur für eine schnelle und zuverlässige Auslieferung. SRE ist eine spezifische, vom Engineering gesteuerte Umsetzung der Zuverlässigkeit mithilfe der SLOs, der Fehlerbudgets und der Reduzierung repetitiver Aufgaben. Viele Organisationen wenden SRE-Praktiken innerhalb eines breiteren DevOps-Ansatzes an.