개요
관측 가능성 및 모니터링은 운영 중인 시스템의 동작에 대한 깊고 실행 가능한 통찰을 제공합니다. 당사는 개방형 표준을 사용하여 메트릭, 로그, 트레이스라는 세 기둥을 구현하고, 사용자 영향과 연결된 의미 있는 대시보드와 경보를 구축하며, 분산 추적을 마련하여, 장애 중에 추측하는 대신 서비스 전반에서 무엇이 어디서 왜 실패하는지를 찾아낼 수 있도록 합니다.
방법론 및 표준
계측을 위한 OpenTelemetry, 메트릭 및 대시보드를 위한 Prometheus 및 Grafana, 구조화된 로깅 및 분산 추적, 원시 임계값이 아닌 SLO에 부합하는 경보를 따릅니다. AWS, Azure, GCP의 클라우드 네이티브 도구와 함께 작동합니다.
포함 내용
OpenTelemetry 계측을 갖춘 메트릭, 로그, 트레이스
Grafana 또는 기존 플랫폼의 대시보드
서비스 전반의 분산 추적
잡음을 줄이도록 튜닝된 SLO 기반 경보
제공 산출물
메트릭, 로그, 트레이스를 방출하는 계측된 서비스
대시보드 및 SLO에 부합하는 경보
런북 링크 및 온콜 경보 라우팅
업계 표준경영진 보고개선 가이던스재테스트 포함증명서스캐너 덤프 없음
자주 묻는 질문
모니터링은 알려진 문제가 발생했을 때, 예를 들어 서버가 다운되었을 때 알려줍니다. 관측 가능성은 새로운 질문을 하고 예기치 않은 일이 왜 발생하는지를 이해하게 해주며, 메트릭, 로그, 트레이스를 상관시킵니다. 둘 다 필요하며, 시스템이 더 분산될수록 관측 가능성이 더 중요해집니다.
OpenTelemetry는 계측을 위한 개방형, 공급자 중립적 표준입니다. 한 번 계측하면 원하는 백엔드로 데이터를 보낼 수 있고 나중에 재계측 없이 변경할 수 있어 종속을 피합니다. 메트릭, 로그, 트레이스를 위한 가장 안전한 장기 기반입니다.
