Health metrics and diagnostic metrics
Health metrics
- Answers the question: Am I failing?
- Does not answer the question: Why am I failing?
- Always set alarms on these
- Be conservative in defining
Diagnostic metrics
- Answers the question: What is the value of this thing I measured?
- Might answer the question: Why isn’t my system working?
- Sometimes set alarms on these
- Be liberal in defining
어떤 지표를 골라야 하는가
- Average is not resistant to outliners
- An average statistic doesn’t give you information about anybody’s experiences, because the outliner can throw it way off
- 50th percentile = median. 절반은 이것보다 느리고, 절반은 이것보다 빠르다.
- 99th percentile = slowest. Amazon 스케일에서는 99.9, 99.99를 사용한다. 시스템의 스케일에 따라서 사용하는 percentile은 다르게 보는 것이 좋다.
적은 양의 실패 지표
- 3~5분에 한 번 실패하는 그래프가 있다고 해보자. 아무 것도 실패하지 않을 때 아무 것도 보내지 않으면, 시스템이 정상적으로 작동하고 있는지를 알 수 없다. 이 경우, 아무 것도 관측할 데이터가 없으면 0을 전송해라. No data 알람을 걸 수 있다.
출처: AWS re:Invent 2019: [REPEAT 1] Amazon’s approach to failing successfully (DOP208-R1)