All Articles

Health metrics and diagnostic metrics

Health metrics and diagnostic metrics

Health metrics

  • Answers the question: Am I failing?
  • Does not answer the question: Why am I failing?
  • Always set alarms on these
  • Be conservative in defining

Diagnostic metrics

  • Answers the question: What is the value of this thing I measured?
  • Might answer the question: Why isn’t my system working?
  • Sometimes set alarms on these
  • Be liberal in defining

어떤 지표를 골라야 하는가

  • Average is not resistant to outliners
  • An average statistic doesn’t give you information about anybody’s experiences, because the outliner can throw it way off
  • 50th percentile = median. 절반은 이것보다 느리고, 절반은 이것보다 빠르다.
  • 99th percentile = slowest. Amazon 스케일에서는 99.9, 99.99를 사용한다. 시스템의 스케일에 따라서 사용하는 percentile은 다르게 보는 것이 좋다.

적은 양의 실패 지표

  • 3~5분에 한 번 실패하는 그래프가 있다고 해보자. 아무 것도 실패하지 않을 때 아무 것도 보내지 않으면, 시스템이 정상적으로 작동하고 있는지를 알 수 없다. 이 경우, 아무 것도 관측할 데이터가 없으면 0을 전송해라. No data 알람을 걸 수 있다.

출처: AWS re:Invent 2019: [REPEAT 1] Amazon’s approach to failing successfully (DOP208-R1)