当前位置: 首页 > news >正文

SRE:如何提高报警有效性?

为什么要提升<报警有效性>

过多的报警会让负责人麻木
过多的报警会增加短信和电话的成本
提升根因定位效率

如何定义<报警有效性>

不漏报
不误报
不重报
不延报

如何量化

MTTF (Mean Time To Failure,平均无故障时间):平均正常运行时间
MTTR (Mean Time To Repair,平均修复时间):故障发生到故障修复之间的平均值
MTBF (Mean Time Between Failure,平均失效间隔):两次故障之间的平均值
报警次数,有效报警量
漏报次数
重复报警数
故障感知时长
报警认领率

如何提升

服务提升:从源头解决问题,减少报警
阈值合理:故障、预警的阈值都要合理
故障自愈:可以有效降低短信和电话报警次数,减少人工故障处理成本。(但不能依赖)
排除抖动:最常用的方式是连续出现问题再报警
降低维护成本:如规范监控指标,使用统一sdk、脚本等

监控完善&自感知

  • 抓手-分级合理:对监控对象进行分级(如高优服务)、对报警进行分级(严重故障电话报警)。如永久排除非线上环境的机器。
  • 多维度监控完善:业务监控、服务监控、基础监控…
  • 借助程序:自动感知新的服务、新的接口、新的调用关系…(防止系统变更导致漏报)

减少重复报警

  • 报警收敛:如一个集群有多台机器出现问题,就需要收敛
  • 合理设置报警间隔
  • 报警接收人合理:可以设置值班制度+紧急上升
  • 落实责任制:如报警认领率、成本分摊

相关文章:

  • C生万物 | 窥探数组设计的种种陷阱
  • git解决代码冲突问题
  • DefTet
  • 单片机阻塞延时与非阻塞延时(1)
  • Kubernetes 入门
  • 深入探讨YOLOv8 网络架构
  • 【NLP】一种基于联合方式的三元组抽取模型——CasRel
  • 接口自动化测试-python-笔记
  • OpenPPL PPQ量化(3):量化计算图的加载和预处理 源码剖析
  • ES6 简介(二)
  • Spring Boot 最新版3.x 集成 OAuth 2.0实现认证授权服务、第三方应用客户端以及资源服务
  • ESP32开发板Arduino IDE更新指南
  • 【day4】 谷粒商城-前端相关(不全,没认真看)
  • 程序编译的过程
  • Spring由哪些模块组成
  • 单链表反转C语言代码
  • Visual Paradigm 17.X Crack
  • 【微服务】RabbitMQ高级篇
  • Dubbo-----------------项目整合和分析
  • ROS2 入门应用 工作空间
  • 电加热油锅炉工作原理_电加热导油
  • 大型电蒸汽锅炉_工业电阻炉
  • 燃气蒸汽锅炉的分类_大连生物质蒸汽锅炉
  • 天津市维修锅炉_锅炉汽化处理方法
  • 蒸汽汽锅炉厂家_延安锅炉厂家
  • 山西热水锅炉厂家_酒店热水 锅炉
  • 蒸汽锅炉生产厂家_燃油蒸汽发生器
  • 燃煤锅炉烧热水_张家口 淘汰取缔燃煤锅炉
  • 生物质锅炉_炉
  • 锅炉天然气_天燃气热风炉