故障上报及处理规范

作者:卫珍佑 于 2020年07月09日 发布在分类/ 项目规范

故障处理流程图


一、故障上报:

1、故障定义

生产环境影响业务再小的问题也是故障不影响业务再大的问题也是Bug

2、故障发现

故障发现人发现故障后,必须立即反馈至指定线上故障群【彩食鲜-线上故障上报群】

      并向运维人和小分队负责人提出故障描述

     (对发现故障的人会进行相应积分奖励)

故障等级

P1

P2

P3

P4

奖励积分

5分

4分

3分

2分

3、故障上报     

小分队leader,技术负责人, 开发人员等第一时间上报给运维人员来处理!

4、上报途径: 

  •    飞书故障上报群,群名:“彩食鲜-线上故障上报群,紧急汇报

  •     故障处理完毕,必须填写飞书共享文档(存档)线上故障列表   

5、上报哪些信息:

故障详细描述 (时间、事件、产品、对应小分队负责人、故障详情、故障处理方案)

6、上报时效要求

故障发生10分钟内必须上报

二、故障处理:

1、临时解决方案: 

  • 操作人:   运维团队

  • 解决方式:1、调整内存参数大小并重启服务;2、回滚代码

  • 解决时间:接到报警消息,立即处理!

2、最终解决方案:

    (没有按时解决,周会上上报)

  • 解决方案: 由技术负责人来制定方案

  • 解决时间:由技术负责人来定最终解决时间

  • 解决人:  由技术负责人来指定谁来解决

  • 跟进人:  技术管理团队、项目管理团队

三、故障分析与定责:

1故障原因分析?  

  • 人为原因:人为因素导致的故障

  • 程序BUG:代码逻辑问题或者基础架构导致的故障

  • 其他原因:网络抖动或者第三方服务等其他原因

2故障等级划分?  

(主要依据为:对线上业务稳定性的影响多大)

  • 故障定级,由运维团和技术负责人共同确定。

  • 故障等级划分标准:根据应用等级和应用中断时长定级。

故障级别划分表:

服务级别P4(一般事故)P3(严重事故)P2(重大事故)P1(特大事故)
一级应用1-3分钟3-10分钟10-30分钟30分钟以上
二级应用5-10分钟10-30分钟30-60分钟60分钟以上
三级应用10-30分钟30-60分钟60分钟以上不适用


应用级别划分表:

划分逻辑应用级别包含应用
基础服务一级应用主数据,用户中心,订单号服务,系统管理,
业务系统二级应用仓储管理(wms),商超,BBC,NCRM,企业购,供应商协同,综合结算,成本核算,运费管理,财务中心,工厂,供应链(SCM),销售对账(SSS)
支撑系统三级应用报表系统,数据中心,报价


3责任人评定?     

  • 第一责任人(小分队Leader)

  • 第二责任人(由小分队leader根据实际情况定责)

、故障复盘:

1、复盘时间

  • 线上故障被定级为P1和P2级别时需要小分队Leader主动与Alex进行故障复盘汇报

2、复盘目的

  • 故障发生原因

  • 如何解决的故障

  • 如何防范故障再次发生

3、复盘报告归档

  • 复盘报告由技术负责人统一进行汇总并归档飞书文档(故障复盘共享目录) 

  • 复盘报告需要以邮件形式发送至技术管理小分队Leader(车江毅)及CTO(Alex)

4、复盘模板   

五、故障考核:

1、故障等级扣分标准

   积分列表 

  • P1级别的故障:扣 10

  • P2级别的故障:扣 8

  • P3级别的故障:扣 6

  • P4级别的故障:扣 4 分

 #积分作用待定

六,总结

   1,不管什么渠道发现的问题,必须立即上报

   2,运维人员收到报警信息紧急恢复业务正常运行

   3,由技术负责人分析原因并制定详细的优化方案及完成的时间

   4,由小分队Leader汇总故障,归档至飞书文档并向技术管理Leader(车江毅)、CTO(Alex)复盘

   5,技术管理小分队会不断改进、优化现有服务架构,同时监督故障处理进度

   6,最终的目的是为了提供更优秀的、更加有竞争力的服务


分享到朋友圈 分享到微信
发表评论
验证码