假设发生了需要立即响应的事件,例如通过电子邮件爆发的病毒、Cryptolocker 主动加密文件或 DOS 攻击。
我应该如何以一种不仅在我们的客户(SLA 等)方面受到重视,而且受到各级管理层和我的同行的积极评价的方式来处理这个问题?
我想有以下几个阶段:
- 鉴别
- 遏制
- 整治
有时,一个事件需要我们回溯并重新识别问题,(例如,它不是 Web 服务器问题,而是 DOS 攻击),并且通常一个好心的技术人员会处理重叠的任务,可能无济于事,或者更糟的是,它们可能会阻碍其他问题。(例如,在与生产相同的 LUN 上进行 SAN 还原,从而扼杀性能)
问题
由于解决问题通常有很多活动部分,我可以查看哪些流程来获得指导,以使遏制和补救流程更加结构化?
我能想到的一些事情包括:
- 识别受影响的用户、业务利益相关者
- 确定正在研究解决方案的人员和供应商
- 在从事解决方案的人员和供应商之间交流任务和所有任务的状态
- 分享受众适当的状态(帮助台、管理、执行)
应该有某种已经编写的指导来解决这个问题,例如在某种“运行手册”中,但我不确定它会被称为什么。搜索词将不胜感激