Cat6K 奇偶校验失败和长 SSO 故障转移

网络工程 思科 转变 cisco-6500 故障转移 思科-ios
2021-07-15 01:39:29

在 Cat6K 中,RP crashinfo 指示奇偶校验错误。指导意见似乎是不要做任何事情,除非这种情况在 12 个月内发生不止一次。 您会在什么时候推动 Cisco 更换硬件或 RAM?

检测到缓存错误!
  CPO_ECC(注册 26/0):0x00000064
  CPO_CACHERI (reg 27/0): 0x20000000
  CP0_CAUSE (reg 13/0): 0x00000400

检测到真正的缓存错误。系统将停止。

错误:主指令缓存,字段:数据,
实际物理地址 0x00000000,
虚拟地址不精确。

 不精确的数据奇偶校验错误

 不精确的数据奇偶校验错误

中断异常,CPU 信号 20,PC = 0x41AAE2DC

从活动 SUP720-PFC3B 故障切换到热备用也需要很长时间——18 分钟——w/SSO。**根据我的研究,故障转移时间似乎很长可能是由于故障转储,但我没有看到配置的核心转储。如果没有崩溃转储,即使不是不可能,根本原因也不会很困难。

Cisco 声明了以下故障转移时间。如果没有配置核心转储——没有exception类型命令——为什么 SSO 需要这么长时间(18 分钟)?这段时间我彻底垮了;甚至我活跃的 HSRP VIP 似乎都在一个死的 SUP 上保持活力,而不是移动到另一个 Cat6K;需要更多的日志分析才能确定。

设备从主用 RP 切换到备用 RP 所需的时间在 0 到 3 秒之间。

尽管新的活动处理器在切换后几乎立即接管,但设备重新开始以完全冗余 (SSO) 模式运行所需的时间可能需要几分钟,具体取决于平台。时间长度可能是由于许多因素造成的,包括先前活动的处理器获取崩溃信息、加载代码和微代码以及在处理器之间同步配置所需的时间。

s-oc4-n2-agg1#sh 冗余状态
       我的状态 = 13 -ACTIVE
     对等状态 = 8 -STANDBY HOT
           模式 = 双工
           单位 = 次要
        单位 ID = 6
冗余模式(操作)= sso
冗余模式(已配置)= sso
冗余状态 = sso

     拆分模式 = 禁用
   手动 Swact = 启用
 通讯 = 向上

   客户数 = 62
 client_notification_TMR = 30000 毫秒
          keep_alive TMR = 9000 毫秒
        keep_alive 计数 = 0
    keep_alive 阈值 = 19
           RF 调试掩码 = 0x0
1个回答

您会在什么时候推动 Cisco 更换硬件或 RAM?

每当您觉得无法承受硬件变坏的风险时。单比特奇偶校验错误的发生是因为 Cisco 在 Supervisor 的某些组件中使用了非 ECC 内存。只要偶尔的 3 秒 SSO 故障切换是可以容忍的,就遵循 Cisco 的建议,因为太阳辐射会导致 IOS 中的大多数奇偶校验位故障。

从我的研究来看,减少故障转移时间的唯一选择似乎是完全禁用故障转储;这个对吗?如果没有崩溃转储,即使不是不可能,也很难找到根本原因。

拥有核心转储很棒,但是当您必须找出网络中重复出现的错误的原因时,我只会启用 ftp 核心转储……原因……

  • 核心转储将 RAM 的全部内容发送到磁盘。Cisco IOS 从 MSFC 写入网络的速度非常慢,正如您所注意到的,从具有半 GB(或更多)DRAM 的 RP 进行核心转储需要很长时间。
  • 只有 Cisco IOS 开发人员会关心核心转储(TAC 只会将其附加到案例中,但只有开发人员可以对其进行分析,因为它需要特殊技能)。如果错误的根本原因是已知的,那么引起开发人员的注意就毫无意义……而且每次太阳耀斑事件都遭受 15 分钟的中断是无法付出的沉重代价。
  • 许多故障转移事件是由宇宙辐射的软奇偶校验错误引起的一直等待核心转储是没有用的,因为没有要修复的错误。

顺便说一句,可以在没有核心转储的情况下找到错误的根本原因;Cisco IOS 开发人员始终根据您在 IOS crashinfo 中找到堆栈跟踪来执行此操作另请参阅此示例 crashinfo我在 Cisco Adv Services 中诊断崩溃已有数年之久,crashinfo 是我们隔离大多数 Cisco 漏洞的方法。