网络工程 - Cat6K 奇偶校验失败和长 SSO 故障转移 - 吾爱随笔录

Cat6K 奇偶校验失败和长 SSO 故障转移

网络工程思科转变 cisco-6500 故障转移思科-ios

2021-07-15 01:39:29

在 Cat6K 中，RP crashinfo 指示奇偶校验错误。指导意见似乎是不要做任何事情，除非这种情况在 12 个月内发生不止一次。 您会在什么时候推动 Cisco 更换硬件或 RAM？

检测到缓存错误！
  CPO_ECC（注册 26/0）：0x00000064
  CPO_CACHERI (reg 27/0): 0x20000000
  CP0_CAUSE (reg 13/0): 0x00000400

检测到真正的缓存错误。系统将停止。

错误：主指令缓存，字段：数据，
实际物理地址 0x00000000,
虚拟地址不精确。

 不精确的数据奇偶校验错误

 不精确的数据奇偶校验错误

中断异常，CPU 信号 20，PC = 0x41AAE2DC

从活动 SUP720-PFC3B 故障切换到热备用也需要很长时间——18 分钟——w/SSO。**根据我的研究，故障转移时间似乎很长可能是由于故障转储，但我没有看到配置的核心转储。如果没有崩溃转储，即使不是不可能，根本原因也不会很困难。

Cisco 声明了以下故障转移时间。如果没有配置核心转储——没有exception类型命令——为什么 SSO 需要这么长时间（18 分钟）？这段时间我彻底垮了；甚至我活跃的 HSRP VIP 似乎都在一个死的 SUP 上保持活力，而不是移动到另一个 Cat6K；需要更多的日志分析才能确定。

设备从主用 RP 切换到备用 RP 所需的时间在 0 到 3 秒之间。

尽管新的活动处理器在切换后几乎立即接管，但设备重新开始以完全冗余 (SSO) 模式运行所需的时间可能需要几分钟，具体取决于平台。时间长度可能是由于许多因素造成的，包括先前活动的处理器获取崩溃信息、加载代码和微代码以及在处理器之间同步配置所需的时间。

s-oc4-n2-agg1#sh 冗余状态
       我的状态 = 13 -ACTIVE
     对等状态 = 8 -STANDBY HOT
           模式 = 双工
           单位 = 次要
        单位 ID = 6
冗余模式（操作）= sso
冗余模式（已配置）= sso
冗余状态 = sso

     拆分模式 = 禁用
   手动 Swact = 启用
 通讯 = 向上

   客户数 = 62
 client_notification_TMR = 30000 毫秒
          keep_alive TMR = 9000 毫秒
        keep_alive 计数 = 0
    keep_alive 阈值 = 19
           RF 调试掩码 = 0x0

1个回答

您会在什么时候推动 Cisco 更换硬件或 RAM？

每当您觉得无法承受硬件变坏的风险时。单比特奇偶校验错误的发生是因为 Cisco 在 Supervisor 的某些组件中使用了非 ECC 内存。只要偶尔的 3 秒 SSO 故障切换是可以容忍的，就遵循 Cisco 的建议，因为太阳辐射会导致 IOS 中的大多数奇偶校验位故障。

从我的研究来看，减少故障转移时间的唯一选择似乎是完全禁用故障转储；这个对吗？如果没有崩溃转储，即使不是不可能，也很难找到根本原因。

拥有核心转储很棒，但是当您必须找出网络中重复出现的错误的原因时，我只会启用 ftp 核心转储……原因……

核心转储将 RAM 的全部内容发送到磁盘。Cisco IOS 从 MSFC 写入网络的速度非常慢，正如您所注意到的，从具有半 GB（或更多）DRAM 的 RP 进行核心转储需要很长时间。
只有 Cisco IOS 开发人员会关心核心转储（TAC 只会将其附加到案例中，但只有开发人员可以对其进行分析，因为它需要特殊技能）。如果错误的根本原因是已知的，那么引起开发人员的注意就毫无意义……而且每次太阳耀斑事件都遭受 15 分钟的中断是无法付出的沉重代价。
许多故障转移事件是由宇宙辐射的软奇偶校验错误引起的。一直等待核心转储是没有用的，因为没有要修复的错误。

顺便说一句，可以在没有核心转储的情况下找到错误的根本原因；Cisco IOS 开发人员始终根据您在 IOS crashinfo 中找到的堆栈跟踪来执行此操作。另请参阅此示例 crashinfo。我在 Cisco Adv Services 中诊断崩溃已有数年之久，crashinfo 是我们隔离大多数 Cisco 漏洞的方法。

其它你可能感兴趣的问题

上一篇Cisco IPS - IPS 在什么温度下会停止？下一篇WEP 152 位加密密钥.... 为什么？