Cisco 7609-S 线卡错误计数器经常超过阈值

网络工程 思科 转变 cisco-7600 错误
2021-07-08 04:28:27

我在 7609-S 上收到以下系统日志消息。

Jun 17 11:52:27.560 BST: %CONST_DIAG-SP-4-ERROR_COUNTER_DATA: ID:47 IN:4 PO:255 RE:169 RM:255 DV:5 EG:2 CF:10 TF:472
Jun 17 11:52:27.560 BST: %CONST_DIAG-SP-4-ERROR_COUNTER_WARNING: Module 6 Error counter exceeds threshold, system operation continue.

插槽6中的卡如下:

router1#show module 6 
Mod Ports Card Type                              Model              Serial No.
--- ----- -------------------------------------- ------------------ -----------
  6   48  SFM-capable 48 port 10/100/1000mb RJ45 WS-X6548-GE-TX     XXXXXXXX

Mod MAC addresses                       Hw    Fw           Sw           Status
--- ---------------------------------- ------ ------------ ------------ -------
  6  000e.d771.8550 to 000e.d771.857f  10.1   7.2(1)       8.7(0.22)FW2 Ok

Mod  Online Diag Status 
---- -------------------
  6  Pass

router1#show ver
Cisco IOS Software, c7600rsp72043_rp Software (c7600rsp72043_rp-ADVENTERPRISEK9-M), Version 12.2(33)SRE3, RELEASE SOFTWARE (fc1)
  • 2013-06-02:我第一次收到这条消息
  • 2013-06-06 : 我又收到消息了,只有一次
  • 2013-06-11 : 我又收到消息了,只有一次
  • 2013-06-17:我今天在 2 小时内收到此消息 3 次

在 Internet 上搜索我看到其他人报告了此问题,这似乎表明即将出现硬件故障。有没有人遇到过这个错误?它只是意味着(据我所知)该线卡收到大量错误,超过某个阈值,导致系统记录系统日志消息。我应该担心这张线路卡吗?

我确实有一些图表,当我在接下来的一两天内有时间显示接口错误计数器和流量等时,我会在此处发布,尽管此时我没有发现太多相关性!

2个回答

您需要使用 Cisco TAC 开一个案例...对类似问题的强制性Cisco 支持论坛参考

如果没有 TAC 支持,也许你能做的最好的事情就是

  1. 重新安装 LC...
  2. 更换液晶...
  3. 升级IOS并祈祷这是一个错误......

进行维护时,请确保 LC 上的螺钉紧贴……松动的螺钉可能会导致比您想象的更多的问题(想想重复的加热/冷却循环会使 LC 松动)

最坏的情况,你的硬件坏了
最好的情况,它是由于软件缺陷导致的外观故障,幸运的是你在 SRE 中,它将在 2015 年之前得到支持,所以也许将它升级到最新的重建。

有两个 bugID 会以非常温和的方式导致此错误。

  • CSCsk03373,由于大数据包,在SXH中修复
  • CSCsw32280,由于 CRC 错误,已在 SXH 中修复

您可能应该检查“显示诊断事件”,它应该与这些消息相关联。

GOLD 为我们提供了“TestErrorCounterMonitor”的描述,它为我们提供了一些关于理解消息的数据

ID -- Asic Identification
IN -- Asic Instance
PO -- Asic Port Number
RE -- Register Identification
RM -- Register Identification More
EG -- Error Group
DV -- Delta Value
CF -- Consecutive Failure
TF -- Total Failure

不幸的是,我没有 CEF256 卡,因此我无法检查它是哪种 ASIC,但您应该可以通过以下方式进行检查:

远程命令开关显示平台硬件 asic-versions | 我 47

IN将是哪一个ASIC,我猜因为至少有4个,它是“巅峰”ASIC,它是CEF256中的端口ASIC,因为我不认为CEF256有4个任何其他ASIC .

如果它是巅峰,您应该能够使用“sh int capabilities module X”和“sh int X capabilities”来确定哪些端口正在共享第 4 个端口 ASIC。

然而,由于“ASIC 端口号”是 255,这似乎与“巅峰”相矛盾,因为没有物理端口会有这个数字。
卡中有一些特殊的端口,如 EOBC、RBUS、DBUS 和结构。不幸的是,我不知道 255 是什么意思,它可能意味着这些特殊端口中的一些,它可能只是占位符值。

如果“完全失败”或 TF 与接口 CRC 错误相关,则可能是 CSCsw32280,otoh CSCsw32280 应显示合理的 PO 编号。

如果其他一切都失败了,请为该卡购买一年的智能网。我很好奇您在解决这个问题时是否会回答自己的问题,以了解根本原因是什么。尤其是如果您能找出端口 255 是什么。