4507r Supervisor 引擎没有冗余运行

网络工程 思科 思科-ios cisco催化剂 cisco 命令 冗余
2021-07-12 05:02:35

tl; dr:我在 4507r 中有两个管理引擎,但是当活动模块死机时,备用单元似乎没有准备好执行。

周日,我遇到了一个似乎与 ISP 相关的网络问题。我可以连接到 VPN,但互联网流量很慢,大约 500 Kbps。我最终发现这是我们 LAN 上的问题。没有交换机日志文件指出明显的原因,所以我重新启动了交换机,从 4507R 开始。几分钟后它没有恢复。当我检查它时,“状态”灯是红色的,它下面的监控模块没有激活。长话短说,只需重新安装活动刀片就足以让它再次运行。我仍然想确保备用单元可以接管。它似乎不能。

show version

core#sh ver
...
IOS (tm) Catalyst 4000 L3 Switch Software (cat4000-IS-M), Version 12.1(12c)EW1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1)
...
Image text-base: 0x00000000, data-base: 0x00CA7368

ROM: 12.1(12r)EW
Dagobah Revision 63, Swamp Revision 24

core uptime is 5 days, 13 hours, 16 minutes
System returned to ROM by power-on
System restarted at 05:53:53 EST Sun Dec 16 2018
System image file is "bootflash:cat4000-is-mz.121-12c.EW1.bin"

cisco WS-C4507R (XPC8245) processor (revision 5) with 524288K bytes of memory.
Processor board ID FOX06381MAH
Last reset from PowerUp
76 Gigabit Ethernet/IEEE 802.3 interface(s)
403K bytes of non-volatile configuration memory.

Configuration register is 0x2102

sh mod 显示插槽 2 中的备用主管,但在显示 MAC 地址和 SW/FW 版本的第二个表中没有报告数据。

core#sh mod

Mod  Ports Card Type                              Model             Serial No.
----+-----+--------------------------------------+-----------------+-----------
 1      2  1000BaseX (GBIC) Supervisor(active)    WS-X4515          JAB0704058G
 2         Standby Supervisor
 3     18  1000BaseX (GBIC)                       WS-X4418-GB       JAE065100XB
 4     48  10/100/1000BaseTX (RJ45)               WS-X4448-GB-RJ45  JAE10191Q4Q
 5         Seeprom Not Programmed
 7      6  1000BaseX (GBIC)                       WS-X4306-GB       JAE0838VVQK

 M MAC addresses                    Hw  Fw           Sw               Status
--+--------------------------------+---+------------+----------------+---------
 1 000b.fdd5.3ec0 to 000b.fdd5.3ec1 1.2 12.1(12r)EW  12.1(12c)EW1, EA Ok
 2 Unknown                              Unknown      Unknown          Other
 3 0009.7ceb.9624 to 0009.7ceb.9635 1.1                               Ok
 4 0017.957a.ca70 to 0017.957a.ca9f 1.2                               Ok
 5 Seeprom Not Programmed
 7 000f.2494.dddc to 000f.2494.dde1 2.2                               Ok

show redundancy states 显示备用模块已禁用。

core#sh redundancy states
       my state = 13 -ACTIVE
     peer state = 1  -DISABLED
           Mode = Simplex
           Unit = Primary
        Unit ID = 1

Redundancy Mode (Operational) = RPR
Redundancy Mode (Configured)  = RPR
     Split Mode = Disabled
   Manual Swact = Disabled  Reason: Simplex mode
 Communications = Down      Reason: Simplex mode

   client count = 4
 client_notification_TMR = 30000 milliseconds
          keep_alive TMR = 9000 milliseconds
        keep_alive count = 0
    keep_alive threshold = 18
           RF debug mask = 0x0

但是“启动配置”(和运行)显示了与冗余相关的命令。

redundancy
 mode rpr
 main-cpu
  auto-sync standard

唯一的本地文件系统是“bootflash”。任一模块上均未安装 CF 卡。

core#dir /all /rec
Directory of bootflash:/*

    1  -rw-     8150628   Apr 04 2002 08:42:15  cat4000-is-mz.121-12c.EW1.bin
    2  -rw-     6088068   Apr 04 2002 08:47:32  k2diags.2-0-1.bin
    3  -rw-       10648   Aug 03 2004 15:34:49  y
    4  -rw-       10648   Aug 03 2004 15:37:59  n
    5  -rw-       10648   Aug 03 2004 15:45:37  test

“startup-config”显示交换机将从“cat4000-is-mz.121-12c.EW1.bin”文件启动。

boot system bootflash:cat4000-is-mz.121-12c.EW1.bin

我读过的一些 Cisco 文档没有说明如何查看备用模块从哪个软件映像启动。如果没有“slaveslot”,那么它是否恢复到bootflash中的BIN文件?

在我的故障排除过程中,当我将备用模块移到插槽 1 时,4507 启动到“rommon”提示。我在插槽 1 中安装了一个备用监控器 (WS-X4515),它具有我们另一个 4507 的配置,但不是可在本机上使用。

我想将启动配置推送到从模块 - 或者确保配置已经存在 - 并测试执行redundancy force-switchover以验证模块能够接管。

有没有人看到我忽略的任何步骤?

编辑:添加sh power输出

core>sh power
Power                                             Fan     Inline
Supply  Model No          Type       Status       Sensor  Status
------  ----------------  ---------  -----------  ------  ------
PS1     PWR-C45-1300ACV   AC 1300W   good         good    good
PS2     PWR-C45-1300ACV   AC 1300W   good         good    good

Power Supply    Max     Min     Max     Min     Absolute
(Nos in Watts)  Inline  Inline  System  System  Maximum
--------------  ------  ------  ------  ------  --------
PS1              800     260    1000     460    1300
PS2              800     260    1000     460    1300

Power Summary
 (in Watts)    Available   Used   Remaining
-------------  ---------  ------  ---------
System Power     1000       545      455
Inline Power      800         0      800
Maximum Power    1260       545      715

Power supplies needed by system : 1

                         Power Used  Power Used
Mod   Model               (online)   (in Reset)
----  -----------------  ----------  ----------
 1    WS-X4515               110           110
 2    Standby Sup            110           110
 3    WS-X4418-GB             80            50
 4    WS-X4448-GB-RJ45       120            72
 5    Not available            0             0
 7    WS-X4306-GB             35            30

我知道这个软件太老了。我们没有升级 AFAIK 的许可证或支持合同。我继承了这个网络。我的公司将在未来六个月内搬迁建筑物。然后我得到了所有新硬件。我只是想确保在那之前的高峰生产时间我没有任何冗余问题。

1个回答

这些 Catalyst 平台上的冗余以两种模式运行:RPR(路由处理器冗余)和 SSO(状态切换)。

在 RPR 模式下,备用系统会“部分”启动。当 Active 因任何原因死亡时,Standby 需要几分钟才能完全启动,然后作为 Active 接管。这个过程需要几分钟。

在 SSO 模式下,备用系统会完全启动并准备在几毫秒内接管。

现在,您的系统似乎已针对 RPR 进行了配置。也许这个老式设备甚至不支持 SSO,您需要从文档中验证这一点。

在任何情况下,即使在 RPR 模式下,您的待机似乎也无法正常工作。如果是这样,您会在“显示冗余”的输出中看到“对等状态:STANDBY COLD”。相反,您看到的是 DISABLED。很有可能,它甚至没有通过 ROMMON 并启动 IOS。

检查事项:

(1) 在启动时检查 syslog 以查看是否有任何关于 Slot 2 的消息

(2) 将控制台电缆连接到看似有故障的管理器,然后将其重置(使用管理器前面板上的物理重置按钮,或者简单地将其移除并重新插入)。观察控制台上显示的内容。当 Active Supervisor 在 Slot 1 中工作时,这样做是安全的。

(3) 即使您没有控制台电缆,按上述重置看似有故障的监控器也可能奏效。观察在备用系统尝试启动时出现在活动系统上的任何系统日志。

(4) 升级。您的图像是 2004 年的,即您的系统存在 14 年的软件漏洞:-)