我正在寻找一些事后建议,以免再次发生此事件。
我们有两个 Cisco 4500x 交换机的网络核心,配置为 VSS 冗余。从这些设备中,我们有 iSCSI 设备、用于 vSphere 的 HP 刀片中心、以及连接到用户接入交换机的聚合链路,以及用于服务器机房中铜缆设备的一对 4948e 交换机。在 4948es 之外,我们有一对 2960 交换机用于两个 ISP 链路,以及一对 ASA 作为防火墙。相当不错的冗余,除了许多连接到 4948e 的设备只有单个 NIC - 我们能做的就这么多。
我们正准备用 Meraki 替换我们当前的用户访问交换机(旧的 Extremes)。我们还在实施 Meraki AP 以取代我们当前的 Aruba。无线项目的一部分涉及创建一些新的 VLAN 和子网,用于 AP 管理和访客无线。
我们在 4500x 上定义了两个未在任何地方使用的 VLAN(20 和 40)——确认子网是空的,没有端口使用它们,等等。我进入 4500x 并发出“ no interface vlan 20
”,然后用子网重建它我想了。然后我将它添加到连接到 Meraki 的两个 10Gb 端口
switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>
我注意到 20 和 40 VLAN 已关闭,因此我no shutdown
对它们发出了命令。那时我无法访问 Merakis,所以我意识到我没有将 VLAN 添加到该链接的端口通道接口。
在这一点上,我们的一半环境变得无法访问
我们的互联网链接非常不稳定。我们的 Avaya VoIP 电话无法拨入或拨出。我们有几个铜缆连接的 iSCSI 设备变得不可用 - 面向用户的任何设备都没有中断,但我们的备份和邮件存档受到了影响。我进入服务器机房,并断开 Merakis 与 4500x 的连接(拔掉两个 10Gb 光纤端口),以防我以某种方式创建了一个循环 - 没有变化。我承认当时只是盯着这个看了一会儿。
我拉起 Orion 并注意到我们的一个外部交换机(Cat2960)和我们的一个 ASA 对也出现故障。显然,我们有某种部分 LAN 连接丢失,但 ASA 对也通过交叉连接相互连接,并且它们的上行链路没有中断,因此它们没有故障转移到我们的内部设备可以到达的地方。我关闭了“关闭”的 ASA,互联网再次变得可访问。
我给 TAC 打了电话,在与技术人员搏斗了几个小时后,技术人员一直在为每个宕机的主机挑剔每个端口配置,我在 4500x 上向他展示,我登录了我们的一台 4948e 交换机,并展示了它如何无法 ping 东西直接连接并启动 - 我们基于 Windows 的铜质 iSCSI 设备之一,刀片中心上的 iLO 接口等。
他查看了日志并没有发现任何东西,但此时他说“看起来像一个生成树错误,即使我没有在日志中看到它”,所以我们直接重新启动了 4948e 和所有它- 连接的主机马上恢复了 - 包括 Avaya 机柜,所以我们的电话又开始工作了。我们在 4500x 光纤连接设备中仍然存在问题 - 死路,因为它都是冗余的。他想不体面地重启它,但这有我们所有的 10 Gbit iSCSI,这会让我们的 vSphere 环境(基本上是我们所有的服务器)度过一个糟糕的一周。我说服他做一个优雅的冗余切换,解决剩下的问题。
TL;DR:我对我们的核心做了一个相当无害的改变,并导致了一个可怕的问题。我是否犯了一个应该预测会导致这种情况的配置错误 - 例如,如果我没有先关闭 VLAN 并将它们添加到端口通道,然后添加到端口,这是否可以避免?思科技术人员没有这么说。他说,在超过一年的正常运行时间和旧的 IOS 版本的情况下,出现这样的情况并不奇怪。
4500x:Cisco IOS 软件、IOS-XE 软件、Catalyst 4500 L3 交换机软件 (cat4500e-UNIVERSALK9-M),版本 03.04.05.SG 发布软件 (fc1) ROM:15.0(1r)SG10
4948e:Cisco IOS 软件,Catalyst 4500 L3 交换机软件 (cat4500e-IPBASEK9-M),版本 15.0(2)SG10,发布软件 (fc1) ROM:12.2(44r)SG11