网络工程 - 我是如何破坏（一半）我的网络的？ - 吾爱随笔录

我是如何破坏（一半）我的网络的？

网络工程思科转变交换 cisco催化剂生成树

2021-07-17 17:55:57

我正在寻找一些事后建议，以免再次发生此事件。

我们有两个 Cisco 4500x 交换机的网络核心，配置为 VSS 冗余。从这些设备中，我们有 iSCSI 设备、用于 vSphere 的 HP 刀片中心、以及连接到用户接入交换机的聚合链路，以及用于服务器机房中铜缆设备的一对 4948e 交换机。在 4948es 之外，我们有一对 2960 交换机用于两个 ISP 链路，以及一对 ASA 作为防火墙。相当不错的冗余，除了许多连接到 4948e 的设备只有单个 NIC - 我们能做的就这么多。

我们正准备用 Meraki 替换我们当前的用户访问交换机（旧的 Extremes）。我们还在实施 Meraki AP 以取代我们当前的 Aruba。无线项目的一部分涉及创建一些新的 VLAN 和子网，用于 AP 管理和访客无线。

我们在 4500x 上定义了两个未在任何地方使用的 VLAN（20 和 40）——确认子网是空的，没有端口使用它们，等等。我进入 4500x 并发出“ no interface vlan 20”，然后用子网重建它我想了。然后我将它添加到连接到 Meraki 的两个 10Gb 端口

switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>

我注意到 20 和 40 VLAN 已关闭，因此我no shutdown对它们发出了命令。那时我无法访问 Merakis，所以我意识到我没有将 VLAN 添加到该链接的端口通道接口。

在这一点上，我们的一半环境变得无法访问

我们的互联网链接非常不稳定。我们的 Avaya VoIP 电话无法拨入或拨出。我们有几个铜缆连接的 iSCSI 设备变得不可用 - 面向用户的任何设备都没有中断，但我们的备份和邮件存档受到了影响。我进入服务器机房，并断开 Merakis 与 4500x 的连接（拔掉两个 10Gb 光纤端口），以防我以某种方式创建了一个循环 - 没有变化。我承认当时只是盯着这个看了一会儿。

我拉起 Orion 并注意到我们的一个外部交换机（Cat2960）和我们的一个 ASA 对也出现故障。显然，我们有某种部分 LAN 连接丢失，但 ASA 对也通过交叉连接相互连接，并且它们的上行链路没有中断，因此它们没有故障转移到我们的内部设备可以到达的地方。我关闭了“关闭”的 ASA，互联网再次变得可访问。

我给 TAC 打了电话，在与技术人员搏斗了几个小时后，技术人员一直在为每个宕机的主机挑剔每个端口配置，我在 4500x 上向他展示，我登录了我们的一台 4948e 交换机，并展示了它如何无法 ping 东西直接连接并启动 - 我们基于 Windows 的铜质 iSCSI 设备之一，刀片中心上的 iLO 接口等。

他查看了日志并没有发现任何东西，但此时他说“看起来像一个生成树错误，即使我没有在日志中看到它”，所以我们直接重新启动了 4948e 和所有它- 连接的主机马上恢复了 - 包括 Avaya 机柜，所以我们的电话又开始工作了。我们在 4500x 光纤连接设备中仍然存在问题 - 死路，因为它都是冗余的。他想不体面地重启它，但这有我们所有的 10 Gbit iSCSI，这会让我们的 vSphere 环境（基本上是我们所有的服务器）度过一个糟糕的一周。我说服他做一个优雅的冗余切换，解决剩下的问题。

TL;DR：我对我们的核心做了一个相当无害的改变，并导致了一个可怕的问题。我是否犯了一个应该预测会导致这种情况的配置错误 - 例如，如果我没有先关闭 VLAN 并将它们添加到端口通道，然后添加到端口，这是否可以避免？思科技术人员没有这么说。他说，在超过一年的正常运行时间和旧的 IOS 版本的情况下，出现这样的情况并不奇怪。

4500x：Cisco IOS 软件、IOS-XE 软件、Catalyst 4500 L3 交换机软件 (cat4500e-UNIVERSALK9-M)，版本 03.04.05.SG 发布软件 (fc1) ROM：15.0(1r)SG10

4948e：Cisco IOS 软件，Catalyst 4500 L3 交换机软件 (cat4500e-IPBASEK9-M)，版本 15.0(2)SG10，发布软件 (fc1) ROM：12.2(44r)SG11

2个回答

听起来您创建了广播风暴，阻止它的唯一方法是关闭交换机电源。经历了几次之后，我们采用了思科推荐的一些最佳实践：

您应该只将 VLAN 扩展到单个接入交换机。您可以在接入交换机上拥有任意数量的 VLAN，但任何接入交换机上的 VLAN 不应中继到任何其他接入交换机，而只能中继到分布交换机。通过使用switchport trunk allowed vlan 命令手动禁用中继上的所有其他 VLAN 来强制执行此操作。
分布交换机上不应有任何接入接口，只有分布中继接口。
不要使用 VTP（将所有开关设置为transparent模式）。
你的访问接口应该有portfast和bpduguard 启用。您可以为所有访问接口全局启用这些，并且您的中继接口将不受影响。如果您不小心将交换机连接到接入接口，这将导致接口进入err-diable并防止 STP 环路。
不要将接入交换机连接到另一个接入交换机。仅将接入交换机连接到分布交换机，并且仅在中继接口上。

这些最佳实践将防止几乎所有 STP 问题，并隔离发生在单个接入交换机上的任何问题。

除了上述 Ron Maupin 的出色建议外，我还在 Cisco 论坛上找到了几篇关于我在此过程中犯的潜在大错误的帖子。我首先将 VLAN 添加到物理端口接口，而不是它们所属的端口通道接口。后者是正确的做法，可能是我造成了问题。

其它你可能感兴趣的问题

上一篇带有 DNS 转换的 Cisco ASA 双 NAT 下一篇从 Cisco IOS 设备生成流量以证明 WAN 电路