Cisco Catalyst 集群心跳交换机问题 - 增加输入错误

网络工程 思科 cisco催化剂
2021-07-06 00:20:47

问题:两个集群中的服务器不断失去彼此之间的心跳连接,从而导致数据库中断。中断是短暂的,但具有破坏性。

设置:

  • 有两个集群,每个集群三台服务器。
  • 每台服务器都有一个 NIC 连接到单个第 2 层交换机 (Catalyst 2950),交换机端口硬编码为 100Mb/全双工。
  • DBA 确认每个心跳 NIC 都硬编码为 100Mb/全双工。
  • 在 VLAN 100 和同一子网 (10.40.60.0/24) 中配置了两个集群。
  • 管理 IP 地址位于单独的子网 (10.40.1.0/24) 上,其交换机端口位于 VLAN 1 中。

症状:

  • 我看到交换机端口上的错误计数不断增加。对于一个集群中的三台服务器,输入错误(所有 CRC)约占输入数据包总数的 3%。没有输出错误。另一个集群约占总输入数据包的 6%。
  • 交换机端口上的发送和接收负载很轻,在 txload 和 rxload 上低于 20/255。
  • 交换机日志显示交换机端口反弹:

    5 月 16 日 11:15:31 PDT:%LINEPROTO-5-UPDOWN:接口 FastEthernet0/13 上的线路协议,状态更改为关闭
    5 月 16 日 11:15:32 PDT:%LINK-3-UPDOWN:接口 FastEthernet0/13,已更改状态下来
    5月16日11时15分34秒PDT:%LINK-3-UPDOWN:13接口的FastEthernet0 /,改变了状态最多
    5月16日十一点15分35秒PDT:%LINEPROTO -5- UPDOWN:在接口上的FastEthernet0线协议/ 13、将状态改为up

已执行的故障排除步骤:

  • 我用新的 Cat6 替换了服务器心跳 NIC 和交换机之间的旧 Cat5 电缆——没有效果。
  • 我在一个新的子网 (10.40.61.0/24) 中创建了一个新的 VLAN 200,并让 DBA 在一个集群上重新 IP 他们的心跳网卡——没有效果。
  • 我们在交换机端口和 NIC 上尝试了速度和双工的每一种组合——没有效果,在两者上都回到 100Mb/全双工。
  • DBA 将两个集群上的 Broadcom 驱动程序升级到最新版本——6% 集群的错误百分比下降到 4%,另一个集群的错误率仍为 3%。

我建议的下一步:

  • 服务器上有英特尔 NIC。尝试将集群心跳移动到英特尔 NIC。可能是博通的问题?
  • 将开关更换为具有演出功能的开关。有 Catalayst 3560x 可用,但使用它会延迟项目。也许交换机端口和 NIC 上的演出会更好?

想法?

我可以在现有的 2950 交换机上配置一些东西来减轻错误吗?我应该采取哪些额外的故障排除步骤?

2个回答

CRC 错误通常是布线问题。以下是我在更换硬件之前接下来要检查的事项:

  • 服务器是直接连接到交换机还是通过某种基础设施布线连接?如果是这样,请重新认证基础设施电缆。
  • 如果您有真正的电缆测试仪(不是简单的连续性测试仪),我会测试电缆。
  • 如果电缆是手工制作的,我会用工厂制造的电缆替换。手工制作的电缆经常会遇到这些类型的问题。
  • 检查电缆运行位置附近是否有任何 EM 源。如果可以,即使可以暂时重新布线电缆,以确保它们与电源或其他 EM 源分开。

除此之外,我将从您已经指出的 NIC 开始。可能是你从糟糕的运行中得到了一些。

我建议按照您的建议移动到英特尔 NIC 进行测试。我遇到过类似的问题,其中一小部分流量是输入错误。我们通过在服务器(在我的情况下是摄像机)和交换机之间放置一个哑集线器来解决问题。如果交换机不再看到任何输入错误,则问题出在服务器 NIC 上。

我尝试了您提出的许多相同步骤。就我而言,结果证明这是一次糟糕的制造运行。唯一解决问题的方法是更换 NIC(摄像头)。