间歇性网络性能问题

网络工程 局域网 ARP 表现 netgear-prosafe
2022-02-08 14:33:48

几个星期以来,我一直在处理我的网络中的一个间歇性问题。

症状:

  1. 周期性的“Destination host unreachable.”,以及 ping 时类似的错误。以下是指示性的:
    Ping 10.0.64.16 with 32 bytes of data:
    Reply from 172.31.0.18: Destination host unreachable。
    来自 172.31.0.18 的回复:无法访问目标主机。
    来自 10.0.64.16 的回复:字节=32 时间=1004ms TTL=62
    来自 10.0.64.16 的回复:字节=32 时间<1ms TTL=62

  2. 我们的 JavaEE 服务器会定期断开与我们的 SQL Server (Microsoft) 的连接。

  3. 在 Microsoft Access 上编写并由 SQL Server 支持的内部软件会定期出现性能显着下降的情况。

  4. 我们的虚拟机在通过 iSCSI 访问其存储时会遇到周期性的延迟峰值。

  5. 各种延迟敏感工具会断开连接(SSH、XenCenter),而对延迟不敏感的工具(基于 Web 的仪表板)则不会出现问题。

奇怪的是,我们似乎并没有同时经历上述所有事情,这更像是一个滚动问题。

我们网络的核心是 Netgear XS728T。它处理 VLAN 间路由。我们有 3 个机架,每个机架都有 2 台 Netgear S3300 交换机,它们使用启用 LCAP 的 10G LAG 连接到 XS728T。

用户通过 Netgear S3300 交换机堆栈连接,使用启用 LACP 的 10G LAG 连接到核心。

我们尝试在机架顶部的堆栈和核心之间启用流控制。当我们启用它时,我们确实开始看到暂停帧被交换,但情况似乎没有改善。

我们尝试将机架堆栈和核心之间的连接中的 10G 链路数量增加一倍(从 2x10G 到 4x10G)。这似乎也没有改善这种情况。

我们一直在定期查看切换日志,并没有发现任何异常情况。

网络没有环路,除了在堆叠中,STP 被禁用。我们短暂地启用了它,它并没有禁用任何链接。

我觉得我们有一个或多个交换机存在 MAC 表问题。

关于收集更多信息的方法有什么建议吗?有任何故障排除建议吗?

谢谢,

多米尼克·希尔斯博斯

2个回答

我已经有一段时间没有参与这个问题了。

我相信我找到了我们 90% 的问题;我们确实有一个循环。一名 IT 人员在交换机和墙壁端口之间插入了一条额外的电缆,从而产生了一个环路。

由于新链路只有千兆位,与我们网络中交换机间连接常见的 LAGged 10G 相比,我期望看到的症状不存在。

重新打开 STP 并保持打开状态。可以想象,您有一个间歇性循环。此外,这是一个很好的保险。

如果您有 ARP 缓存问题,您只会在 XS728T 上看到它,因为它是唯一执行路由的设备。

查看您的日志是否会显示 MAC 地址更改。端口之间可能有一些东西在摆动。