几个星期以来,我一直在处理我的网络中的一个间歇性问题。
症状:
周期性的“Destination host unreachable.”,以及 ping 时类似的错误。以下是指示性的:
Ping 10.0.64.16 with 32 bytes of data:
Reply from 172.31.0.18: Destination host unreachable。
来自 172.31.0.18 的回复:无法访问目标主机。
来自 10.0.64.16 的回复:字节=32 时间=1004ms TTL=62
来自 10.0.64.16 的回复:字节=32 时间<1ms TTL=62我们的 JavaEE 服务器会定期断开与我们的 SQL Server (Microsoft) 的连接。
在 Microsoft Access 上编写并由 SQL Server 支持的内部软件会定期出现性能显着下降的情况。
我们的虚拟机在通过 iSCSI 访问其存储时会遇到周期性的延迟峰值。
各种延迟敏感工具会断开连接(SSH、XenCenter),而对延迟不敏感的工具(基于 Web 的仪表板)则不会出现问题。
奇怪的是,我们似乎并没有同时经历上述所有事情,这更像是一个滚动问题。
我们网络的核心是 Netgear XS728T。它处理 VLAN 间路由。我们有 3 个机架,每个机架都有 2 台 Netgear S3300 交换机,它们使用启用 LCAP 的 10G LAG 连接到 XS728T。
用户通过 Netgear S3300 交换机堆栈连接,使用启用 LACP 的 10G LAG 连接到核心。
我们尝试在机架顶部的堆栈和核心之间启用流控制。当我们启用它时,我们确实开始看到暂停帧被交换,但情况似乎没有改善。
我们尝试将机架堆栈和核心之间的连接中的 10G 链路数量增加一倍(从 2x10G 到 4x10G)。这似乎也没有改善这种情况。
我们一直在定期查看切换日志,并没有发现任何异常情况。
网络没有环路,除了在堆叠中,STP 被禁用。我们短暂地启用了它,它并没有禁用任何链接。
我觉得我们有一个或多个交换机存在 MAC 表问题。
关于收集更多信息的方法有什么建议吗?有任何故障排除建议吗?
谢谢,
多米尼克·希尔斯博斯