像我一样,首先说我不是网络专家,但这种情况让我摸不着头脑,你们也许可以提供帮助。
基础设施是 4 台交换机 (Dell 2848)。2 个用于 LAN,2 个用于 DMZ(用于冗余。不同的子网)。每个交换机都进入防火墙(Watchguard),进入它们自己的 NIC。(使用链接聚合)。
此设置已经运行了 2 年。自上周以来,我们遇到间歇性高延迟,然后失去连接。这种情况随机发生,通常持续不到几分钟,然后自行恢复。我们失去了与 DMZ 交换机和所述 DMZ 内所有服务器的连接。
以下是 Nagios 的报告:
[09-25-2018 09:13:06] SERVICE ALERT: prd-server;Ping check;OK;SOFT;2;PING OK - Packet loss = 0%, RTA = 0.45 ms
Service Critical[09-25-2018 09:11:09] SERVICE ALERT: prd-server;Ping check;CRITICAL;SOFT;1;PING CRITICAL - Packet loss = 28%, RTA = 2206.04 ms
Service Critical[09-25-2018 09:10:52] SERVICE ALERT: prd-server;PHP Error Logs;CRITICAL;HARD;1;CRITICAL - Plugin timed out
问题似乎只涉及 DMZ 开关和位于 DMZ 中的服务器。唯一改变的是 3 天前,我们使用自动学习启用了桥接组播过滤和 IGMP 侦听状态。
会不会是一个垂死的防火墙,无法在子网之间路由数据包?死亡开关?多播问题?
谢谢