Cisco Meraki Z1 上的高抖动和数据丢失

网络工程 思科 数据包丢失 潜伏 梅拉基
2021-07-09 04:12:43

我们的办公室正在运行 Cisco Meraki Z1 安全设备,最近(3 月 5 日)互联网间歇性地掉线了。设备保持在线,但互联网要么不工作,要么速度慢得难以忍受。它开始于人们开始出现在办公室时,但随后速度会在一个小时左右后回升,但他们可能会在另一个小时后再次下降。

以下是当前网络的上行链路详细信息:

上行链路

Z1 数据表说它最多支持 5 个客户端。这似乎很低。我们的办公室平均有 80-100 个客户。在这种情况下,我们拥有这个设备的事实是荒谬的。不幸的是,设置 Meraki Z1 的人已经不在公司了,所以我不能问他购买如此有限的设备的意图是什么。

这是今天的流量分析:

流量分析

如您所见,大约 9:00 当人们到达办公室时,数据丢失率飙升。看到我们如何在仅支持 5 个客户端设备的设备上运行大约 100 个客户端,这对我来说完全有意义。我的问题是,为什么这只是现在发生?该设备是在近 3 年前安装的,直到现在才发生这种情况。

设备的配置没有改变,我们已经完成了以下故障排除:

  • 检查电源线,确保供电充足
  • 检查数据线以确保它们健康和工作
  • 将 Z1 设备重置为出厂设置
  • 连接到 ISP 调制解调器并确保存在健康连接
  • 回滚固件以查看问题是否仍然存在,确实如此。

我正在考虑购买 MX64(50 个客户端)或 MX84(200 个客户端),但首先我要问一个问题,为什么这个问题在使用该设备 3 年后才出现?

更新:

我还应该提到设备在 3 月 3 日收到了更新的固件,但是思科支持团队表示这不是问题的原因。我们回滚固件进行测试,问题似乎依然存在。

2个回答

我自己使用过小尺寸的路由器一段时间后,我发现接入路由器中最宝贵的资源(除了带宽)是连接表中的可用内存/可用空间。

监视 TCP 和 UDP 的当前连接数、可用内存量以及它们与丢失率的关系。我敢打赌,一旦你跨越了某个边界,丢包率就会飙升。此外,一个简单的traceroute应该能够验证 Z1 是否是掉落的来源。

您可以通过减少 UDP 和 TCP 老化期(根据您的工作量)来稍微缓解这个问题,但是对于真正的解决方案,您需要更强大的硬件。

复制 running-config startup-config 可能是你的罪魁祸首..我看到很多微小的配置更改都没有保存,几年后重新启动或“我只需要移动这条线一秒钟...... ”

以下是我按概率排序的最高猜测。

不是 Z1 - 我看到它一直因操作员引起的问题而受到指责。而且我已经看到 50 个用户办公室使用它,所以没有设置限制,只有推荐。

双工不匹配 - 自动 + 完整 = 大问题。

本地路由。如果您最近进行了路由更改,那么事情可能会从错误的路由器或 Merkai 中跳出。

热。东西变旧,灰尘和虫子进入,胶水和焊锡破裂。打开它并检查您的散热器,并检查是否有任何感觉超过 130F 的东西,因为那是 CPU 开始节流的地方。