网络工程 - Cisco Meraki Z1 上的高抖动和数据丢失 - 吾爱随笔录

网络工程思科数据包丢失潜伏梅拉基

2021-07-09 04:12:43

我们的办公室正在运行 Cisco Meraki Z1 安全设备，最近（3 月 5 日）互联网间歇性地掉线了。设备保持在线，但互联网要么不工作，要么速度慢得难以忍受。它开始于人们开始出现在办公室时，但随后速度会在一个小时左右后回升，但他们可能会在另一个小时后再次下降。

以下是当前网络的上行链路详细信息：

Z1 数据表说它最多支持 5 个客户端。这似乎很低。我们的办公室平均有 80-100 个客户。在这种情况下，我们拥有这个设备的事实是荒谬的。不幸的是，设置 Meraki Z1 的人已经不在公司了，所以我不能问他购买如此有限的设备的意图是什么。

这是今天的流量分析：

如您所见，大约 9:00 当人们到达办公室时，数据丢失率飙升。看到我们如何在仅支持 5 个客户端设备的设备上运行大约 100 个客户端，这对我来说完全有意义。我的问题是，为什么这只是现在发生？该设备是在近 3 年前安装的，直到现在才发生这种情况。

设备的配置没有改变，我们已经完成了以下故障排除：

我正在考虑购买 MX64（50 个客户端）或 MX84（200 个客户端），但首先我要问一个问题，为什么这个问题在使用该设备 3 年后才出现？

更新：

我还应该提到设备在 3 月 3 日收到了更新的固件，但是思科支持团队表示这不是问题的原因。我们回滚固件进行测试，问题似乎依然存在。

2个回答

我自己使用过小尺寸的路由器一段时间后，我发现接入路由器中最宝贵的资源（除了带宽）是连接表中的可用内存/可用空间。

监视 TCP 和 UDP 的当前连接数、可用内存量以及它们与丢失率的关系。我敢打赌，一旦你跨越了某个边界，丢包率就会飙升。此外，一个简单的traceroute应该能够验证 Z1 是否是掉落的来源。

您可以通过减少 UDP 和 TCP 老化期（根据您的工作量）来稍微缓解这个问题，但是对于真正的解决方案，您需要更强大的硬件。

复制 running-config startup-config 可能是你的罪魁祸首..我看到很多微小的配置更改都没有保存，几年后重新启动或“我只需要移动这条线一秒钟...... ”

以下是我按概率排序的最高猜测。

不是 Z1 - 我看到它一直因操作员引起的问题而受到指责。而且我已经看到 50 个用户办公室使用它，所以没有设置限制，只有推荐。

双工不匹配 - 自动 + 完整 = 大问题。

本地路由。如果您最近进行了路由更改，那么事情可能会从错误的路由器或 Merkai 中跳出。

热。东西变旧，灰尘和虫子进入，胶水和焊锡破裂。打开它并检查您的散热器，并检查是否有任何感觉超过 130F 的东西，因为那是 CPU 开始节流的地方。

其它你可能感兴趣的问题