中间跳MTR丢包

网络工程 思科 ipv4 故障排除 数据包丢失 地铁
2021-07-18 01:58:46

我们目前遇到的问题是我们的 WebService 间歇性地无法被客户访问。在与 NOC 进行诊断和一些内部测试期间,我们相信我们有一个路由器丢弃数据包。

我们的系统有 4 台 Windows Server 2003 机器,通过一个端口(内部通信)上的交换机和第二个端口(网络流量)上的路由器 (Cisco RV082) 连接。

从我们的 Web 服务器,如果我们 WinMTR 到路由器、管理交换机或通过内部网络 (5.x),我们会得到 0% 的数据包丢失。

但是,当我们在网关上运行相同的 WinMTR 工具时,我们在网关上收到了 0% 的丢包率,但截至上次测试,在路由器上收到了 9% 的丢包率。

|------------------------------------------------------------------------------------------

|                                      WinMTR statistics   

|                       Host              -   %  | Sent | Recv | Best | Avrg | Wrst | Last |
|------------------------------------------------|------|------|------|------|------|------

|
|                             192.168.1.1 -    9 | 1986 | 1818 |    0 |    0 |    1 |    0

|      static-xxx-xx-x-xxx.xxx.xxxxxx.xxx -    0 | 3667 | 3667 |    0 |    0 |   76 |    0 

|________________________________________________|______|______|______|______|______|______

   WinMTR v0.92 GPL V2 by Appnor MSP 

我不完全确定如何处理这些信息。这是否意味着路由器和网关之间存在中断,因为路由器本身似乎很好?或者是路由器在我们转到WAN端口时没有正确响应的问题。


编辑

现有的问题服务器来自

Server -> Router -> dumb switch -> gateway

我们在同一个机柜中有另一台服务器

Server -> different router -> dumb switch -> gateway

先感谢您。

3个回答

但是,当我们在网关上运行相同的 WinMTR 工具时,我们在网关上收到了 0% 的丢包率,但截至上次测试时,路由器上的丢包率为 9%...
[snip]
... 我不是完全确定如何处理这些信息......

您误解了WinMTR应该如何使用;这是一个常见的问题。您应该在任何 mtr 输出中查看的第一行是最后一行;你取回了你发送的所有 3667 个数据包。换句话说,您的服务器没有丢包

传输设备随机丢弃一部分 traceroute 流量的情况并不少见。它可能发生的原因有多种……其中:

  • Cisco RV082 上的操作系统对 ICMP 错误消息进行了速率限制
  • RV082 忙于做其他事情,并没有费心回应一些 mtr 查询
  • 有一个错误
  • 以上的一些组合

反问

Q:如果你的服务器没有丢包怎么办?
A:其他优先事项;这里没什么可看的,继续前进。

确定究竟发生了什么的唯一方法是获取流量的数据包捕获,以便您可以看到路由器实际在做什么。大多数现代路由器会降低 icmp 流量的优先级,以便在负载不足时转发实际流量。正如其他人指出的那样,这个特定的路由器是一个相当低级的设备,所以可能就是这种情况。我已经看到一个(相当强大的)路由器在使用 MTR 测试时报告数据包丢失的确切问题,而实际上不存在丢失。

我刚刚在伦敦发现了一个核心骨干路由器,它正好对 ICMP 进行了这种速率限制,因为我在 macOS 10.13 mtr 上运行了从新西兰到 ubuntu.com 的跟踪。如果我 ping ubuntu.com 我看不到任何损失,并且该站点在访问时性能良好。但是众所周知level3-ic-333036-las-b21.c.telia.net的 boxen 正在攻击我的 mtr ping 的 78%,默认情况下是 60/分钟。说实话可能是一个设置良好的路由器,尽管它似乎负载很重,最长的回复需要 2100 毫秒,而偏差很大,为 321 毫秒!在这近 4 分钟的跟踪中,现在是格林威治标准时间周二上午 10:26。奥克兰 --> 洛杉矶 --> 伦敦。我可以看到,mcclure.canonical.com并且bundle-200.cor02.lax01.ca.vocus.net可能是最快的机器,它们的回复只有 0.4 毫秒的偏差!

                                                                          My traceroute  

 My traceroute  [vUNKNOWN]
MODERNA-51.local (10.0.0.15)                                            2019-07-16T22:26:26+1200
Keys:  Help   Display mode   Restart statistics   Order of fields   quit
                                                        Packets               Pings
 Host                                                 Loss%   Snt   Last   Avg  Best  Wrst StDev
 1. orcon                                              0.0%   233    0.7   0.7   0.5   1.3   0.2
 2. default-rdns.vocus.co.nz                          52.2%   233  9232. 9136. 8356. 9949. 283.1
 3. ae8-20.cpcak-mdr-r1.vocus.co.nz                    0.0%   233   13.8  15.3  13.4  56.7   5.6
 4. ae9-20.cpcak-mdr-r1.vocus.co.nz                    0.0%   233   13.7  15.0  13.5  49.9   4.0
 5. be-101.bdr02.akl05.akl.vocus.net.nz                0.0%   233   15.2  17.6  14.1  55.2   8.6
 6. bundle-10.cor01.akl05.akl.vocus.net.nz             0.0%   233  138.5 138.7 138.2 146.6   0.6
 7. bundle-200.cor02.lax01.ca.vocus.net                0.0%   232  138.6 138.5 138.1 142.2   0.4
 8. bundle-102.bdr02.lax01.ca.vocus.net                0.0%   232  139.1 139.2 138.1 158.4   1.6
 9. las-b24-link.telia.net                             0.0%   232  139.6 140.0 137.5 167.2   5.1
10. las-b21-link.telia.net                             0.0%   232  139.1 139.0 138.4 160.1   1.5
11. level3-ic-333036-las-b21.c.telia.net              78.0%   232  138.3 202.3 137.9 2100. 321.5
12. ???
13. source-mana.ear2.london1.level3.net                0.0%   232  269.0 271.7 268.7 373.2  13.0
14. mcclure.canonical.com                              0.0%   232  269.1 268.9 268.4 270.8   0.4
15. www-ubuntu-com.nuno.canonical.com                  0.0%   232  269.3 269.1 268.5 272.7   0.5