最近在将几条 MetroE 线路(L2 连接)从 100Mbps 升级到 1Gbps 后,我注意到一些站点之间的大文件传输失败;然而,转移只是在方向上失败。例如,请考虑以下示例。
从 -> 到
A -> B = 失败
B -> A = 成功
A -> C = 成功
C -> A = 成功
B -> C = 成功
C -> B = 成功
每个站点都是位于该站点的 L3 交换机后面的路由段。L3 交换机连接到提供商的 CPE 媒体转换器,后者又通过光纤连接到提供商的网络。L3 交换机之间使用静态路由。
*Site A* *Site B*
L3 Switch <-> CPE <--- Provider ---> CPE <-> L3 Switch
|
CPE
|
L3 Switch
*Site C*
供应商对来自 CPE 的电路进行了端到端测试,没有报告任何损失。但是,在传输失败之前,我在主机上的数据包捕获中看到了许多重复的 ACK。
如果我从等式中删除 L3 交换机,并将两台主机直接连接到每个站点的 CPE 设备,则文件传输成功完成。
Host A <-> CPE <--- Provider ---> CPE <-> Host B
如果我将主机放置在 L3 交换机的任一侧,则 VLAN 间路由将顺利运行并且文件传输成功完成。
Host A1 <-> L3 Switch <-> Host A2
该问题似乎仅在数据在两个路由段之间遍历提供程序时发生。
Host A <-> L3 Switch <-> CPE <--- Provider ---> CPE <-> L3 Switch <-> Host B
我已经验证了很多事情 - 接口统计信息干净(没有错误),CPU 和内存利用率低,速度和双工匹配(客户端和 CPE),MAC 和 ARP 表正确等。
可能是什么问题?
更新 1
可以在以下 URL 中找到来自主机 A 和 B 的数据包捕获:
https://www.dropbox.com/sh/5m2yohgxieelo59/AADed-0EWOkdmFIe0qT45_uQa
该问题最初是在使用运行 12.3R6.6 的瞻博网络 EX3200 交换机时发生的。我随后将交换机降级到 11.4R6.6,但这并没有解决问题。
我能够使用运行 12.3R6.6 和 11.4R6.6 的 Juiper EX2200 交换机复制该问题。我还能够使用运行 3.3.11.2 的 Dell 6224 交换机复制问题。
目前,每个站点只有 CPE (ge-0/0/0) 和单个主机 (ge-0/0/1) 连接到 Juniper EX3200。在对问题进行故障排除时,我剥离了所有无关参数的配置,因此配置是相当基本的。每个配置基本相同,但具有不同的 IP 地址。下面是一个片段。
# show interfaces
ge-0/0/0 {
unit 0 {
family ethernet-switching {
port-mode access;
vlan {
members WAN;
}
}
}
}
ge-0/0/1 {
unit 0 {
family ethernet-switching {
port-mode access;
vlan {
members LAN;
}
}
}
}
vlan {
unit 10 {
description WAN;
family inet {
address 192.168.X.X/27;
}
}
unit 100 {
description LAN;
family inet {
targeted-broadcast;
address 172.X.X.1/22;
}
}
}
# show vlans
WAN {
vlan-id 10;
l3-interface vlan.10;
}
LAN {
vlan-id 100;
l3-interface vlan.100;
}
更新 2
今天我注意到,如果我将一个文件从站点 A 的 L3 交换机 Juniper EX3200 scp 到站点 B 的 L3 交换机 Juniper EX3200,scp 传输也会受到此问题的影响。
我觉得这特别有趣,因为传输源自 WAN VLAN 上面向 CPE 的接口,因为如果我通过 EX3200 交换机在受影响站点之间中继一个 VLAN,在站点 A 和 B 的主机之间交换文件传输成功完成。