Cisco 3850 上的输出丢失/错误

网络工程 思科 转变 cisco催化剂 故障排除
2021-07-09 03:35:03

对不起,如果这是一个菜鸟问题,但我有点迷茫。

我们目前遇到了一些网络问题,在我看来,这些问题似乎很奇怪。最终结果是我有一些备份作业由于网络连接丢失而失败。

我们正在处理的网络是由 6 个 Cisco 3850(运行 IOS-XE 03.06.04.E)组成的堆栈,为我们的整个网络执行 L3 路由。除了执行 L3 路由之外,该堆栈还为该建筑物以及我们的许多服务器托管客户端。

在对备份失败进行故障排除时,我发现了一些奇怪的结果,希望有人能够帮助我。我将一个 20GB 的文件从服务器 A(端口 Gi6/0/44)复制到服务器 B(端口 Gi6/0/38),两者都在同一个 VLAN 上。奇怪的是,发送端口的 rxload 变为 2xx/255(sh cont util 显示 99% 接收)而接收端口的 txload 变为 2xx/255(sh cont util 显示 99% 传输),这似乎完全倒退对我来说。此外,接收端口有很多输出丢失/错误。以下是文件复制期间 2 个接口的 sh int。此外,端口的可靠性在传输过程中似乎有所下降,下降到我见过的 200/255。

发送端口

GigabitEthernet6/0/44 is up, line protocol is up (connected)
  Hardware is Gigabit Ethernet, address is f09e.63dc.63ac (bia f09e.63dc.63ac)
  MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec,
     reliability 255/255, txload 1/255, rxload 72/255
  Encapsulation ARPA, loopback not set
  Keepalive set (10 sec)
  Full-duplex, 1000Mb/s, media type is 10/100/1000BaseTX
  input flow-control is off, output flow-control is unsupported
  ARP type: ARPA, ARP Timeout 04:00:00
  Last input never, output never, output hang never
  Last clearing of "show interface" counters 00:01:17
  Input queue: 0/2000/0/0 (size/max/drops/flushes); Total output drops: 0
  Queueing strategy: fifo
  Output queue: 0/40 (size/max)
  5 minute input rate 283590000 bits/sec, 23371 packets/sec
  5 minute output rate 1897000 bits/sec, 2367 packets/sec
     5392809 packets input, 8181417474 bytes, 0 no buffer
     Received 4 broadcasts (4 multicasts)
     0 runts, 0 giants, 0 throttles
     0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
     0 watchdog, 4 multicast, 0 pause input
     0 input packets with dribble condition detected
     491872 packets output, 38490525 bytes, 0 underruns
     0 output errors, 0 collisions, 0 interface resets
     0 unknown protocol drops
     0 babbles, 0 late collision, 0 deferred
     0 lost carrier, 0 no carrier, 0 pause output
     0 output buffer failures, 0 output buffers swapped out

收货口

GigabitEthernet6/0/38 is up, line protocol is up (connected)
  Hardware is Gigabit Ethernet, address is f09e.63dc.63a6 (bia f09e.63dc.63a6)
  MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec,
     reliability 249/255, txload 239/255, rxload 1/255
  Encapsulation ARPA, loopback not set
  Keepalive set (10 sec)
  Full-duplex, 1000Mb/s, media type is 10/100/1000BaseTX
  input flow-control is off, output flow-control is unsupported
  ARP type: ARPA, ARP Timeout 04:00:00
  Last input never, output never, output hang never
  Last clearing of "show interface" counters 00:01:10
  Input queue: 0/2000/0/0 (size/max/drops/flushes); Total output drops: 171702
  Queueing strategy: fifo
  Output queue: 0/40 (size/max)
  30 second input rate 3667000 bits/sec, 6244 packets/sec
  30 second output rate 938277000 bits/sec, 77528 packets/sec
     440644 packets input, 30590281 bytes, 0 no buffer
     Received 15 broadcasts (1 multicasts)
     0 runts, 0 giants, 0 throttles
     0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
     0 watchdog, 1 multicast, 0 pause input
     0 input packets with dribble condition detected
     5001112 packets output, 7564904837 bytes, 0 underruns
     171702 output errors, 0 collisions, 0 interface resets
     0 unknown protocol drops
     0 babbles, 0 late collision, 0 deferred
     0 lost carrier, 0 no carrier, 0 pause output
     0 output buffer failures, 0 output buffers swapped out

我不知道该去哪里或我所看到的要寻找什么。

谢谢,斯坦佛斯

3个回答

您正在以 94% 的容量运行接口——1000M 中的 938M——没有流量控制。硬件缓冲区空间非常有限(并且在一组中的多个端口之间共享),因此这是在接近限制时运行时的预期行为。在这里没有什么可以做的:使用更好的交换机(更深的缓冲区、更快的端口等),将事物移动到不同的组中,启用流量控制(对 3850 的支持有限。)

正如我在评论中所写,您认为这txload是倒退的原因是您没有从交换机而不是服务器的角度看待它。出现大量output errors数字的最可能原因是您超出了输出队列。

Cisco 有许多关于接口错误故障排除的文档,例如对交换机端口和接口问题进行故障排除

输出错误

描述: Cisco IOS sh 接口计数器。阻止数据报最终传输出接口的所有错误的总和。常见原因:此问题是由于输出队列大小过小造成的。

您可能还会遇到 Cisco Bug CSCvb65304 ....