是什么导致 cisco 交换机接口上的总输出下降?

网络工程 思科 cisco催化剂 转变 cisco-ios-12
2021-07-24 15:20:45

我有一个 HP c7000 刀片机箱,其中包含运行 ios 12.2(58)SE1 的 Cisco 3120X 和 Cisco 3120G 交换机。刀片本身的负载非常轻,但机箱中不同刀片交换机上的许多接口显示出相当多的输出下降。如果我反复检查输出下降的数量,我不仅会看到计数器增加,而且有时还会减少。这些数字与接口上记录的数据包数无关。QoS 设置是平台的默认设置。

以下样本均在 30 秒内采集:

bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:2255550
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:2255550
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:2255550
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:2255550
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:2255550
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:2255550
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:451110
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:451110
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:902220
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:1353330
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:1804440
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:1804440
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:1804440
bc1019-3120-stack>sh int gi2/0/7 | 我输出下降
  输入队列:0/75/0/0(大小/最大/丢弃/刷新);总产量下降:451490

bc1019-3120-stack>sh int gi2/0/7 | 我输出率
  5 分钟输出速率 301000 比特/秒,119 包/秒

1)除了服务器网卡没有足够快地接收帧之外,还有什么会导致输出下降?

2) 接口计数器可以记录的最大输出丢弃数是多少?达到最大值时会翻转吗?

3) 什么样的产出下降率才算健康?

4个回答

除非有人正在清除计数器,否则您永远不会看到任何里程计类型的计数器(那些基于数据包操作而增加的计数器)减少,它们应该始终增加。这部分听起来像一个错误。

至于导致产量下降的具体原因,有很多不同的原因,很难准确地查明。有时,交换机的背板内部会出现拥塞,这些拥塞可能会在传出接口上显示为输出下降。在极少数情况下,您也可能会遇到在 1 分钟间隔轮询时不会出现的微爆,这会迅速使界面过载,但随后又会很快回落。我建议获取输出丢弃的 SNMP OID,然后绘制它并查看它与 CLI 计数器的对应关系。

一般来说,您不希望任何输出丢弃,因为它们表明数据包没有到达目的地。但是,如果你运行你的链接热(你说你不是)它们在某种程度上是不可避免的,主要是由于内部开关缓冲等。

我的第一个想法是单播泛洪,尤其是当计数器在同一 vlan 中的多个端口上一致增加时。我同意 Aaron 的观点,即计数器递减听起来像是一个错误。计数器可能会在 2^64 处翻转,但这不会在几秒钟内发生。我认为健康的输出下降率为零,但这并不现实——即使在数据中心也是如此。你在做 10G 上行链路吗?

似乎您遇到了错误 CSCtq86186。此错误已在 3750s、2960s 上发现,但它也可能影响刀片式交换机。

如果您遇到单播泛洪,在其中一台主机上运行 wireshark 或跨越其中一个端口应该会很快显示出来。

听起来您在方形拓扑中有冗余内核?如果是这样,请尝试将此命令添加到您的 vlan 接口:

arp timeout 300

CAM 表保留条目 5 分钟,而 ARP 表保留四小时(默认值)。将 ARP 设置为与 CAM 匹配可以以稍微增加 CPU 为代价来消除单播泛洪。 Catalyst 6500/6000 交换机 ARP 或 CAM 表问题故障排除