DC 中的 CRC 错误,排除 L1 问题

网络工程 思科 转变 纤维 错误
2022-02-22 17:29:31

我在一个数据中心的链接有一个非常奇怪的问题,我正在寻找一些我还没有找到的其他解决方案。我们有一个基于 Cisco Nexus 3K 的网络,并且脊/叶之间的大多数核心链路都有 FCS CRC 错误。我之前在不同的网络中遇到过这些问题,并且使用不同的电缆或光纤进行修复总是很容易。现在我排除了所有典型的 L1 问题,但我仍然有这个问题。

所以,

  • 改变了纤维
  • 更换了光学元件(10G LR)
  • 改变了交换机端口
  • 将纤维清洗干净,用显微镜检查,超净
  • 我们在多个交换机上遇到问题
  • 有问题的链路是没有接线板的 2 米直接 SMF 电缆,而且在 ~1KM 路径上。两者都在 1310nm 双工以及双向 10G u/d 光学器件上。

现在,我绘制了每秒的错误率,我注意到所有图表的形状都相同。当一个机架的错误率上升时,另一个机架的错误率也会上升。奇怪的是,有 2 片叶子没有问题。配置几乎相同。所有链路都是 L3 路由端口。交换机在最新版本 (7.8) 上运行。目前还不清楚用户体验是什么,但在我看来,几周内出现 100.000 个 CRC 错误是不正常的。

以前有没有其他人遇到过这种情况,你的解决方法是什么?

非常感谢!

3个回答

我想发布问题突然消失了。它在我 5 月 21 日发表评论后几天又回来了,但现在它在 5 月 24 日左右就消失了。它一定是某种外部来源。我认为 DC 知道它是什么,但他们不会告诉我们。

非常感谢您的回答和评论。经验教训是,当您排除 OP 中提到的典型 L1 问题时,显然可以从您的设备外部触发 FCS CRC 错误。

将交换机从直通模式重新配置为存储转发模式可能会使故障排除更容易。有关更多详细信息,请参阅此线程和 Cisco文档

FCS 错误表明物理层存在问题。

有问题的链路是没有接线板的 2 米直接 SMF 电缆

根据具体的 PHY 模块,接收器可能会过载。检查数据表并验证 Tx 功率是否在 Rx 功率范围内。此外,请检查模块诊断 (DOM) 的功率水平——尽管不一定以表面价值看待它们,但某些模块报告的值不切实际。

SMF PHY 专为数公里的光纤而设计,非常短的链路可能无法提供足够的衰减。按照标准,10GBASE-LR(10 公里范围)可以直接连接,[1] 但有些发射器可能有点偏高。如果当您将光纤弯曲到相对较小的半径(< 20 mm)时情况有所改善,那么衰减器正是您所需要的。使用 DOM 值查看弯曲时接收电平的降低。

或者,您可以尝试使用衰减器(2 或 3 dB 就足够了)并查看 FCS 错误率是否发生变化。

[1] 根据 802.3 第 52 条,标称发射功率为 0.5 dBm,接收功率为 -14.4 至 0.5 dBm,因此在没有任何衰减的情况下,容差非常小,并且接收器可以在其上限运行。