监控接口上阈值错误的最佳实践?

网络工程 以太网 监控 最佳实践
2021-07-19 05:14:25

在监控接口错误时,您应该根据最佳实践将“关键”阈值设置为多少百分比的流量,它是否取决于接口类型(T1、以太网等)?如果你能解释特定百分比的理由,那将是一个巨大的奖励。我在各种网站上发现一些线程评论提到 1%,但没有真正的理由。

3个回答

以太网标准官方允许 10^-12 位误码率,而在实践中,硬件满足比标准要求更好的 BER。

您还应该能够使用“SQA”(服务质量保证)或“SLA”(服务水平协议),一些公司发布它们,您可以使用它们来检查您的竞争对手提供的产品并提供该级别的产品。

我们的 SQA 向客户声明 0.02% 是小故障(如果开票我们会修复),我认为这对于光纤连接来说是相当大的数据包丢失,但相同的 SQA 也涵盖了 DSL,所以我们不想过于激进它。到目前为止,这对客户来说已经足够了,但如果它损害销售,我们准备减少数量。

网上有几个 bingable 工具,您可以在其中检查丢包对 TCP 的影响有多大,这在决定您的应用程序/产品可接受的丢包率时可能是有用的信息:

多久产生流量?

以太网/SONET 网络通常部署有 GBIC、SFP 或 XFP。根据 GBIC、SFP 和 XFP 的质量,网络可能具有 10-12 到 10-15 的保证错误率。对于错误率为 10-12 的标准 GigE 网络,用户每天会遇到一些错误。在 10-15 的错误率下,用户每周将遇到大约一个错误。应运行 15 分钟的无错误测试,以确认网络已正确配置并且电路能够处理流量。较长的测试为电路质量提供了更多的统计信息,而较短的测试提供的信息较少。

来源:

对于 10 千兆位以太网,BER 建议为 10^-13,以实现与千兆位以太网相同的每天错误数。

来源:

其他一些消息来源称 10GE 为 10^-12。如果您将 GE 和 10GE 都设置为 10^-12,那可能是一个不错的数字。

如今,对于许多网络设备而言,10g 链路上的 1% 丢失可能是一个大问题。如果您正在查看机架/数据中心内部,您真的应该尝试最大程度地减少网络中数据包丢失/错误的情况。

错误也可能是交换机意外变成集线器(戴尔 55xx 交换机在某些固件版本中存在一个错误,该错误会在 49.5 天后禁用其 mac 学习)-我们发现它的一个原因是因为我们一直在跟踪链接很长一段时间,我们的交换机上没有 MAC 的流量。

同样对于那些在托盘中安装 AC 或其他线路的人,您可能会看到错误率有所增加,这可能有助于向管理层证明您确实应该重新定位通风室中的某些电缆或升级到光纤线路以进行这些运行。