跟踪生产物联网设备中的异常和错误?

物联网 远程访问 产品设计
2021-06-17 00:37:12

目前公司如何跟踪物联网设备、网关和平台上的错误?我的公司正在使用papertrail来聚合来自所有设备的日志,但是当生产中发生错误时,这通常会让我们在多个系统之间徘徊。

在解决可能在一个地方(例如,在 IoT 平台上)产生的异常时,我正在寻找一种方法来减少我们的“找到根本原因的时间”,但起源于其他地方的问题堆栈——例如来自边缘设备的数据错误。

就我在这个领域所发现的而言,SentryRollbar非常适合在服务器或应用程序上进行异常跟踪,但不提供上一段中讨论的跟踪级联错误的方法。

是否有比文本记录更好的系统?我特别希望利用您从 Sentry 获得的面包屑样式事件,但在分布式系统中进行跟踪。

1个回答

分布式追踪

任何有价值的分布式跟踪背后的想法在这份关于他们的 Dapper 解决方案的 Google 白皮书中最广为人知请注意,我并不是说他们发明了它。从本质上讲,它对 IoT 的工作原理相同,只需在后端甚至终端设备的边缘开始跟踪即可。

虽然 Google 白皮书或多或少侧重于服务器端系统,但可以轻松调整该概念以包含终端设备。Netflix 通过最近开源的Vizceral进行的每个可视化都可以看到使用 trace 和 span id 来跟踪整个系统中的所有信息的魔力博客中在区域视图下可视化的内容完全基于实时日志分析,其中调用通过跟踪 ID 关联。请注意——就像谷歌在 Dapper 论文中提到的那样——Netflix 有他们 API 上的调用样本。谷歌在论文中提到了 1:1000——这是几年前的事了。显然,Netflix 的某些请求类型已经达到了 1:100 万。

我不了解您的系统,但很可能您可以从实际的 100% 跟踪开始。

无论哪种方式,只要您可以将跟踪从一开始就匹配到您的 IoT 设备,或者甚至可以首先在您的端点上创建跟踪 ID,那么没有什么可以阻止您以包括边缘设备的方式调整这些想法。