我正在尝试在我们一种产品的多个日志文件上构建数据集。
不同的日志文件有自己的布局和内容;我成功地将它们组合在一起,只剩下一步......
事实上,日志“消息”是最好的信息。我没有所有这些消息的完整列表,基于这些消息进行硬编码是个坏主意,因为该列表每天都在变化。
我想做的是将标识文本与值文本分开(例如:“加载的文件XXX”变为(标识:“加载的文件”,值:“XXX”))。不幸的是,这个例子很简单,在现实世界中有不同的布局,有时还有多个值。
我正在考虑使用字符串内核,但它是用于集群的......并且集群在这里不适用(我不知道不同类型消息的数量,尽管它会太多)。
你有什么主意吗?
谢谢你的帮助。
PS:对于那些编程的人来说,这可能更容易理解。假设代码包含日志 printf("blabla %s", "xxx") -> 我想将“blabla”和“xxx”分开