我有一组非结构化数据,包括 Unix、Windows 等不同操作系统的命令输出日志。
例如:
于 2019 年 1 月 1 日发布 Stackoverflow 0.0.1 版。覆盖率为 99%,构建通过。
(这只是一个例子,与实际用例无关)。对于不同的操作系统,此输出是不同的。我想对这些数据进行标记
对于上述情况,输出应为:
PRODUCT_NAME 的版本 VERSION_NUMBER 于发布日期发布。TEST_TYPE 是 TEST_VALUE,TEST_TYPE 是 TEST_VALUE
在这里,一些单词被替换为它们对应的示例标签。
我研究过 POS 标记、NER、LSTM 等技术,但我不知道哪种技术适合这个特定问题。我如何从原始输出中收集数据以及如何在此处应用这些技术。
感谢所有愿意帮助我的人。