识别非结构化数据(如文本文件)中的给定模式

数据挖掘 文本挖掘 算法 研究
2022-03-03 04:19:37

我不确定我是否必须在这里或在 Stackoverflow 中问它,但由于我也在寻找研究论文/算法而不仅仅是代码,所以我决定在这里做。

当我有文本时,我可以手动编写一个正则表达式来从我想从文件中提取的内容中查找所有可能的输出。我想做的,是找一个算法或者研究,它可以让你在文本文件中高亮(设置输入)你想要提取的相同(重复)数据的不同位置,训练算法然后识别所有其他与您设置的相同争用。

例如,假设我有一个带有多个标题的文本,这些标题以 .\n\n\n开头并以\n\n. 使用正则表达式很容易,但我想动态地做。

一个想法是构建一种算法,该算法将采用示例并自动创建正则表达式。但我不知道有任何这样的研究,也许还有其他技术可以实现。

有任何想法吗?

1个回答

这正是Trifecta产品所做的(除了其他功能)。它使用 Wrangle 语言,这是一种专为数据操作而设计的 DSL(领域特定语言)。同一个人有一个更早的研究项目,叫做Wrangler牧马人的论文可能会给你一些想法。