数据挖掘 - 比较一个小数据集和一个大数据集的相似记录 - 吾爱随笔录

数据挖掘 nlp 数据挖掘大数据相似

2021-10-04 03:01:37

我创建了一个不同的小数据集（数据集：X），每个查询中有 500 条记录。每次我需要将数据集与更大的数据集（数据集：A）（1500 万条记录）进行比较，以从三个不同的列中找到相似（或半相似）的值。值是一个单词或一个句子。我的算法是这样的：

但是，问题是搜索大数据非常慢。有什么有效的方法来解决这个问题吗？谢谢

1个回答

加快此过程的一种方法是预处理大型数据集，目标是以避免大量无用比较的方式存储来自 A 的文档。

将 A 中的每个文档存储在倒排索引中 $m$ ，所以对于任何单词 $w$ $m[w]$ 是 A 中所有包含 word 的文档的列表 $w$ （请注意，一个文档可以在此数据结构中出现多次）。
将新查询与 $A$ ，而不是遍历所有文档 $A$ 只需与至少有一个共同词的子集进行比较，即 $m[w]$ 对于每一个字 $w$ 在查询中。

夫妇评论：

这种问题在记录联动的任务中很常见。

其它你可能感兴趣的问题