我创建了一个不同的小数据集(数据集:X),每个查询中有 500 条记录。每次我需要将数据集与更大的数据集(数据集:A)(1500 万条记录)进行比较,以从三个不同的列中找到相似(或半相似)的值。值是一个单词或一个句子。我的算法是这样的:
- 在两个数据集中的每条记录中创建一个单词向量
- 使用 for 循环,在大数据集上搜索相似性(例如使用 tfidf)。这意味着小数据集中的每条记录都应该在大数据集中寻找可能的相似之处。
但是,问题是搜索大数据非常慢。有什么有效的方法来解决这个问题吗?谢谢
我创建了一个不同的小数据集(数据集:X),每个查询中有 500 条记录。每次我需要将数据集与更大的数据集(数据集:A)(1500 万条记录)进行比较,以从三个不同的列中找到相似(或半相似)的值。值是一个单词或一个句子。我的算法是这样的:
但是,问题是搜索大数据非常慢。有什么有效的方法来解决这个问题吗?谢谢
加快此过程的一种方法是预处理大型数据集,目标是以避免大量无用比较的方式存储来自 A 的文档。
夫妇评论:
这种问题在记录联动的任务中很常见。