在文本文档中搜索项目列表的有效方法

数据挖掘 Python 数据挖掘 文本挖掘 算法 优化
2022-02-10 23:33:43

我有一个项目列表(大小~50K)和几个文档(每个文档的平均页面~10)。我正在尝试查找每个文档中列出的所有项目,如下所示:

for document in documents_folder:
    document_text = extract_content(document)
    for item in item_list:
        if item is found in document_text:
             save(doument,item)

每个文档执行大约需要 5 秒。

如何优化?这是最好的方法吗?有一个更好的方法吗 ?

任何建议表示赞赏

1个回答

我以前没有尝试过,但我会建议:

  1. 从所有文档中获取所有唯一项:

  2. 创建一个字典,其中键是该唯一项目,值是该项目所在的文档 ID(文档名称)列表。

一旦你完成了。只需在字典键中搜索您的项目,它将返回该项目所在的所有文档 ID。

这种算法在信息检索中称为倒排索引。