对大量文件(电子书)进行文本搜索的软件

软件推荐 视窗 搜索引擎 文本处理 纯文本 正则表达式
2021-10-15 00:39:50

寻找一个 Windows 程序(类似于“Everything”),它可以:

  • 递归扫描非常大的目录(2-3TB,10000 个文件夹中的 10,000 个甚至 100,000 个文件)目录
  • 对于每个“文本”文件,完全索引其中的所有文本
  • 提供查找给定搜索字符串所在文件的能力。
  • “文本”文件至少包括 .txt、.pdf、.epub、.mobi。理想情况下,其他已知的电子书格式(.fb2、.doc、.docx)
  • 需要高级搜索能力(搜索所有/任何一组搜索词,否定搜索词。正则表达式,理想情况下。PCRE 非常理想)。

可选的所需功能:

  • 支持其他格式的非英文文本,用于索引和搜索;特别是俄语文本(KOI-8,Windows-1251)
  • 支持 Unicode(索引和搜索)。
  • 可以浏览档案(至少,.zip 和 .rar)
  • 良好的 GUI(想想“一切”应用程序)来显示搜索结果。快速过滤网格,每个找到的文件的操作菜单,包括复制位置,打开包含文件夹,复制/剪切文件,就像在 Windows 资源管理器菜单中一样。
  • 在文件系统上添加/删除/更改文件时,自动保持索引刷新,就像 Everything 所做的那样。
  • 理想情况下,只要价格合理,免费但不是必需的。
  • 需要 Windows XP。Windows8 额外奖励积分。
4个回答

据我所知,Windows 7 Explorer 具有您需要的所有基本功能,以及一些可选功能。


您可以通过两种方式在 Windows (7+) 中索引文件目录。直接索引目录,或使其成为一个库。

直接索引:参见此处:wikiHow:如何将文件夹添加到 Windows 7 文件索引

创建库:在资源管理器中,转到“库”,然后单击“新建库”。


Windows 中的高级搜索是我必须查找的内容,但 How-To Geek 有一篇内容丰富的文章。文章

还要确保您启用了文件内容搜索:wikiHow:如何使 Windows 7 搜索文件内容


附录:我在写完这篇文章后注意到 OP 要求使用 Windows XP。即使其他人不接受我也会继续这样做(所以我没有浪费 30 分钟)。

重获(桌面搜索)

 

您可以在 Wikipedia 上找到桌面搜索管理器列表,但我发现Regain 开源项目是一个明智的选择,除此之外它是免费的(如在 libre 中)并且也是开源且仍在开发中,这意味着将出现新功能(完整功能列表在这里)。

简短的介绍

Regain 是一个基于 Jakarta Lucene 的 Java 搜索引擎。它为多种格式(HTML、XML、doc(x)、xls(x)、ppt(x)、oo、PDF、RTF、mp3、mp4、Java)提供索引和搜索文件。TagLibrary 简化了将搜索结果集成到基于 JSP 的网页中。

我觉得非常有用的主要功能:

  • Web 服务器(因此可以在 LAN 中的所有设备上在 LAN 中访问它)
  • 托盘图标(快速访问)
  • 索引文件的缓存版本(有时加载大 PDF 不会付费)
  • 搜索关键字(强大的朗讯关键字集)
  • 可以支持其他格式(重新支持 I-Filter)
  • 支持API

只放几张截图:

在此处输入图像描述

在此处输入图像描述

开源DocFetcher为我索引了 10.000 多本 epub 书籍。索引过程很快,对所有这些书籍进行全文搜索(索引后)只需几秒钟。

Copernic 桌面搜索

对于基于全文的方法,可以使用 Windows Search 或Copernic Desktop Search(完整版 50 美元,非商业用途的免费版(“ Lite ”)限制为 75,000 个文件)。

尤其是 Copernic Desktop Search 拥有您需要的所有功能。我已经用 4,000,000 个文档对其进行了测试,搜索仍然非常快。它可以识别 AND、OR、NOT、NEAR 等运算符来支持您的搜索。