我有如下文件:https ://pastebin.com/5mkXY1aU
这些是通过填写预定义的表格来创建的,因此有成千上万的表格可以匹配一个模式。
为了简单起见,我将尝试给出更通用的示例。
假设我有数千个使用不同模式创建的文档,例如`
- "sjkghkjfs <data> skjfs <data> kjskdfjsfkjs <data> sahkj";
- "tretyer erytewr fskjdf <data> trjk";
- "sdhfjsdhj <data> <data> <data> dsjadh";
- "<data> djfhsdk";` and so on.
<data>可以是任何字符串。
我事先不知道这些模式是什么。我想找出他们。
我可以很容易地想出一些蛮力解决方案,但它显然不适用于如此大量的数据。
在我看来,这听起来像是一个可能已经解决的问题。
我想知道是否有一些现成的软件工具可以直接用来解决这个问题,或者至少是一个库?
如果没有一个,我应该如何以最轻松的方式解决它?
找出这些模式是一次性的任务,所以我不喜欢花几天时间从头开始实施解决方案。