数据挖掘 - 如何从简历中提取重要短语（可能包含公司名称）？ - 吾爱随笔录

我有成千上万的简历/简历。我们想构建一个可以从简历中提取公司名称的解析器。

到目前为止，我们已经尝试过

维护公司（例如 Org、Ltd、Limited、Technologies 等）中出现的常用词列表，并使用它们来识别可能的公司。但是这个列表是有限的，很多时候很多公司都没有被提取出来。
使用 CV 的 HTML，我们尝试为可能具有特定功能的公司（如粗体、斜体）给予更高的分数

由于简历不仅仅是文本，而且我们总是有一些结构信息。应该有更好的方法来提取信息。也许训练一些可以预测简历中提到的公司的模型。我们对任何更好的方法/建议持开放态度，我们可以将其纳入我们的系统以提高准确性。到目前为止的精度真的很差（低于 45%）。

我们已经在简历中做了工作经验的分割。因此，我们能够以非常高的精度提取包含工作经验的片段。

我们还有一份完整的公司名单（百万）。尽管它包含重复项并且需要大量清洁。但是是的，我们有很多数据

编辑

我们正在尝试的其他方法 - 我们尝试使用 N-Grams 预测文本中的重要短语，然后将它们标记为可能的公司。然后我们与我们一起搜索公司语料库以找到任何匹配项。这种技术有多大用处？有更好的方法吗？