我有成千上万的简历/简历。我们想构建一个可以从简历中提取公司名称的解析器。
到目前为止,我们已经尝试过
维护公司(例如 Org、Ltd、Limited、Technologies 等)中出现的常用词列表,并使用它们来识别可能的公司。但是这个列表是有限的,很多时候很多公司都没有被提取出来。
使用 CV 的 HTML,我们尝试为可能具有特定功能的公司(如粗体、斜体)给予更高的分数
由于简历不仅仅是文本,而且我们总是有一些结构信息。应该有更好的方法来提取信息。也许训练一些可以预测简历中提到的公司的模型。我们对任何更好的方法/建议持开放态度,我们可以将其纳入我们的系统以提高准确性。到目前为止的精度真的很差(低于 45%)。
我们已经在简历中做了工作经验的分割。因此,我们能够以非常高的精度提取包含工作经验的片段。
我们还有一份完整的公司名单(百万)。尽管它包含重复项并且需要大量清洁。但是是的,我们有很多数据
编辑
我们正在尝试的其他方法 - 我们尝试使用 N-Grams 预测文本中的重要短语,然后将它们标记为可能的公司。然后我们与我们一起搜索公司语料库以找到任何匹配项。这种技术有多大用处?有更好的方法吗?