我正在做一个简历解析器项目。目前,我正在使用基于规则的正则表达式来提取大学、经验、大公司等特征。
所以基本上我在 CSV 中有一组大学的名称,如果简历包含其中一个,那么我将其提取为大学名称。以同样的方式,我有一个 CSV 中的大公司列表,如果简历包含其中任何一个,那么我将其标记为是。
所以这些都是基于规则的逻辑,考虑到不同的国家有不同的简历格式,这些逻辑永远不会是万无一失的。有没有其他方法可以提高准确性并使其成为全球解决方案?
我正在做一个简历解析器项目。目前,我正在使用基于规则的正则表达式来提取大学、经验、大公司等特征。
所以基本上我在 CSV 中有一组大学的名称,如果简历包含其中一个,那么我将其提取为大学名称。以同样的方式,我有一个 CSV 中的大公司列表,如果简历包含其中任何一个,那么我将其标记为是。
所以这些都是基于规则的逻辑,考虑到不同的国家有不同的简历格式,这些逻辑永远不会是万无一失的。有没有其他方法可以提高准确性并使其成为全球解决方案?
就在这里。看这篇一般信息抽取的论文
您可以在其中构建特征并围绕提取进行概括,而无需任何硬编码规则。