我需要从简历中提取公司名称。成千上万的人。我正在考虑使用 NLTK 创建可能的公司列表,然后使用 SEC.gov 之类的东西交叉引用字符串列表。
我已经能够成功地使用一些正则表达式从简历中提取候选人的姓名和联系信息,但这让我很困惑。
我在想的是,我可以使用 NLTK 从简历中创建专有名词字符串列表,然后搜索 SEC.gov 或其他数据库。
这是我要搜索的 SEC 页面的链接:SEC 公司搜索页面
Read Resume1
Get all potential company names as list of strings potentialCompanies
IF searching for string1 in SEC gets result, THEN add to candidateCompanies
ELSE remove from potentialCompanies, go to next string
我的问题
对于使用过 NLTK 的人,除了使用专有名词之外,还有更好的方法从文本中获取潜在公司吗?
有比 SEC 网站更好的搜索公司的地方吗?
我以前从未做过任何网络抓取,如果需要,我真的不知道从哪里开始。
(我已经在 Stack Overflow 上发布了这个,但他们告诉我它可能更适合这里......)