Python:使用数据库搜索验证 NLTK 数据的存在

数据挖掘 Python nlp nltk
2022-02-04 17:19:41

我需要从简历中提取公司名称。成千上万的人。我正在考虑使用 NLTK 创建可能的公司列表,然后使用 SEC.gov 之类的东西交叉引用字符串列表。

我已经能够成功地使用一些正则表达式从简历中提取候选人的姓名和联系信息,但这让我很困惑。

我在想的是,我可以使用 NLTK 从简历中创建专有名词字符串列表,然后搜索 SEC.gov 或其他数据库。

这是我要搜索的 SEC 页面的链接:SEC 公司搜索页面

Read Resume1
Get all potential company names as list of strings potentialCompanies
    IF searching for string1 in SEC gets result, THEN add to candidateCompanies
        ELSE remove from potentialCompanies, go to next string

我的问题

对于使用过 NLTK 的人,除了使用专有名词之外,还有更好的方法从文本中获取潜在公司吗?

有比 SEC 网站更好的搜索公司的地方吗?

我以前从未做过任何网络抓取,如果需要,我真的不知道从哪里开始。

(我已经在 Stack Overflow 上发布了这个,但他们告诉我它可能更适合这里......)

1个回答

NLTK 有一个内置的 NER 模型,可以从文本中提取潜在的组织,您可以在此处阅读(并查看示例)NLTK 书(查找“5 命名实体识别”部分)。

但是,如果您的输入文本在 NLTK NER 模型未看到的非常特定的上下文中具有组织,则性能可能会非常低。在这种情况下,您应该考虑训练自己的 NER 模型,什么会提取公司名称。为此,您需要手动标记少量数据集。