使用文本挖掘/自然语言处理工具进行计量经济学

机器算法验证 机器学习 数据挖掘 计量经济学 文本挖掘 自然语言
2022-03-19 06:49:40

我不确定这个问题在这里是否完全合适,如果不合适,请删除。

我是经济学研究生。对于一个调查社会保险问题的项目,我可以访问大量涉及资格评估的行政案例报告(> 200k)。这些报告可能与个人管理信息相关联。我想从这些报告中提取可用于定量分析的信息,理想情况下不仅仅是使用grep/awk等进行简单的关键字/正则表达式搜索。

自然语言处理对此有多大用处?还有哪些有用的文本挖掘方法?据我了解,这是一个很大的领域,很可能某些报告必须进行转换才能用作语料库。是否值得花一些时间来熟悉文献和方法?它会有所帮助吗?以前有过类似的事情吗?就回报而言是否值得,即我可以使用 NLP 提取潜在有用的信息以进行经济学实证研究吗?

可能有资金聘请某人阅读和准备一些报告。这是一个更大的项目,有可能申请更多的资金。如果有必要,我可以提供有关该主题的更多详细信息。一种潜在的并发症是语言是德语,而不是英语。

关于资格,我主要接受计量经济学培训,并且在Hastie 等人的水平上对计算统计有一些了解。书。我知道 Python、R、Stata,并且可能很快就会熟悉 Matlab。鉴于库,我认为 Python 是首选的工具。如果这是相关的,则根本没有定性方法的培训,但我知道我可以联系到一些人。

我很高兴对此提出任何意见,即如果这可能有用,如果有用,从哪里开始阅读以及特别关注哪些工具。

1个回答

我认为定义要从数据中提取的信息对您有益。简单的关键字/正则表达式搜索实际上可能对您很有成效。我在保险业工作,我们经常使用这种文本挖掘——它可以说是幼稚的,绝对是不完美的,但它是我们通常感兴趣的一个相对好的开始(或接近的近似值)。

但就我的主要观点而言,为了确定您选择的方法是否合适,我建议您定义您想要从数据中提取的确切内容;在我看来,这是最难的部分。

在所有字符串中找到唯一的单词并计算前 1000 个单词左右的频率可能会很有趣。这可能在计算上很昂贵(取决于您的 RAM/处理器),但看起来可能很有趣。如果我在对数据了解不多的情况下探索数据,这就是我要开始的地方(其他人可能会提供不同的观点)。

希望有帮助。