我不确定这个问题在这里是否完全合适,如果不合适,请删除。
我是经济学研究生。对于一个调查社会保险问题的项目,我可以访问大量涉及资格评估的行政案例报告(> 200k)。这些报告可能与个人管理信息相关联。我想从这些报告中提取可用于定量分析的信息,理想情况下不仅仅是使用grep
/awk
等进行简单的关键字/正则表达式搜索。
自然语言处理对此有多大用处?还有哪些有用的文本挖掘方法?据我了解,这是一个很大的领域,很可能某些报告必须进行转换才能用作语料库。是否值得花一些时间来熟悉文献和方法?它会有所帮助吗?以前有过类似的事情吗?就回报而言是否值得,即我可以使用 NLP 提取潜在有用的信息以进行经济学实证研究吗?
可能有资金聘请某人阅读和准备一些报告。这是一个更大的项目,有可能申请更多的资金。如果有必要,我可以提供有关该主题的更多详细信息。一种潜在的并发症是语言是德语,而不是英语。
关于资格,我主要接受计量经济学培训,并且在Hastie 等人的水平上对计算统计有一些了解。书。我知道 Python、R、Stata,并且可能很快就会熟悉 Matlab。鉴于库,我认为 Python 是首选的工具。如果这是相关的,则根本没有定性方法的培训,但我知道我可以联系到一些人。
我很高兴对此提出任何意见,即如果这可能有用,如果有用,从哪里开始阅读以及特别关注哪些工具。