在阅读了一位朋友的草稿论文后,我花了三天时间涉足tm
其中,他用 UCINET 探索了一个文本语料库,显示了文本云、双模式网络图和单值分解(带有图形,使用 Stata)。我遇到了很多问题:在 Mac OS X 上,Java 背后的库如 Snowball(词干)或 Rgraphviz(图表)存在问题。
有人能指出不是包——我看过tm
,wordfish
和wordscores
, 并且知道 NLTK——而是研究,如果可能的话,用代码,对文本数据,成功地使用tm
或其他东西来分析数据,如议会辩论或立法文件?我似乎在这个问题上找不到太多东西,甚至可以学习的代码更少。
我自己的项目是为期两个月的议会辩论,这些变量在 CSV 文件中提供:议会会议、发言人、议会小组、口头发言文本。我正在寻找发言人之间的分歧,尤其是议会团体之间在使用罕见和不太罕见的术语方面的分歧,例如“安全谈话”反对“公民自由”谈话。