使用 R 进行文本挖掘的示例(tm 包)

机器算法验证 r 文本挖掘
2022-03-11 21:07:02

在阅读了一位朋友的草稿论文后,我花了三天时间涉足tm其中,他用 UCINET 探索了一个文本语料库,显示了文本云、双模式网络图和单值分解(带有图形,使用 Stata)。我遇到了很多问题:在 Mac OS X 上,Java 背后的库如 Snowball(词干)或 Rgraphviz(图表)存在问题。

有人能指出不是包——我看过tm,wordfishwordscores, 并且知道 NLTK——而是研究,如果可能的话,用代码,对文本数据,成功地使用tm或其他东西来分析数据,如议会辩论或立法文件?我似乎在这个问题上找不到太多东西,甚至可以学习的代码更少。

我自己的项目是为期两个月的议会辩论,这些变量在 CSV 文件中提供:议会会议、发言人、议会小组、口头发言文本。我正在寻找发言人之间的分歧,尤其是议会团体之间在使用罕见和不太罕见的术语方面的分歧,例如“安全谈话”反对“公民自由”谈话。

2个回答

来自奥地利的 tm 的作者 Ingo Feinerer 的博士论文是用英语撰写的。本文档的第 7-10 章包含 tm 包的应用程序,并且越来越复杂。

http://epub.wu.ac.at/1923/

第 7 章通过分析 R-devel 2006 邮件列表来介绍 tm 的应用。第 8 章展示了商业文本挖掘在消费者电子商务中的应用。第 9 章是 tm 对奥地利最高行政法院管辖区税费的调查的应用。[...]第 10 章展示了在 Wizard of Oz 数据集上进行样式测量和作者归属的应用程序。

从头到尾阅读整个文档。但是请注意,该文档是在 2008 年编写的,从那时起,API 发生了一些变化,例如,博士论文提到了一个tmMap()已重命名为tm_map(). 所以代码示例不会按原样工作,您不能使用剪切和粘贴来尝试它们。

你也可以去

http://tm.r-forge.r-project.org/users.html

“为了让新用户了解现有的 tm 应用程序,本网站旨在提供 tm 用户及其评论的(不完整的字母顺序)列表。已知用户范围从研究机构到公司再到个人。”

并在该页面上搜索短语“wrote a paper”,您会发现许多链接。我只读过一篇论文,“歌词中的自动主题检测”。很有趣,也很有趣。

一个好的起点可能是网站上的出版物列表tm,例如:

这些出版物末尾的参考文献列表包括 的成功应用tm,这似乎是您正在寻找的。有很多 - 特别是如果您随后遵循参考的参考。

例如,这可能是相关的:

Feinerer I,Hornik K (2007)。\最高行政法院司法管辖区的文本挖掘。”在 C Preisach、H Burkhardt、L Schmidt-Thieme、R Decker(编辑)、\数据分析、机器学习和应用程序(第 31 届 Gesellschaft f ur Klassikation eV,3 月 7 日{9,2007,德国弗莱堡),“经典、数据分析和知识组织研究。施普林格出版社。

祝你好运。