机器算法验证 - 使用 R 进行文本挖掘的示例（tm 包） - 吾爱随笔录

使用 R 进行文本挖掘的示例（tm 包）

机器算法验证 r 文本挖掘

2022-03-11 21:07:02

在阅读了一位朋友的草稿论文后，我花了三天时间涉足tm其中，他用 UCINET 探索了一个文本语料库，显示了文本云、双模式网络图和单值分解（带有图形，使用 Stata）。我遇到了很多问题：在 Mac OS X 上，Java 背后的库如 Snowball（词干）或 Rgraphviz（图表）存在问题。

有人能指出不是包——我看过tm,wordfish和wordscores, 并且知道 NLTK——而是研究，如果可能的话，用代码，对文本数据，成功地使用tm或其他东西来分析数据，如议会辩论或立法文件？我似乎在这个问题上找不到太多东西，甚至可以学习的代码更少。

我自己的项目是为期两个月的议会辩论，这些变量在 CSV 文件中提供：议会会议、发言人、议会小组、口头发言文本。我正在寻找发言人之间的分歧，尤其是议会团体之间在使用罕见和不太罕见的术语方面的分歧，例如“安全谈话”反对“公民自由”谈话。

2个回答

来自奥地利的 tm 的作者 Ingo Feinerer 的博士论文是用英语撰写的。本文档的第 7-10 章包含 tm 包的应用程序，并且越来越复杂。

http://epub.wu.ac.at/1923/

第 7 章通过分析 R-devel 2006 邮件列表来介绍 tm 的应用。第 8 章展示了商业文本挖掘在消费者电子商务中的应用。第 9 章是 tm 对奥地利最高行政法院管辖区税费的调查的应用。[...]。第 10 章展示了在 Wizard of Oz 数据集上进行样式测量和作者归属的应用程序。

从头到尾阅读整个文档。但是请注意，该文档是在 2008 年编写的，从那时起，API 发生了一些变化，例如，博士论文提到了一个tmMap()已重命名为tm_map(). 所以代码示例不会按原样工作，您不能使用剪切和粘贴来尝试它们。

你也可以去

http://tm.r-forge.r-project.org/users.html

“为了让新用户了解现有的 tm 应用程序，本网站旨在提供 tm 用户及其评论的（不完整的字母顺序）列表。已知用户范围从研究机构到公司再到个人。”

并在该页面上搜索短语“wrote a paper”，您会发现许多链接。我只读过一篇论文，“歌词中的自动主题检测”。很有趣，也很有趣。

一个好的起点可能是网站上的出版物列表tm，例如：

R中的文本挖掘基础设施。http://www.jstatsoft.org/v25/i05

这些出版物末尾的参考文献列表包括的成功应用tm，这似乎是您正在寻找的。有很多 - 特别是如果您随后遵循参考的参考。

例如，这可能是相关的：

Feinerer I，Hornik K (2007)。\最高行政法院司法管辖区的文本挖掘。”在 C Preisach、H Burkhardt、L Schmidt-Thieme、R Decker（编辑）、\数据分析、机器学习和应用程序（第 31 届 Gesellschaft f ur Klassikation eV，3 月 7 日{9，2007，德国弗莱堡），“经典、数据分析和知识组织研究。施普林格出版社。

祝你好运。

其它你可能感兴趣的问题

上一篇如何缩放小提琴图以进行比较？下一篇方差的实际应用是什么？