关于文本挖掘的好书?

机器算法验证 参考 文本挖掘
2022-03-11 20:26:26

嗨,我想知道是否有一些关于文本挖掘和分类的好书以及一些案例研究?如果不是一些公众可以访问的论文/期刊会这样做。如果他们用 R 来说明他们的例子就更好了。我不是在寻找分步手册,而是在寻找能够说明各种文本挖掘方法对各类问题的优缺点的东西。

4个回答

查看 http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf 使用 MapReduce 进行数据密集型文本处理 - 这本书相当学术,但涵盖了许多常用的文本处理技术以及如何将它们并行化使用 map reduce 处理大型数据集。

www.rtexttools.com 这是一个出色的 R 包,可帮助您将广泛的分类算法(包括一些集成方法)应用于文本分析。

我最近阅读了该领域的四本书:

Feldman, R. 和 James Sanger, J. (2006)。文本挖掘手册:分析非结构化数据的高级方法。剑桥大学出版社。

这一篇侧重于实际示例、软件和应用文本挖掘。它给出了文本挖掘实际使用的多个示例。如果您想阅读有关文本挖掘工具的商业应用的信息,这可能会很有趣。

Srivastava, AN 和 Sahami, M. (2009)。文本挖掘:分类、聚类和应用。查普曼和霍尔/CRC。

这是一系列研究论文,用作不同文本挖掘工具的使用示例。对于入门测试,它过于集中。

Weiss, SM, Indurkhya, N., Zhang, T. 和 Damerau, F. (2005)。文本挖掘:分析非结构化信息的预测方法。 施普林格。

非常介绍性的文字,描述了一些一般性问题。

曼宁,C.(1999 年)。统计自然语言处理的基础。麻省理工学院出版社。

这是我已经读过的关于这个主题的最好的书。它写得好,清晰,深入理论,但以实践友好的方式。从一般介绍开始,然后回顾一些最常用的方法和算法。如果你只能选择一本书,我会推荐这本书。

您还可以轻松找到多本侧重于使用 R(tm库)或 Python(nltk库)的自然语言处理和文本挖掘的书籍。

这可能并不完全符合您的要求,但是Jeffrey Friedl 的Mastering Regular Expressions是学习如何使用正则表达式解析文本的重要来源。他没有讨论建模技术,但是,借助应用正则表达式的计数,您可以应用各种标准建模方法。

我一次又一次地为了想法而回顾的一本书是文本挖掘:预测方法……作者是 Sholom Weiss。它有很多解决问题的想法,我觉得这些想法很有用,因为有时文本挖掘是关于尝试不同的事情——全局与本地字典、要保留的特征数量等。我发现这本书是一个很好的想法生成器。它也有案例研究。