数据挖掘 - 创建词袋 - 吾爱随笔录

创建词袋

数据挖掘大数据文本挖掘

2022-02-27 07:18:44

使用 N-gram 创建我的自定义词袋的最佳技术是什么？我想知道可以通过 GUI 实现的功能。我不能使用点火，因为它在组织中不可用。虽然我可以得到 SAP Hana 或 R-hadoop。但是 R-hadoop 有点挑战，任何建议。

4个回答

使用 N-gram 创建我的自定义词袋以应用于

我最初的建议是使用Python 的 NLTK 库。NLTK 提供了从任意长度的文本或ngram 中轻松提取二元组的方法，以及分析这些项目的频率分布的方法。但是，所有这些都需要一些编程。

可以通过 GUI 实现的功能

这很棘手。你看过门吗？我不确定 GATE 是否/如何做你想要的，但它确实提供了一个 GUI。

你可以使用 SKlearn，它是一个 python 库。这是最简单的方法，我喜欢用最少的代码。您可以点击此链接http://scikit-learn.org/stable/modules/feature_extraction.html

查看LightSide以了解一般文本挖掘的 GUI 介绍，更具体地说，用于快速生成特征。它是由 CMU 的研究人员开发的（我相信仍在开发中），这就是我迷上文本挖掘的原因。有很多开箱即用的功能，您可以快速将 CSV 数据导入应用程序、提取特征并开始运行实验。它还利用了来自其他几个著名的、备受推崇的开源工具包（如 Weka 和 LibLinear）的算法套件，因此您知道自己使用的是可靠的底层工具。话虽如此，最后提到的这两个工具包绝对值得一试以增加功能，即使它们的学习曲线有点陡峭。希望有帮助。

我使用的另一个尚未提及的库是 gensim。它的Dictionary模块允许您将单词列表转换为 (id,count) 对的列表。它还有一个allow_update变量，用于在运行时遇到新词时更新字典。

它还内置了对 TF-IDF、LSI 和 LDA 等模型的支持。

其它你可能感兴趣的问题

上一篇提高文本分类的朴素贝叶斯精度下一篇决策树分类器如何工作？