使用 N-gram 创建我的自定义词袋的最佳技术是什么?我想知道可以通过 GUI 实现的功能。我不能使用点火,因为它在组织中不可用。虽然我可以得到 SAP Hana 或 R-hadoop。但是 R-hadoop 有点挑战,任何建议。
创建词袋
数据挖掘
大数据
文本挖掘
2022-02-27 07:18:44
4个回答
使用 N-gram 创建我的自定义词袋以应用于
我最初的建议是使用Python 的 NLTK 库。NLTK 提供了从任意长度的文本或ngram 中轻松提取二元组的方法,以及分析这些项目的频率分布的方法。但是,所有这些都需要一些编程。
可以通过 GUI 实现的功能
这很棘手。你看过门吗?我不确定 GATE 是否/如何做你想要的,但它确实提供了一个 GUI。
你可以使用 SKlearn,它是一个 python 库。这是最简单的方法,我喜欢用最少的代码。您可以点击此链接http://scikit-learn.org/stable/modules/feature_extraction.html
查看LightSide以了解一般文本挖掘的 GUI 介绍,更具体地说,用于快速生成特征。它是由 CMU 的研究人员开发的(我相信仍在开发中),这就是我迷上文本挖掘的原因。有很多开箱即用的功能,您可以快速将 CSV 数据导入应用程序、提取特征并开始运行实验。它还利用了来自其他几个著名的、备受推崇的开源工具包(如 Weka 和 LibLinear)的算法套件,因此您知道自己使用的是可靠的底层工具。话虽如此,最后提到的这两个工具包绝对值得一试以增加功能,即使它们的学习曲线有点陡峭。希望有帮助。
我使用的另一个尚未提及的库是 gensim。它的Dictionary模块允许您将单词列表转换为 (id,count) 对的列表。它还有一个allow_update变量,用于在运行时遇到新词时更新字典。
它还内置了对 TF-IDF、LSI 和 LDA 等模型的支持。
其它你可能感兴趣的问题