我似乎无法在 Python 中找到等效的 tidytext(R 库)。与 R 相比,Python 中的文本挖掘似乎相当薄弱。
Python 是否具有 R 的 tidytext 等价物?
数据挖掘
Python
r
文本挖掘
2022-02-25 06:03:38
2个回答
Scikit-learn 有一个很好的潜在狄利克雷分配实现,我认为它与 tidytext 中的实现一样简单易用。这里有教程。
此外,Python 有 SpaCy,在 NLP 管道工具方面,它比 R 迄今为止的任何东西都更光滑,
我确实喜欢 R,而且我觉得它仍然是一种比 Python 更好的整理和处理数据的语言。Tidytext 目前在获取数据进出主题模型方面比 Python 中的任何东西都好。但是,对于文本挖掘,Python 是比 R 更好的资源。
要添加到@Nicholas James Bailey 的答案:
tidytext为两种不同的主要操作提供功能:文本挖掘和文本建模。
我认为我们标记、整理和准备文本数据的文本挖掘部分更加独特。正如所指出的,文本数据有几种模型替代方案,其中一些可以说更好。
在python中的文本挖掘方面,这是我总结的经验。有一些有用的库,例如NLTK 和其他。此外,许多文本处理操作(如标记化)在 python 中使用基本功能比在 R 中更容易实现,无需外部包。
然而,它最大的优势tidytext是它的整洁方法,这对于 R 尤其是tidyverse环境来说是非常独特的。
我的首选解决方案
因此,我实际上已经停止寻找 Python 的替代品tidytext,而是在 R 中准备和整理我的数据,然后通过reticulate在我的 R 笔记本中集成它们来在 Python 中建模。
其它你可能感兴趣的问题