我对文本数据集的降维有一个基本的疑问,例如。20Newsgroup、rcv1 等。最初我提取每个文档中单词出现的次数,即单词 x 文档矩阵将是 在哪里是文档的数量和是维度。
我想减小尺寸,比如说. 缩小尺寸的标准技术是什么?
- 选择顶部来自原始单词出现矩阵的特征然后计算缩减矩阵的 TF-IDF, 或者
- 计算 TF-IDF 矩阵矩阵,然后选择顶部特征。
此外,在许多文献中都提到选择顶部特征。我想知道选择顶级功能意味着什么?他们如何定义它?
我对文本数据集的降维有一个基本的疑问,例如。20Newsgroup、rcv1 等。最初我提取每个文档中单词出现的次数,即单词 x 文档矩阵将是 在哪里是文档的数量和是维度。
我想减小尺寸,比如说. 缩小尺寸的标准技术是什么?
此外,在许多文献中都提到选择顶部特征。我想知道选择顶级功能意味着什么?他们如何定义它?
当初始 TF-IDF 矩阵将文档存储在列中时,我将使用已建立的符号,并且行对应于术语出现或术语的 tf/idfs。让是矩阵与文件和方面。
在文本挖掘中进行特征缩减的标准方法是潜在语义索引。关键思想是对SVD分解进行一点修改TF-IDF 矩阵(或只是单词出现矩阵)。
特别是,让我们的初始矩阵被分解:
在潜在语义索引中执行的修改是截断矩阵所以只有最大的奇异值仍然存在。可以证明, , 在哪里是第一个矩阵列,是第一个矩阵行, 和. 矩阵是一个概念文档矩阵,其中行存储文档的简化描述。此外,您可以将文本挖掘算法应用于该矩阵,因为您可以将它们应用于初始 TF-IDF 矩阵。