如何降低文本文档数据集的维度?

机器算法验证 数据集 文本挖掘 降维
2022-03-24 06:44:10

我对文本数据集的降维有一个基本的疑问,例如。20Newsgroup、rcv1 等。最初我提取每个文档中单词出现的次数,即单词 x 文档矩阵将是n×d 在哪里n是文档的数量和d是维度。

我想减小尺寸,比如说d1<<d. 缩小尺寸的标准技术是什么?

  1. 选择顶部d1来自原始单词出现矩阵的特征(n×d)然后计算缩减矩阵的 TF-IDF(n×d1), 或者
  2. 计算 TF-IDF 矩阵n×d矩阵,然后选择顶部d1特征。

此外,在许多文献中都提到选择顶部特征。我想知道选择顶级功能意味着什么?他们如何定义它?

1个回答

当初始 TF-IDF 矩阵将文档存储在列中时,我将使用已建立的符号,并且行对应于术语出现或术语的 tf/idfs。A(n×d)矩阵与d文件和n方面。

在文本挖掘中进行特征缩减的标准方法是潜在语义索引关键思想是对SVD分解进行一点修改n×dTF-IDF 矩阵(或只是单词出现矩阵)。

特别是,让我们的初始矩阵A被分解:

A=S×D×Tt,
在哪里S,D,Tt有尺寸(n×r),(r×r),(r×d)分别和D是一个对角矩阵A'对角线上的排序奇异值:D=diag(d1,d2,,dr),d1dr.

在潜在语义索引中执行的修改是截断矩阵D所以只有kr最大的奇异值仍然存在。可以证明, AAk=Sk×Dk×Tkt, 在哪里Skn×k第一个矩阵kS,Tktk×d第一个矩阵kTt, 和Dk=diag(r1,,rk). 矩阵Tk是一个概念文档矩阵,其中行存储文档的简化描述。此外,您可以将文本挖掘算法应用于该矩阵,因为您可以将它们应用于初始 TF-IDF 矩阵。