机器算法验证 - 如何降低文本文档数据集的维度？ - 吾爱随笔录

如何降低文本文档数据集的维度？

机器算法验证数据集文本挖掘降维

2022-03-24 06:44:10

我对文本数据集的降维有一个基本的疑问，例如。20Newsgroup、rcv1 等。最初我提取每个文档中单词出现的次数，即单词 x 文档矩阵将是 $n \times d$ 在哪里 $n$ 是文档的数量和 $d$ 是维度。

我想减小尺寸，比如说 $d_1 << d$ . 缩小尺寸的标准技术是什么？

选择顶部 $d_1$ 来自原始单词出现矩阵的特征 $( n \times d)$ 然后计算缩减矩阵的 TF-IDF $(n \times d_1)$ ，或者
计算 TF-IDF 矩阵 $n \times d$ 矩阵，然后选择顶部 $d_1$ 特征。

此外，在许多文献中都提到选择顶部特征。我想知道选择顶级功能意味着什么？他们如何定义它？

1个回答

当初始 TF-IDF 矩阵将文档存储在列中时，我将使用已建立的符号，并且行对应于术语出现或术语的 tf/idfs。让 $A$ 是 $(n \times d)$ 矩阵与 $d$ 文件和 $n$ 方面。

在文本挖掘中进行特征缩减的标准方法是潜在语义索引。关键思想是对SVD分解进行一点修改 $n \times d$ TF-IDF 矩阵（或只是单词出现矩阵）。

特别是，让我们的初始矩阵 $A$ 被分解：

A = S \times D \times T^{t},

$A = S\times D \times T^t,$ 在哪里

S, D, T^{t}

$S, D, T^t$ 有尺寸

(n \times r), (r \times r), (r \times d)

$(n \times r), (r \times r), (r \times d)$ 分别和

D

$D$ 是一个对角矩阵

A

$A$ '对角线上的排序奇异值：

D = d i a g (d_{1}, d_{2}, \dots, d_{r}), d_{1} \leq \dots d_{r}

$D = diag(d_1,d_2,\dots,d_r), d_1 \le \dots d_r$ .

在潜在语义索引中执行的修改是截断矩阵 $D$ 所以只有 $k \le r$ 最大的奇异值仍然存在。可以证明， $A \approx A_k = S_k \times D_k \times T_k^t$ ，在哪里 $S_k$ 是 $n \times k$ 第一个矩阵 $k$ 列 $S$ , $T_k^t$ 是 $k \times d$ 第一个矩阵 $k$ 行 $T^t$ ，和 $D_k = diag(r_1,\dots,r_k)$ . 矩阵 $T_k$ 是一个概念文档矩阵，其中行存储文档的简化描述。此外，您可以将文本挖掘算法应用于该矩阵，因为您可以将它们应用于初始 TF-IDF 矩阵。

其它你可能感兴趣的问题

上一篇如何模拟功能数据？下一篇二项分布的估计器