数据挖掘 - 如何解释 Hashingvectorizer 表示？ - 吾爱随笔录

数据挖掘 nlp 文本挖掘预处理

2022-03-14 05:15:11

我无法真正理解用于文本特征提取的 Hashingvectorizer 背后的逻辑。我可以遵循 Bag of Word 或 TFiDF 的逻辑，其中特征是每个文档的所有/某些单词/N-gram 的值，因此可以计算表示向量之间的（不）相似性。

1个回答

基本背景

想象一下计数向量化器的过程：您首先创建一个词汇表，它将每个单词（或 n-gram）映射到一个整数索引（文档术语矩阵中的索引）。然后，对于每个文档，您计算一个单词出现的次数，并将该值设置在适当的索引处，以构建文档的向量表示。
这可能会创建大量的特征，因为每个 n-gram/token 都是一个特征。
即使你想通过使用一些技巧来限制特征的总数，比如出现前 N 个单词，你仍然需要计算所有单词计数的映射并将其保存在内存中。这在某些应用程序中可能会令人望而却步。
TfIDf 也会出现类似的问题，您还需要存储单词到文档出现的映射以计算 IDf 部分。
无论哪种方式，您都在对数据进行多次传递和/或潜在的大量内存消耗。
问题还在于界限或可预测性：您不知道第一阶段的潜在内存使用情况。
散列矢量化器可以一次通过数据为所有文档构建文档表示，并且仍然保持内存有限（不一定很小，大小取决于哈希表的大小）。
在一次通过中，您计算令牌的哈希值。根据哈希值，您可以增加哈希表（哈希表实现底层的数组）中特定索引的计数。您无需查看语料库中的所有其他文档即可获得当前文档的表示。
这引起了表示准确性的问题。两个不同的令牌可能有哈希冲突。

所以你实际上是在交易 [表示准确性和解释力] Vs。[空间（有界的可预测内存使用）和时间（数据没有多次传递）]。

回答您的具体问题

为什么它会起作用？

鉴于这些信息，您的怀疑是正确的：为什么这应该有效？答案是经验性的：像散列这样的随机表示在实践中工作得相当好（基于精确计数的表示的好处并不是那么大）。可能也有一些理论上的解释，但我不太了解。如果好奇，您可能可以阅读这篇论文。

其它你可能感兴趣的问题