人工智能 - 为什么在训练文本分类器时文档是分开的？ - 吾爱随笔录

为什么在训练文本分类器时文档是分开的？

人工智能自然语言处理文本分类 tf-idf 词袋

2021-10-27 00:54:23

大多数文献将文本分类视为文档的分类。在使用词袋和贝叶斯分类时，他们通常使用统计量 TF-IDF，其中 TF 使用每个文档的词数对词数进行归一化，而 IDF 侧重于忽略广泛使用的无用词。

我的问题是，如果可以合并同一类的所有文档，为什么他们将文档分开并创建该统计信息？这将有两个优点：

您可以只使用字数而不是频率，因为每个类别标签的文档是 1。
您只需选择类之间具有足够标准差的特征，而不是使用 IDF。

1个回答

我的问题是，如果可以合并同一类的所有文档，为什么他们将文档分开并创建该统计信息？这将有两个优点：

您可以只使用字数而不是频率，因为每个类别标签的文档是 1。

一般来说，我认为情况并非如此。我不知道你是否有一个特定的方程式，它最终在数学上是一样的？无论如何，一般来说，您的语料库中的某些文档可能很短，而另一些则很长。在这种情况下，您仍然需要确保使用频率而不是原始字数。

例如，假设您有一个非常短的文本，专门针对英格兰。“England”这个词可能会出现 10 次，但由于它是一个短文本，所以出现的频率非常高。如果将其与有关世界上所有国家/地区的大量文本进行比较，则该大量文本可能会出现 20 次“英格兰”一词，但（相对）频率要低得多。

您只需选择类之间具有足够标准差的特征，而不是使用 IDF。

我认为这不能正常工作，因为您可能在单个类中的文档之间存在显着差异。例如，假设您有以下两类文档：

科学文章（关于人工智能、数学、生物学、语言学、天文学，任何你能想到的……）
新闻文章

单个“科学文章”类中的每个“子域”都可能具有它们使用的一些高度特定的术语，这些术语可以通过 TF-IDF 检测到。但是，即使它们都属于同一类“科学文章”，它们也可能彼此完全不同。如果将它们全部放在一起并将它们视为单个文档，则存在它们将全部“平均化”并且变得更难以与更一般的类（例如“新闻文章”类）区分开来的风险。

其它你可能感兴趣的问题

上一篇如何处理少量标记样本？下一篇最近出现的围棋计算机是否代表了人工智能？