为什么在训练文本分类器时文档是分开的?

人工智能 自然语言处理 文本分类 tf-idf 词袋
2021-10-27 00:54:23

大多数文献将文本分类视为文档的分类。在使用词袋和贝叶斯分类时,他们通常使用统计量 TF-IDF,其中 TF 使用每个文档的词数对词数进行归一化,而 IDF 侧重于忽略广泛使用的无用词。

我的问题是,如果可以合并同一类的所有文档,为什么他们将文档分开并创建该统计信息?这将有两个优点:

  • 您可以只使用字数而不是频率,因为每个类别标签的文档是 1。

  • 您只需选择类之间具有足够标准差的特征,而不是使用 IDF。

1个回答

我的问题是,如果可以合并同一类的所有文档,为什么他们将文档分开并创建该统计信息?这将有两个优点:

  • 您可以只使用字数而不是频率,因为每个类别标签的文档是 1。

一般来说,我认为情况并非如此。我不知道你是否有一个特定的方程式,它最终在数学上是一样的?无论如何,一般来说,您的语料库中的某些文档可能很短,而另一些则很长。在这种情况下,您仍然需要确保使用频率而不是原始字数。

例如,假设您有一个非常短的文本,专门针对英格兰。“England”这个词可能会出现 10 次,但由于它是一个短文本,所以出现的频率非常高。如果将其与有关世界上所有国家/地区的大量文本进行比较,则该大量文本可能会出现 20 次“英格兰”一词,但(相对)频率要低得多。

  • 您只需选择类之间具有足够标准差的特征,而不是使用 IDF。

我认为这不能正常工作,因为您可能在单个类中的文档之间存在显着差异。例如,假设您有以下两类文档:

  1. 科学文章(关于人工智能、数学、生物学、语言学、天文学,任何你能想到的……)
  2. 新闻文章

单个“科学文章”类中的每个“子域”都可能具有它们使用的一些高度特定的术语,这些术语可以通过 TF-IDF 检测到。但是,即使它们都属于同一类“科学文章”,它们也可能彼此完全不同。如果将它们全部放在一起并将它们视为单个文档,则存在它们将全部“平均化”并且变得更难以与更一般的类(例如“新闻文章”类)区分开来的风险。