大多数文献将文本分类视为文档的分类。在使用词袋和贝叶斯分类时,他们通常使用统计量 TF-IDF,其中 TF 使用每个文档的词数对词数进行归一化,而 IDF 侧重于忽略广泛使用的无用词。
我的问题是,如果可以合并同一类的所有文档,为什么他们将文档分开并创建该统计信息?这将有两个优点:
您可以只使用字数而不是频率,因为每个类别标签的文档是 1。
您只需选择类之间具有足够标准差的特征,而不是使用 IDF。
大多数文献将文本分类视为文档的分类。在使用词袋和贝叶斯分类时,他们通常使用统计量 TF-IDF,其中 TF 使用每个文档的词数对词数进行归一化,而 IDF 侧重于忽略广泛使用的无用词。
我的问题是,如果可以合并同一类的所有文档,为什么他们将文档分开并创建该统计信息?这将有两个优点:
您可以只使用字数而不是频率,因为每个类别标签的文档是 1。
您只需选择类之间具有足够标准差的特征,而不是使用 IDF。
我的问题是,如果可以合并同一类的所有文档,为什么他们将文档分开并创建该统计信息?这将有两个优点:
- 您可以只使用字数而不是频率,因为每个类别标签的文档是 1。
一般来说,我认为情况并非如此。我不知道你是否有一个特定的方程式,它最终在数学上是一样的?无论如何,一般来说,您的语料库中的某些文档可能很短,而另一些则很长。在这种情况下,您仍然需要确保使用频率而不是原始字数。
例如,假设您有一个非常短的文本,专门针对英格兰。“England”这个词可能会出现 10 次,但由于它是一个短文本,所以出现的频率非常高。如果将其与有关世界上所有国家/地区的大量文本进行比较,则该大量文本可能会出现 20 次“英格兰”一词,但(相对)频率要低得多。
- 您只需选择类之间具有足够标准差的特征,而不是使用 IDF。
我认为这不能正常工作,因为您可能在单个类中的文档之间存在显着差异。例如,假设您有以下两类文档:
单个“科学文章”类中的每个“子域”都可能具有它们使用的一些高度特定的术语,这些术语可以通过 TF-IDF 检测到。但是,即使它们都属于同一类“科学文章”,它们也可能彼此完全不同。如果将它们全部放在一起并将它们视为单个文档,则存在它们将全部“平均化”并且变得更难以与更一般的类(例如“新闻文章”类)区分开来的风险。