在分类器中表示重复文本的方法术语

数据挖掘 分类 scikit-学习 训练 术语
2022-02-25 07:24:19

一位同事告诉我,在分类器的训练集中表示重复文本的两种不同方法有术语,但他不记得它们。下面描述的选项的术语是什么?

假设我想训练一个分类器,例如scikit-learn对从文本文档中提取的句子进行朴素贝叶斯分类器。任何句子都可以在文档中出现任意次数。我已经确定了每个不同句子的实例数量,并为我将用于训练的句子分配了标签。

选项 1:每个不同句子一个实例 我可以在我的训练集中包含每个不同句子的一个实例。这种方法对不同的句子赋予相同的权重,而不管它们的频率如何。

选项 2:按相对频率的多个实例 我可以根据句子在语料库中出现的次数,在我的训练集中包含每个不同句子的多个实例。如果语料库包含 100 个句子 1 实例和 25 个句子 2 实例,那么我的训练集将包括 4 个句子 1 实例和 1 个句子 2 实例。

这种方法对语料库中出现频率更高的句子给予更大的权重。

其他选项:是否有相关策略也有标准名称?

0个回答
没有发现任何回复~