数据挖掘 - 在分类器中表示重复文本的方法术语 - 吾爱随笔录

一位同事告诉我，在分类器的训练集中表示重复文本的两种不同方法有术语，但他不记得它们。下面描述的选项的术语是什么？

假设我想训练一个分类器，例如scikit-learn对从文本文档中提取的句子进行朴素贝叶斯分类器。任何句子都可以在文档中出现任意次数。我已经确定了每个不同句子的实例数量，并为我将用于训练的句子分配了标签。

选项 1：每个不同句子一个实例 我可以在我的训练集中包含每个不同句子的一个实例。这种方法对不同的句子赋予相同的权重，而不管它们的频率如何。

选项 2：按相对频率的多个实例 我可以根据句子在语料库中出现的次数，在我的训练集中包含每个不同句子的多个实例。如果语料库包含 100 个句子 1 实例和 25 个句子 2 实例，那么我的训练集将包括 4 个句子 1 实例和 1 个句子 2 实例。

这种方法对语料库中出现频率更高的句子给予更大的权重。

其他选项：是否有相关策略也有标准名称？