“原始数据”是什么意思?

机器算法验证 r 分类 分类数据 数据挖掘 文本挖掘
2022-03-31 20:26:46

我正在使用 RTextTools,它具有使用以下语法创建容器的功能:

create_container(matrix, labels, trainSize=NULL, testSize=NULL, virgin)

它的描述是关于virgin

A logical (TRUE or FALSE) specifying whether to treat the classification data as virgin data or not.

“原始数据”是什么意思?

2个回答

当处女标志设置为 FALSE 时,表示训练和测试集中的所有数据都有相应的标签。

当处女标志设置为 TRUE 时,表示测试集是未分类的数据,没有已知的真值。

@pratik_m 的答案是正确的。

作为一个历史记录,这个术语来自Laver 等人。2003 年尽管没有明确说明,Laver 等人。使用 'virgin' 来指代 a) 没有目标值的文档,因为 b) 它没有样本。让事情变得混乱的是,在论文中(虽然不是在RTextTools)中,目标值实际上不是标签,而是一个真正有价值的位置。此外,虽然所有样本外文档都将缺少目标值,但并非所有缺少目标值的文档都必须是样本外的。Lowe 2008表明,如果将缺失的目标值视为样本内,那么本文中的算法会计算一个固定的行分数子集的对应分析)。