橙色分类数据:“特征”、“目标变量”和“元属性”有什么区别

数据挖掘 分类 橙色3
2022-02-23 18:26:02

我一直在寻找一种更直观的方法来计算我的光谱数据的静态数据。Python 的 Orange Canvas 似乎是 Pipeline Pilot 的一个很好的替代品,但我在开始进行更简单的数据分析时遇到了麻烦。

最值得注意的是,当我导入数据时,我不清楚“目标变量”、“特征”和“元属性”之间的区别是什么。

我如何决定我拥有什么类型的数据?

2个回答

元变量是元数据,关于数据的数据,不用于统计推断。特征或变量或属性是问题域的测量输入,即自变量目标变量是因变量或我们试图建模或预测的度量。并非所有问题都可以或需要以这种方式表述。传统上,Orange 旨在适应机器学习工作流程,因此得名。

元属性和功能

自从提出这个问题后,我发现较旧的 Orange 2.7 文档至少在描述“元属性”和“特性”方面做得更好:

元属性:

通常元属性是给特定样本的名称

元属性包含附加到单个实例的附加数据。

...

元属性可以标记为“可选”。非可选的元属性应该出现在该域的所有数据实例中。这条规则没有严格执行。作为差异重要的少数几个地方之一,如果缺少非可选元值,则保存到文件失败;可选属性根本不写入文件。此外,新构建的数据实例最初具有所有非可选的元属性。

虽然特征列表和类值是不可变的,但可以随时添加和删除元属性

特征:

可以认为是描述您的类和/或样本的属性

没有类变量的不可变域属性列表。只读。


变量

虽然本文档没有具体说明什么是“目标变量”,但它确实提供了一些关于变量的信息:

变量

域属性列表,包括类变量。只读。

类变量

类变量(描述符)或无。只读。

类变量

附加类属性的列表。只读。

目标变量

到目前为止,我对 Orange 的经验使我相信“​​目标变量”只是您想要对某些特征进行分析(或用作绘图轴)的变量。


类和域

由于我们使用“类”和“域”来定义上述内容,因此我们也需要定义它们。

一个可以被认为是描述您提供数据特征的样本类型例如:“color”、“size”、“life span”和“habitat”可以描述具有“parrot”、“duck”、“seagul”和“hawk”类型的“鸟”类。但是,如果您要将布尔特征“头发”和“鳍”添加到数据集中,您的数据可能会使用诸如“鸟”、“哺乳动物”和“鱼”等描述符来描述“动物类型”'。'Parrot'、'duck' 和 'seagul' 将成为这些类中动物的“名称”,从而成为元属性

“每个数据实例对应一种动物,并由动物的属性及其类型(类)描述”

类值是不可变的

一个域可以有多个附加的类属性。除了不用于学习之外,这些特征的存储方式与其他特征类似。此类类的列表存储在 class_vars 中。在域之间转换时,多个类可以成为普通特征或类,反之亦然。

在 Orange 中,术语域表示一组描述数据的变量和元属性。域描述符附加到数据实例、数据表、分类器和其他对象。例如,在从文件中读取数据之后构建描述符。

域由普通特征(上例中从“头发”到“猫大小”)、类属性(“类型”)和元属性(“名称”)组成。

...

域的行为类似于列表:域的长度是包括类变量在内的变量的数量。域可以通过整数索引、变量名或 Orange.feature.Descriptor 的实例进行索引