二元属性类型与二项属性类型相同吗?

人工智能 数据集 结构化数据 分类数据
2021-11-05 23:06:01

我不确定是否可以使用二项式二进制布尔值作为同义词来描述具有两个值(是或否)的数据集的数据属性。在更深层次上的含义有什么不同吗?

此外,如果我有一个具有三个可能值(是、否、未知)的属性,这将是多项式类型的属性。此类属性还有哪些其他名称可用?它们被称为“象征性的”吗?

我对以下属性类型之间的关系感兴趣:二进制、布尔值、二项式、多项式(和替代描述)和标称。

2个回答

@SmallChess 的回答是一个好的开始,但是这个问题还有一些额外的部分。

二进制变量或二进制数据由值为 0 或 1 的数据组成,没有其他值。我们通常不谈论“二元分布”,因为只有数据、变量或结果可以是二元的。分布可能会产生二进制数据,但它本身并不是二进制的,因为它的参数通常采用实数值。

二项分布是产生二进制数据的分布特别是,它是一个随机过程,它以概率产生值 1

p
, 值 0 的概率
1p
. 请注意,虽然它生成二进制数据,但它本身并不是一种数据,实际上是由一个非二进制数 (p) 表征的。

布尔数据采用值truefalse通常,但不总是,这些存储为 0 和 1。区别在于布尔数据可能不会以数字形式存储。对于如何处理布尔数据也可能有不同的期望(例如,

true+true=true
, 但1+1=2.

我不知道术语多项式应用于数据。然而,多项分布是概率分布为 0 的概率分布p0, 1 概率p1, 2 概率p2,依此类推,产生pn有概率1i=0n1pi为了n不同的数字。与二项分布一样,多项分布以一组实数值为特征,并且与它们生成的数据类型不同。

分类数据采用一组类别的值。您给出的示例(是,否,也许)不是严格的多项式数据,但可以通过将值 0、1 和 2 映射到是、否和也许,从多项分布生成。再次注意,分类数据可能是非数字的。添加之类的操作可能没有意义。

基数数据不是您问的问题,而是当数据可以很好地排序时出现。例如,扑克牌很容易映射到数字 1-13,并且以这种方式表示时可以具有合理的语义含义(例如 A + 2 = 3 和 1 + 2 = 3)。

标称数据只是字面数字,它们的含义正是它们所声称的含义。例如,如果您存储客户购买的啤酒罐数,那将是名义数据。

二项式是一种分布,其特征是p,独立试验的成功概率。您从分布中获得的每个样本都是一个二进制变量,0 或 1。