无监督学习中是否存在等价的偏差方差?

人工智能 方差 无监督学习
2021-11-06 06:18:20

在监督学习中,偏差、方差很容易用标记数据计算。我想知道在无监督学习中是否有等效的东西,或者像估计这些东西的方法?

如果不是,我们如何计算无监督学习中的损失函数?

1个回答

是的,这个概念适用,但并没有真正正式化。将无监督学习视为密度估计的一种形式或密度的一种统计估计。

方差:您将从该概率分布中选择的有限数据样本进行训练并获得一个模型,但如果您从该分布中选择一个不同的随机样本,您将获得一个略有不同的无监督模型。这种由特定数据样本的选择过程引起的变化就是方差。

偏见:根据监督学习中使用的误差度量,这有点模糊。无监督学习算法具有控制模型“拟合”数据的灵活性的参数。例如,k 表示聚类,您可以控制聚类的数量。简单的例子是 k 表示 k=1 的聚类。您可以想象一个分布,其中有两个相距很远的数据“块”。平均值将落在没有数据的中间。该模型偏向于假设某个分布。对于更高的 k 值,您可以想象具有 k+1 个簇的其他分布,这些分布会导致簇中心落在低密度区域。对于较低的参数值,您还希望获得相同的模型,即使对于非常不同的密度分布也是如此。这也是一种偏见。

您可以看到,因为无监督模型通常没有直接由错误度量指定的目标,所以这个概念没有那么形式化并且更具概念性。