许多分布解释的参数

计算科学 统计数据 数据分析
2021-12-23 04:42:08

例如,如果我们有标记数据,对于每个条目(标签),我们有几个与之关联的数据分布,我如何从它们中获得有意义的东西?

这是一个可以解决的问题吗?有没有比仅仅采用一些描述数据的参数(平均值、标准差等)更好的方法来解决它?如果存在此类问题,您是否有一些示例?

1个回答

你的问题不恰当。

只取一个标签对应的数据点。我认为当您说“对于每个标签,我们有几个与之关联的数据分布”时,您的真正意思是数据不仅仅对应于像高斯这样的一个简单概率分布,而是实际上对应于简单分布的叠加- 例如,高斯叠加。但是“高斯分布的叠加”只是另一种“概率分布”:点仍然对应一个分布,只是不再那么简单了。

所以你的问题本质上是这样的:如果我有一组点对应于一些可能很复杂的概率分布,我如何表征这个概率分布?

如果这是一个一维变量,通常这样做的方式是通过“核密度估计”。这个概念可以推广到更高的维度。