我应该以什么平均值和方差的值丢弃数据?

机器算法验证 异常值
2022-03-23 08:35:39

我有一些从程序输出的分数值。大约有 10 个这样的值。该数据集是衡量通过移动电话和固定电话频道接收到的语音波形的“质量”。波形通过一种算法,并收到相对于“黄金”波形(得到 100)的质量分数。我的任务是对算法进行调整,使移动和固定电话渠道的分数更接近。恐怕这是我能提供的关于这项任务的最详细信息。请在下面找到其中一些分数:

Mobile: 52 66 69 54 88  
Landline: 60 57 72 49 75  

当我计算这个小数据集的均值和方差时,我得到非常高的方差(来自小数据集的预期)。我的问题是:

  1. 通常会拒绝具有非常高方差的数据集吗?

  2. 如果是这样,数据集中的元素数量、其均值和方差之间是否存在关系,这样我可以看一下并说“啊……那个方差太高了(根据某种关系我不知道),我必须拒绝(?)这些数据”。

PS:如果我的问题没有意义,请告诉我。我将尝试详细说明。

1个回答

让我先澄清一些误解。您的总体方差估计值不高,因为您的样本很小。事实上,情况恰恰相反,方差往往很低,因为小样本代表分布的峰值。较大样本的方差更具代表性和准确性。并且,作为推论,小样本不太准确并且具有更高的抽样误差,通常以标准误差来衡量。

数据通常不会仅仅因为它们具有可能被判断为高方差的东西而被丢弃。方差被认为是您需要发现的数据的属性,并且您尝试获取足够的数据来合理确定它。查看您的数据,这些似乎根本不是很高的差异。实际上,您可以从此类数据中获得非常有用的信息,但您将需要更多信息。

如果您丢弃这些数据并仅获得另一个小样本并且它具有较低的方差并不能告诉您基础分布具有较低的方差,那么这只是抽样变异性。因此,不要那样做。只要继续收集更多数据并注意它的属性,比如一天中的时间。如果它在一段时间内相对一致地嘈杂,您可能只能将它们平均在一起,并获得两种不同信号的良好分布。

显然,您的分布存在重叠,您将需要一些时间才能使其正常工作。您需要收集每个不同信号的大量样本,以查看您在算法中的操作是否有效。如果你只是扔掉你不喜欢的样本,就会很容易欺骗自己认为你已经成功地解决了问题。还有足够的噪音,如果你扔掉你不喜欢的样品,你可能不会有太大的问题,并继续认为你失败了。

简而言之,保留所有数据并获取更多数据。计算分布。调整你的算法。收集更多数据。重复直到你解决了问题。

当您确实获得更多数据并且您已经尝试了几种算法时,您会回来寻求有关如何对数据建模的帮助,以便您可以决定保留该算法以及拒绝哪些算法。那时,您可能会发布更多带有您的问题的汇总类型统计信息,例如均值、方差,也许还有直方图。

您可能还想向专门研究应用问题的认知心理学家寻求帮助。在平均 QoS 和方差之间会有一些折衷,即使方差降低了均值,您最好将方差最小化。但我敢打赌,这应该是由你以外的人完成的。