找出在“最多”数据点内保留最多信息的值的统计方法。(将图像大小调整到一个共同的高度)

数据挖掘 机器学习 深度学习 计算机视觉 图像预处理 描述性统计
2022-03-13 13:58:29

所以我有大约 88K 图像的数据,我发现了我的图像的一些有趣的属性。

print(np.median(width),np.mean(width),scipy.stats.mode(width))
print(np.median(height),np.mean(height),scipy.stats.mode(height))

>>
1280.0 1266.8129869839922 ModeResult(mode=array([1280]), count=array([84584]))
377.0 438.3157888861602 ModeResult(mode=array([125]), count=array([3113]))

所以我将所有图像的大小调整为宽度,1280因为它会在放大或缩小时保留大多数图像的图像,因为这三个图像都是相同的。

但我想知道的是我应该怎么做才能height保留大部分信息。或者换一种说法,我应该将图像调整到哪个高度,以便我可以保留大部分信息。在我看来,缩小规模比扩大规模要好。

for q in [0.35,0.55,0.75,0.95,] :
    print(np.quantile(height,q))
>> 274.0
414.0
562.0
1057.0

有什么统计方法可以让我找到合适的范围吗?

我的身高数据呈正偏态,看起来像: 在此处输入图像描述

黑线是scipy.stats.norm

0个回答
没有发现任何回复~