数据挖掘 - 找出在“最多”数据点内保留最多信息的值的统计方法。（将图像大小调整到一个共同的高度） - 吾爱随笔录

所以我有大约 88K 图像的数据，我发现了我的图像的一些有趣的属性。

print(np.median(width),np.mean(width),scipy.stats.mode(width))
print(np.median(height),np.mean(height),scipy.stats.mode(height))

>>
1280.0 1266.8129869839922 ModeResult(mode=array([1280]), count=array([84584]))
377.0 438.3157888861602 ModeResult(mode=array([125]), count=array([3113]))

所以我将所有图像的大小调整为宽度，1280因为它会在放大或缩小时保留大多数图像的图像，因为这三个图像都是相同的。

但我想知道的是我应该怎么做才能height保留大部分信息。或者换一种说法，我应该将图像调整到哪个高度，以便我可以保留大部分信息。在我看来，缩小规模比扩大规模要好。

for q in [0.35,0.55,0.75,0.95,] :
    print(np.quantile(height,q))
>> 274.0
414.0
562.0
1057.0

有什么统计方法可以让我找到合适的范围吗？

我的身高数据呈正偏态，看起来像：

黑线是scipy.stats.norm