机器算法验证 - 检索包含所有值的指定部分的最小宽度 - 吾爱随笔录

检索包含所有值的指定部分的最小宽度

机器算法验证 Python 描述性统计最短的一半

2022-03-16 13:45:33

我想找到最小大小的滑动窗口的最小/最大边界，其中包含数组或数字集合中元素总数的一定比例。

示例：取整数以便于解释，假设我们要查找的元素在此数组中的比例为 50%：

[1,1,2,3,3,3,3,3,3,4,5,6,7,8,9,10]

神秘函数将返回类似 (2, 4) 的内容，这意味着最小值为 2，最大值为 4（假设它包含在内，并注意这些是值，而不是索引）。这个小窗口包含 16 个值中的 8 个，它只有 2 个单位宽，是包含一半值的最窄的窗口。

注意：四分位数是 [1,1,2,3], [3,3,3,3], [3,4,5,6], [7,8,9,10] 所以它们不是我的正在寻找。

我可以对其进行编码...可能需要一些时间才能使它变好。希望有人以前遇到过它。它有名字吗？有没有人知道的现有方法？

我对 Python 实现很感兴趣。

更新：

感谢 Glen_b 给出了“short-half”和“shortest interval”的名称，我能够想出这个：查找概率密度区间

1个回答

头条新闻：

关键字是shorth。
有关 R 实现和当前项目的出版物链接，请参阅 Günther Sawitzki 的页面http://www.statlab.uni-heidelberg.de/people/gs/
有一个 Stata 实现，可以通过ssc inst shorth.

更慢一点，并没有试图公正对待 Sawitzki 的工作：

值的样本的顺序统计量定义为 $n$ $x$

$x_{(1)} \le x_{(2)} \le \cdots \le x_{(n-1)} \le x_{(n)}.$

设。然后，从到的最短一半数据，以最小化。这个区间我们称之为最短一半的长度。 $h = \lfloor n / 2\rfloor$ $k$ $k + h$ $x_{(k + h)} - x_{(k)}$ $k = 1, \cdots, n - h$

该缩写由 JW Tukey 命名，并在 Andrews、Bickel、Hampel、Huber、Rogers 和 Tukey (1972, p.26) 对位置估计量的普林斯顿鲁棒性研究中作为。它因其不寻常的渐近性质而引起了人们的注意（pp.50-52）：关于这些，另见 Shorack 和 Wellner（1986，pp.767-771）以及 Kim 和 Pollard（1990）的后期记述。否则它很快就消失了大约十年。顺便说一句，Hampel (1997) 表明，普林斯顿大学关于不对称情况的研究的可用结果，但当时还没有得到充分的分析，比当时的认识更能说明这个短片。 $x_{(k)}, \cdots, x_{(k + h)}$

当 Rousseeuw (1984) 基于 Hampel (1975) 的建议指出最短一半的中点为的位置的最小二乘 (LMS) 估计量。参见 Rousseeuw (1984) 和 Rousseeuw 和 Leroy (1987) 了解 LMS 和相关思想在回归和其他问题中的应用。请注意，这个 LMS 中点在最近的一些文献中也被称为shorth（例如，David 和 Nagaraja 2003，p.223；Maronna，Martin 和 Yohai 2006，p.48）。此外，正如 Grübel (1988) 的标题所示，最短的一半本身有时也称为 shorth。 $(x_{(k)} + x_{(k + h)}) / 2$ $x$

最短一半的长度是衡量规模或散布的有力指标：进一步分析和讨论参见 Rousseeuw 和 Leroy (1988)、Grübel (1988)、Rousseeuw 和 Croux (1993) 以及 Martin 和 Zamar (1993)。

平均值为 0 且标准差为 1 的高斯（正态）中最短一半的长度为 1.349 到 3 dp 因此，要从观察到的长度估计标准差，请除以该高斯长度。

从实际数据分析师以及数学或理论统计学家的角度来看，一些粗略的评论遵循了最短一半想法的优点和缺点。无论是什么项目，将简短结果与标准汇总测量（包括其他方法，特别是几何和谐波方法）进行比较并将结果与分布图联系起来总是明智的。此外，如果您对双峰或多峰的存在或程度感兴趣，最好直接查看密度函数的适当平滑估计。

简单性 最短一半的概念很简单，很容易向不认为自己是统计专家的学生和研究人员解释。它直接导致相当直观的两种位置度量和一种传播。它也相对适合使用原始工具（铅笔和纸、计算器、电子表格）进行手工计算。
连接最短一半的长度、四分位间距和中位数与中位数的绝对偏差 (MAD)（或就此而言可能的误差）之间的异同是立竿见影的。因此，最短一半的想法与许多数据分析师应该已经熟悉的其他统计想法相关联。
图形解释 最短的一半可以很容易地与分布的标准显示相关联，例如累积分布和分位数图、直方图和茎叶图。
模式通过对数据最密集的位置进行平均，shorth 和 LMS 中点为位置摘要引入了模式风格。当应用于近似对称的分布时，shorth 将接近均值和中值，但比均值更能抵抗任一尾部的异常值，并且对于形状接近高斯（正态）的分布比中值更有效。当应用于单峰和不对称分布时，shorth 和 LMS 通常会比均值或中值更接近众数。请注意，将众数估计为包含固定数量观测值的最短间隔的中点的想法至少可以追溯到 Dalenius (1965)。另请参阅 Robertson 和 Cryer (1974)、Bickel (2002) 以及 Bickel 和 Frühwirth (2006) 关于该模式的其他估计量。Bickel 和 Frühwirth 的半样本模式估计器作为最短一半的递归选择特别有趣。Stata 用户可以通过以下方式下载 Stata 实现ssc inst hsmode.
异常值识别 抗性标准化（例如（值 - 短）/长度）可能有助于识别异常值。有关相关想法的讨论，请参阅 Carey 等人。（1997）并包括参考资料。
推广到最短分数 这个想法可以推广到除二分之一以外的比例。

同时，请注意

不适用于所有分布 当应用于近似 J 形的分布时，shorth 将接近数据下半部分的平均值，LMS 中点将更高。当应用于近似 U 形的分布时，短线和 LMS 中点将在分布的一半恰好具有较高平均密度的范围内。这两种行为似乎都不是特别有趣或有用，但同样很少需要对 J 形或 U 形分布进行类似单一模式的总结；对于 J 形状，模式是或应该是最小的，对于 U 形状，双峰性使得单模式的想法没有意义，如果不是无效的话。
关系最短的一半可能不是唯一定义的。即使使用测量数据，报告值的四舍五入也可能经常导致平局。文献中很少讨论如何处理两个或更多最短的一半。请注意，捆绑的一半可能重叠或不相交。不同的实现可能会以稍微不同的方式解决这个问题。
窗口长度的基本原理 为什么一半被认为是似乎也没有被讨论。产生一个窗口长度；规则最好是简单的；并且在选择这种规则时通常会有一些轻微的随意性。同样重要的是，任何规则对于小的表现得合理：即使不是故意为非常小的样本量调用程序，所使用的过程也应该对所有可能的大小都有意义。请注意，使用此规则，给定，shorth 只是单个样本值，并且给定 $1 + \lfloor n / 2\rfloor$ $n$ $n$ $n = 1$ $n = 2$ 简称是两个样本值的平均值。关于此规则的进一步细节是，它始终定义微弱多数，从而强制执行有关数据的民主决策。然而，似乎没有充分的理由不使用作为更简单的规则，除了所有作者似乎都遵循。 $\lceil n / 2\rceil$ $1 + \lfloor n / 2\rfloor$
与加权数据一起使用 最短一半的识别似乎只会相当混乱地扩展到观察与不等权重相关联的情况。
大多数值相同时的长度当 样本中至少一半的值等于某个常数时，最短一半的长度为 0。因此，例如，如果大多数值为 0，而有些值更大，则最短的一半的长度为half 作为衡量规模或传播的指标并不是特别有用。

安德鲁斯、DF、PJ Bickel、FR Hampel、PJ Huber、WH Rogers 和 JW Tukey。1972. 位置的可靠估计：调查和进展。 新泽西州普林斯顿：普林斯顿大学出版社。

Bickel, DR 2002。连续数据的模式和偏度的稳健估计器。计算统计与数据分析39：153-163。

Bickel，DR 和 R. Frühwirth。2006. 关于模式的快速、稳健的估计器：与其他估计器的应用比较。 计算统计与数据分析50：3500-3530。

Carey、VJ、EE Walters、CG Wager 和 BA Rosner。1997. 抗性和基于测试的异常值拒绝：对高斯一样本和二样本推断的影响。技术计量学 39：320-330 。

Christmann, A.、U. Gather 和 G. Scholz。1994. 最短一半长度的一些性质。 统计 Neerlandica 48：209-213。

Dalenius, T. 1965。模式 - 一个被忽略的统计参数。 期刊，皇家统计学会 A 128：110-117。

Grübel, R. 1988。短片的长度。 统计年鉴16：619-628。

Hampel, FR 1975。超越位置参数：稳健的概念和方法。 公报，国际统计研究所46：375-382。

Hampel, FR 1997。关于“普林斯顿稳健年”的一些附加说明。在 Brillinger, DR, LT Fernholz 和 S. Morgenthaler (eds)数据分析实践：纪念 John W. Tukey 的论文。 新泽西州普林斯顿：普林斯顿大学出版社，133-153。

Kim，J. 和 D. Pollard。1990.立方根渐近。 统计年鉴18：191-219。

Maronna、RA、RD Martin 和 VJ Yohai。2006. 稳健统计：理论与方法。奇切斯特：约翰威利。

Martin, RD 和 RH Zamar。1993. 规模的偏差稳健估计。 统计年鉴21：991-1017。

Robertson, T. 和 JD Cryer。1974. 估计模式的迭代过程。 杂志，美国统计协会69：1012-1016。

Rousseeuw, PJ 1984。平方回归的最小中值。 杂志，美国统计协会79：871-880。

Rousseeuw、PJ 和 C. Croux。1993. 中值绝对偏差的替代方案。 杂志，美国统计协会88：1273-1283。

Rousseeuw，PJ 和 AM Leroy。1987. 稳健回归和异常值检测。 纽约：约翰威利。

Rousseeuw，PJ 和 AM Leroy。1988. 基于最短一半的稳健尺度估计器。统计 Neerlandica 42：103-116。

Shorack，GR 和 JA Wellner。1986. 应用于统计的经验过程。 纽约：约翰威利。

其它你可能感兴趣的问题

上一篇如何在 PCA 之前标准化泊松分布数据下一篇使用不到 2 年历史的 R 使用 Holt-Winters 技术进行预测