作为具有纯数学背景的人,我对 FDA(数据被视为函数)感兴趣,我认为与感知数据的普通视角相比,它可以帮助为数据分析(也是数据科学)中的一些主要挑战提供解决方案, 作为向量。但是,我在网上没有找到太多关于它的文献。有人可以帮我理解为什么会这样吗?另外,我在哪里可以获得 FDA 的一些好读物?
为什么功能数据分析 (FDA) 不那么受欢迎?
机器算法验证
机器学习
参考
功能数据分析
2022-02-15 07:14:23
2个回答
作为一个对 FDA 的了解几乎为零但最近开始阅读和思考它的人,以下是我对为什么 FDA 现在不那么受欢迎的一些想法。由于我远非专家,请对它们持保留态度:
- 人们对解决“不关心”数据性质感兴趣的大多数数据科学问题。我的意思是,当尝试执行诸如回归、分类或聚类之类的任务时,统计学家会选择以最小计算成本产生最佳模型的方法。根据上下文、“最佳”的定义、可用信息等,人们可以选择不同的方法,这些方法本身可能依赖于数据的不同可能表示,例如向量、矩阵、图形、平滑流形、函数......因此,当数据集可以很好地表示为张量时,您可以将其插入 CNN 并保证模型性能,您为什么还要费心选择函数表示?
另一方面,在您试图推断有关您从自己采样的函数的信息时会出现问题,在这种特定情况下,无法绕过使用 FDA(有关一些示例,请参见此处)。 - 这让我想到了下一点:在实践中,功能数据始终存储为(高维)有限维对象,因此从不真正需要 FDA 范式。实际上,即使数据实际上是一组依赖于连续参数(通常是空间和/或时间)的函数的实现,您实际存储在计算机中的也是它的离散版本。虽然当“网格大小”足够小时,您确实接近于处理“真实”功能数据,例如随机字段、股票价格、视频记录等......在实践中考虑这些数据效果很好作为高(但有限)维对象。
- 这里是,imo,最关键的一点:有很多非 FDA 特定的算法在功能数据上表现非常好。确实有无数成功处理各种功能数据的例子,如视频记录、音频记录、卫星图像。还有很多。另一方面,据我所知,还没有许多(或任何)重大突破结果证明 FDA 特定的功能数据方法优于特定环境之外的更传统的方法。绝对不会失去所有希望,因为这里和那里肯定有一些理论论证表明 FDA 框架在某些情况下可以远远优于有限维框架,例如 Delaigle 和 Hall 的这篇论文:实现近乎完美的分类对于功能数据(2012),这表明在非常温和的假设下对功能数据进行“完美分类”是可能的,而在有限维设置中绝对不是这种情况。然而,在实践中,降维+经典方法似乎效果很好。
- 最后,我认为另一个因素是能够为 FDA 的研究做出贡献所需的数学知识往往超出了大多数统计学家的专业知识。实际上,文献中提出的算法通常依赖于许多统计学家可能不太熟悉的泛函分析中相当深入的结果,并且还有其他问题,例如,在更深刻的函数空间上定义有意义的度量并且不太可能引起统计学家的兴趣,他们通常更擅长线性代数、优化、浓度不等式、VC 理论等方面的专家……我认为拓扑数据分析有点像(尽管它最近似乎获得了很多关注):这些想法非常有前途,但需要深入了解纯数学概念,如同调、贝蒂数或欧拉特征……才能应用和进一步改进,即许多统计学家不具备的知识。
尽管我说了这么多,但我确实相信在那个子领域有很多有趣的事情要做,而且它的全部潜力还没有完全发挥出来。我主要阅读与我感兴趣的问题相关的论文,所以我没有太多可推荐的,但我已经阅读了一些Hsing 和 Eubank并且发现它到目前为止非常棒。我还发现Wang、Chiou 和 Müller 的这篇评论非常全面,可以大致了解当前的最新技术。
FDA 迟到了,对既定申请的好处有时是递增的。在许多情况下,“标准纵向数据技术”已经选中了大多数复选框。FDA 确实在特定用例上提供了一些独特的优势(例如,使用密度函数或协方差表面作为分析单位),但这些是专门的且相当近期的应用。
其它你可能感兴趣的问题