研究高维统计与机器学习?

数据挖掘 机器学习 统计数据
2021-09-18 17:53:44

(我已经在 CV 上发布了这个问题,但我觉得听到 DS 社区专家的意见也很棒。)

作为一名开始思考论文题目的博士生,我对高维统计学习特别感兴趣。我希望找到一些关于该研究领域最先进研究的研究评论/调查/论文(或网页、博客等),但我可以获得的资源似乎有限。那么我的第一个问题是,

  1. 您能否描述一些当前在高维统计中有趣的研究课题?如果您可以列出任何相关资源(论文、网页等),那将非常有帮助。

此外,我注意到高维统计学习与机器学习研究密切相关。例如,高维统计中的惩罚正则化思想被用于机器学习领域,如支持向量机、boosting 树、(稀疏)加法模型等。我的问题是,

  1. 关于高维统计和机器学习相互作用的优秀研究论文有哪些?

最后,由于高维统计实际上是由基因研究(如基因表达分析或全基因组关联研究)推动的,因此高维研究中的大多数应用都致力于该领域。

  1. 高维统计在遗传学以外的领域有没有成功的应用,特别是图像/文本挖掘、推荐等,机器学习技术长期使用的领域?

  2. 机器学习研究人员/从业者的一个新问题:我可能错了,但据我了解,大多数机器学习算法都是为低维问题设计的(或者至少特征数量小于观察数量)。机器学习技术在高维数据建模方面是否有成功的应用?

任何资源/评论都将受到高度赞赏。谢谢。

1个回答

这让我立刻想到了高斯过程

GP 最初是由地质统计学家在 1970 年代开发的,作为一个地理区域内资源分布的模型。此过程称为克里金法(或也称为高斯过程回归)。但最近 GP 已在运动/控制/机器人领域广泛使用,以随着时间的推移对机器人肢体的运动和轨迹等进行建模。

从统计上讲,GP 被视为无限维向量的先验,因此向量值的任何子集的分布都是高斯分布的。如果您想阅读更多内容,这里有一本在线书籍!