我很好奇它的性质. 任何人都可以直观地告诉一些关于“什么是说数据?”
编辑:
感谢您的回复
在学习了一些很棒的课程之后,我想补充几点:
- 它是信息的度量,即是沿方向的信息量.
- 对偶性:因为是正定的,所以是,所以它们是点积范数,更准确地说它们是彼此的对偶范数,所以我们可以推导出正则化最小二乘问题的 Fenchel 对偶,并对对偶问题进行最大化。我们可以选择其中任何一个,这取决于他们的条件。
- 希尔伯特空间:列(和行)和跨越同一个空间。因此,在表示与或者
- 贝叶斯统计:范数在贝叶斯统计中占有重要地位。即它决定了我们在先验中有多少信息,例如,当先验密度的协方差像 我们没有提供信息(或者可能是 Jeffreys 之前的)
- 频率统计:它与 Fisher 信息密切相关,使用 Cramer-Rao 界。实际上,fisher 信息矩阵(对数似然梯度与其自身的外积)是 Cramer-Rao 约束的,即(wrt 正半定锥,iewrt 浓度椭球)。所以当最大似然估计是有效的,即数据中存在最大信息,因此频率主义制度是最优的。简而言之,对于一些似然函数(请注意,似然的函数形式完全取决于假设生成数据的概率模型,即生成模型),最大似然是有效且一致的估计器,就像老板一样规则。(很抱歉过度杀伤它)