您对这些分析技术有全球视野吗?

机器算法验证 造型 模型选择
2022-02-08 15:19:58

我目前在一个项目中,我基本上需要像我们一样了解输出与输入的关系。这里的特殊性是数据一次只给我一个,所以我想在每次收到新的时更新我的​​分析。我相信这被称为“在线”处理,而不是“批处理”处理,您拥有所需的所有数据并同时使用所有数据进行计算。yx(y,x)(y,x)

所以我四处寻找想法,最后得出的结论是,世界分为三部分:

  • 第一部分是统计学和计量经济学的领域。那里的人做OLS,GLS,仪器变量,ARIMA,测试,差异差异,PCA等等。这片土地主要以线性为主,只做“批处理”。

  • 第二部分是机器学习和人工智能、监督和非监督学习、神经网络和支持向量机等其他词的孤岛。“批处理”和“在线”处理都在这里完成。

  • 第三部分是我刚刚发现的整个大陆,主要由电气工程师组成,看起来是这样。在那里,人们经常在他们的工具中添加“过滤器”这个词,他们发明了一些很棒的东西,比如 Widrow-Hoff 算法、递归最小二乘法维纳滤波器卡尔曼滤波器,还有可能我还没有发现的其他东西。显然,他们主要进行“在线”处理,因为它更符合他们的需求。

所以我的问题是,你对这一切有全球视野吗?我的印象是,世界上的这三个部分彼此之间并没有太多的交谈。我错了吗?的关系的大统一理论你知道任何可以奠定该理论基础的资源吗?YX

我不确定这个问题是否真的有意义,但我在所有这些理论之间有点迷茫。我想像“我应该使用这个还是那个?”这个问题的答案。将是“这取决于您想要做什么(以及您的数据)”。然而,我觉得这三个世界试图回答同一个问题(?),因此应该可以对这一切有更高的看法,并深入了解每种技术的特殊之处。y=f(x)

4个回答

就批量与在线而言,我的经验告诉我,有时你会将两者结合起来。我的意思是,您让与模型制定相关的繁重的计算密集型工作离线完成,然后采用快速/自适应程序来使用这些模型。我们发现“新数据”可以通过三种方式使用;1. 简单预测;2. 修改已知模型的参数和 3. 修改参数和可能修改模型。这三种方法已用于“实时分析”,当然完成这三个步骤之一的时间取决于所使用的软件和可用的硬件。

现在谈谈关于如何对 y 与 x 建模的另一点。我更喜欢使用回归的扩展版本(称为传递函数或 ARMAX 模型)作为提取 y 的历史和 x 的当前值和 pas 值的影响的基础。验证高斯要求并为省略的确定性结构(通过异常值检测)和通过 ARMA 组件省略的随机结构合并必要的代理是至关重要的。此外,需要确保没有使用太多数据(参数恒定性测试),以及任何由确定性/随机误差方差和/或 y 的期望值与残差。

现在,从历史上看(或者如果你愿意,也可以歇斯底里地)不同的思想孤岛试图制定方法。我们祖先使用的许多 ad-hoc 模型被证明是传递函数的子集,但是可以想象有一些数据集会挑战传递函数的假设。虽然这些数据集可能存在,但除非分析得出结论,否则不应假定它们会直接影响您。

像 Wei (Addison-Wessley) 或 Box-Jenkins 这样的文本应该提供一个合理的路线图来支持我的评论并引导你找到更多的“答案”

顺便说一句,这是一个很好的问题!

此外,如果您有任何想要使用的数据,我可以演示此处列出的各种选项。请将您的数据发布到网络上,以供所有人查看和使用,以将“y 与 x”联系起来。

Breiman 在“统计建模:两种文化”中解决了这个问题。对一个很好的问题的第一反应。

我怀疑这个问题的答案类似于“没有免费的午餐”。统计学家、计算机科学家和电气工程师开发不同算法的原因可能是他们对解决不同类型的问题感兴趣。

我会说你指出的这三个群体确实只有两个群体:

  • 统计数据
  • 机器学习、人工智能和模式识别。

与信号滤波相关的所有分支都基于两个方面:属于模式识别的特征提取(小波、Gabor 和傅里叶)和属于硬数学的离散傅里叶变换。事实上,数字滤波更接近于工程方面,因为它试图通过简单且计算成本低的算法来解决这种模式识别问题。但本质上,它是机器学习。

此外,滤波、小波、Gabor 和傅里叶在图像处理中被广泛使用,是人工视觉的核心。

统计学和机器学习之间存在差异。