实时流数据建模?

机器算法验证 造型 软件 即时的
2022-04-11 22:50:21

我对可用于“实时”分析流数据的工具/技术感兴趣*,其中延迟是一个问题。最常见的例子可能是来自金融市场的价格数据,尽管它也出现在其他领域(例如在 Twitter 或 Google 搜索中寻找趋势)。

根据我的经验,最常见的软件类别是复杂事件处理这包括诸如StreambaseAleri 之类的商业软件或诸如EsperTelegraph之类的开源软件(这是Truviso的基础)。

许多现有模型不适合这种分析,因为它们的计算成本太高。是否有专门设计用于处理实时数据的模型**?有什么工具可以用来做这个?

* “实时”是指“在创建数据时对其进行分析”。因此,我的意思不是“具有基于时间的相关性的数据”(如Hilary Mason 的演讲中所述)。

** “模型”是指描述研究对象行为的数学抽象(例如,根据随机变量及其相关的概率分布),用于描述或预测。这可以是机器学习或统计模型。

4个回答

这个领域大致分为两类。第一个涉及流处理和查询问题以及相关的模型和算法。第二个是从数据流(或数据流挖掘)中学习的高效算法和模型。

我的印象是 CEP 行业与第一个领域有关。例如,StreamBase 起源于 Brown/Brandeis/MIT的Aurora项目。一个类似的项目是 Widom在斯坦福大学的STREAM 。审查这些项目所在地的出版物应该有助于探索该地区。

一篇很好的论文总结了第一个领域的研究问题(2002 年),是Babcock 等人的数据流系统中的模型和问题。在流挖掘中,我建议从挖掘数据流开始: Gaber 等人的评论。

顺便说一句,就特定型号而言,我不确定您对什么感兴趣。如果特别是流挖掘和分类,VFDT是一种流行的选择。两篇评论论文(上面链接)指向许多其他模型,并且非常符合上下文。

这在很大程度上取决于您到底在寻找什么,但从Muthukrishnan 的 Data Streams: Algorithms and Application 开始

通过谷歌搜索“数据流算法”或遵循论文中的参考资料,可以找到许多其他算法。

我不确定这与您想做的事情有多相关,但请参阅名为FASTPACE的关于自适应问题设计的论文。该算法的目标是根据他/她以前的问题和答案向调查受访者提出下一个问题。

数据的到达速度不如股票价格,但延迟是一个问题,因为大多数受访者预计下一个问题会在几秒钟内出现。

贝叶斯网络非常适合在线估计,并提供多种模型。