我对可用于“实时”分析流数据的工具/技术感兴趣*,其中延迟是一个问题。最常见的例子可能是来自金融市场的价格数据,尽管它也出现在其他领域(例如在 Twitter 或 Google 搜索中寻找趋势)。
根据我的经验,最常见的软件类别是“复杂事件处理”。这包括诸如Streambase和Aleri 之类的商业软件或诸如Esper或Telegraph之类的开源软件(这是Truviso的基础)。
许多现有模型不适合这种分析,因为它们的计算成本太高。是否有专门设计用于处理实时数据的模型**?有什么工具可以用来做这个?
* “实时”是指“在创建数据时对其进行分析”。因此,我的意思不是“具有基于时间的相关性的数据”(如Hilary Mason 的演讲中所述)。
** “模型”是指描述研究对象行为的数学抽象(例如,根据随机变量及其相关的概率分布),用于描述或预测。这可以是机器学习或统计模型。