当我们观察来自固定但未知数据源的相关数据流时,如何更新后验信念

数据挖掘 分类 时间序列 贝叶斯 顺序模式挖掘
2022-03-05 23:30:23

我想建立一个 [概率] 模型,旨在推断未知分类变量的真实值,y{1,2,...,K}.

我们有一个数据集(X,y):Rd{1,2,...,K}我们可以训练一个分类器,它给出d维数据,X,并估计输出y.

现在,假设Xs 是相关的,并且都来自一个固定的y. 我的意思是,我们正在观察X1,X2,....,XT,...随着时间的推移,我们知道y对所有这些都是固定的。

例如:

  • 我们收到X1(当时t=1) 并且我们之前训练的分类器会产生一个关于y^1.
  • 然后,我们收到X2,我们再次使用分类器进行猜测y^2.
  • 然后,我们收到X3, 等等。

所以,一时t=T我们有y^1,y^2,...,y^T.

现在,问题是:我怎样才能建立一个模型来使用这些估计(y^1,y^2,...,y^T) 并提高我对真实的信念y随着时间的推移,考虑到:

  1. 方面d不小。例如d>50

  2. 数据样本,Xs,不是 iid,而是来自一个固定的未知数y.

  3. 分类器不是最优的(只是对一些可用数据进行了训练),并且在每一轮都给出了一个关于y^t对于当前Xt.

我一直在阅读一些材料并遇到以下内容,但我不确定哪一个更适合进行更多调查:

  • 顺序假设检验
  • 最佳停止
  • 序贯概率比检验
  • HDI+ROPE 决策规则:实际等效的最高密度区间 (HDI) 区域 (ROPE)

或者是否有任何特定的贝叶斯框架?

1个回答

我认为您提供的所有选项都会为您描述的问题产生结果。看起来你就像一个骰子,产生的结果是骰子的所有不可预测的结果,但仍然与 y 相关联,你想根据 x 值推断 y。就像一个 隐马尔可夫模型。

关于想要准确估计每个 x 处的 y 和 x 相关的部分让我相信 LSTM 技术可能是有益的。如果你想使用NN。

最优停止和顺序假设检验和顺序概率比检验和 HDI+ROPE 都适用于您描述的抽象问题。除非您向我们提供有关您的问题的更多详细信息,例如您将要处理的具体问题,否则很难为您提供简明的指导。

如果你创建一个 LSTM,它接受一个 X 并猜测哪个 y 并在你拥有的 x 数据上对其进行训练,那么你将拥有你想要的预测模型。