给定加权序列,预测二元目标变量的合适模型是什么?
序列将相当短,通常在 ~ 1 到 5 个元素之间。
图解示例
假设我有以下类别:A
, B
, C
, D
.
每个类别的权重可以介于 0 和 1 之间。
示例序列:
A (0.33)
,B (0.71)
,C (0.0)
,D (0.95)
=> 1C (0.21)
,A (0.67)
=> 0B (0)
,D (1)
=> 1
给定加权序列,预测二元目标变量的合适模型是什么?
序列将相当短,通常在 ~ 1 到 5 个元素之间。
图解示例
假设我有以下类别:A
, B
, C
, D
.
每个类别的权重可以介于 0 和 1 之间。
示例序列:
A (0.33)
, B (0.71)
, C (0.0)
, D (0.95)
=> 1C (0.21)
, A (0.67)
=> 0B (0)
, D (1)
=> 1一种选择是模型比较方法。从更简单的模型开始,然后逐步尝试更复杂的模型。在此过程中,检查额外的复杂性是否会导致预测能力的提高。
然后通过逐步回顾更多的时间步来开始放松马尔可夫假设。
如果您有数千个标记数据点并且关系非常复杂,则循环神经网络 (RNN) 可能会起作用。
长短期记忆(LSTM)没有多大意义,因为序列很短。当相关信息可能向后退很多时间时,LSTM 可以更好地工作 RNN。
我的假设是,朴素贝叶斯分类器将是一个足够好的模型,因为只有 4 个特征并且序列非常短,可以忽略不计。
我认为它们是很多有效的方法。
我将首先测试一个简单的密集神经网络架构。
你可以有2 * number_of_sequences
输入神经元,每一对是一个用于权重的神经元和另一个用于序列存在的神经元(0
:不存在和1
:存在)。
隐藏层取决于复杂性。
输出0
或1
使用 sigmoid。