两个特征是在不同的时间测量的,但属于同一个目标。在哪些条件或形式下可以对这些特征进行建模?或者它们不应该在同一个模型中使用,而是分别建模?例如,我试图通过查看用户的鼠标动态数据和键盘动态数据来识别用户,但是,这两者是独立测量的,但它们属于同一个人(我对许多用户都有这种情况)。为了更好地解释它,想象一下,就像我给用户一个文本,让他们使用键盘反复书写(我记录了他们的键盘使用情况),同样我给了他们一个不同的任务来重复使用鼠标(我也记录了这一点)。每个特征的样本量也不同。
我们可以在同一个 ML 模型中使用两个独立测量的特征吗?
数据挖掘
数据
机器学习模型
特征工程
2022-03-03 14:07:47
1个回答
在示例中,我假设一个实例对应于一个用户,并且您拥有鼠标和键盘的完整序列作为预测用户的特征。我可以想到在同一模型中使用这些功能的两种选择:
- 通过特征工程,找到一种方法将两个序列表示为固定的特征数组。例如,您可能具有诸如平均打字速度平均鼠标速度、鼠标移动次数、每个键被按下的次数等特征。
- 类似的想法,但采用更深度的方法:找到一种将两个序列表示为嵌入的方法(有用于词嵌入、句子嵌入、图嵌入的方法......)
在我看来,主要问题是序列的可变长度,而不是它们未对齐的事实(如果目标变量是序列中的一个元素,对齐将很重要)。
其它你可能感兴趣的问题