数据挖掘 - 我们可以在同一个 ML 模型中使用两个独立测量的特征吗？ - 吾爱随笔录

我们可以在同一个 ML 模型中使用两个独立测量的特征吗？

数据挖掘数据机器学习模型特征工程

2022-03-03 14:07:47

两个特征是在不同的时间测量的，但属于同一个目标。在哪些条件或形式下可以对这些特征进行建模？或者它们不应该在同一个模型中使用，而是分别建模？例如，我试图通过查看用户的鼠标动态数据和键盘动态数据来识别用户，但是，这两者是独立测量的，但它们属于同一个人（我对许多用户都有这种情况）。为了更好地解释它，想象一下，就像我给用户一个文本，让他们使用键盘反复书写（我记录了他们的键盘使用情况），同样我给了他们一个不同的任务来重复使用鼠标（我也记录了这一点）。每个特征的样本量也不同。

1个回答

在示例中，我假设一个实例对应于一个用户，并且您拥有鼠标和键盘的完整序列作为预测用户的特征。我可以想到在同一模型中使用这些功能的两种选择：

通过特征工程，找到一种方法将两个序列表示为固定的特征数组。例如，您可能具有诸如平均打字速度平均鼠标速度、鼠标移动次数、每个键被按下的次数等特征。
类似的想法，但采用更深度的方法：找到一种将两个序列表示为嵌入的方法（有用于词嵌入、句子嵌入、图嵌入的方法......）

在我看来，主要问题是序列的可变长度，而不是它们未对齐的事实（如果目标变量是序列中的一个元素，对齐将很重要）。

其它你可能感兴趣的问题

上一篇如何在多类分类中最大化特定标签的召回分数？下一篇如何对力配置文件执行异常检测？