选择解决多对一映射问题的方法

机器算法验证 机器学习 分类 多重回归 神经网络 多元分析
2022-04-07 12:19:16

问题描述

预测与一组变量关联的值列表。

动车组

Trainset 有一组变量 X1, X2, X3, ... Xn。在最简单的形式中,每个变量都是具有不同范围的数字类型。最大范围为 1-100000,最小范围为 1-10。目标是一个数字列表(Y),其范围又是 1-100000。该列表的长度可变,因此每个观察都有不同数量的目标。可以假设目标列表是项目 ID 列表。

训练子集示例(X1, X2, X3... Xn => {Y})

观察 1:2345、23、8、... 99399 => {2345、98755}

观察 2:45276, 3, 1, ... 80001 => {7865, 98675, 78954}

等等...

预言

因此,预测是一个数字列表,可以根据变量值而变化。

我的想法


  1. 看起来像一个多标签分类问题,每个标签对应于预测列表中的单个值。
  2. 但是由于标签的范围很大(即1-100000),不能使用分类方法。
  3. 可能可以使用多目标回归方法来预测测试集中观察的目标列表。
  4. 假设 Ym 是训练集中预测列表的最大长度。可以将训练集的 Observation1 中的预测列表填充为:

    Observation1: 2345, 23, 8, ... 99399 => {2345, 98755, 0 , ... 0}(0 代表空值,重复 Ym-2 次)

  5. 可能值得标准化预测列表中的所有变量和值。

问题

  1. 我错过了什么吗?这种方法适合这类问题吗?
  2. 预测列表中的值是标识符,因此它们与观察中的其他值和变量没有直接相关性。这是一个让我担心的问题。如果我使用多目标回归,这会是一个主要问题吗?
  3. 我可以使用什么样的方法?神经网络还是线性回归?
  4. 因为在训练过程中知道完整的目标集,所以在我试图预测与观察对应的项目集群时可以使用聚类方法吗?
1个回答

一种可能的方法是假设,根据设备的功能,每个 cookie 独立出现。在这种情况下,您可以拟合 SVM 或决策树或其他分类器(我不建议将逻辑回归用于分类),每个 cookie 的外观都是二元结果。这意味着每个 cookie 都有一个模型。是的,这意味着您正在训练 100,000 个单独的分类器,每个分类器都基于谁知道有多少数据点。但理论框架直截了当,计算挑战并非不可克服