问题描述
预测与一组变量关联的值列表。
动车组
Trainset 有一组变量 X1, X2, X3, ... Xn。在最简单的形式中,每个变量都是具有不同范围的数字类型。最大范围为 1-100000,最小范围为 1-10。目标是一个数字列表(Y),其范围又是 1-100000。该列表的长度可变,因此每个观察都有不同数量的目标。可以假设目标列表是项目 ID 列表。
训练子集示例(X1, X2, X3... Xn => {Y})
观察 1:2345、23、8、... 99399 => {2345、98755}
观察 2:45276, 3, 1, ... 80001 => {7865, 98675, 78954}
等等...
预言
因此,预测是一个数字列表,可以根据变量值而变化。
我的想法
- 看起来像一个多标签分类问题,每个标签对应于预测列表中的单个值。
- 但是由于标签的范围很大(即1-100000),不能使用分类方法。
- 可能可以使用多目标回归方法来预测测试集中观察的目标列表。
假设 Ym 是训练集中预测列表的最大长度。可以将训练集的 Observation1 中的预测列表填充为:
Observation1: 2345, 23, 8, ... 99399 => {2345, 98755, 0 , ... 0}(0 代表空值,重复 Ym-2 次)
可能值得标准化预测列表中的所有变量和值。
问题
- 我错过了什么吗?这种方法适合这类问题吗?
- 预测列表中的值是标识符,因此它们与观察中的其他值和变量没有直接相关性。这是一个让我担心的问题。如果我使用多目标回归,这会是一个主要问题吗?
- 我可以使用什么样的方法?神经网络还是线性回归?
- 因为在训练过程中知道完整的目标集,所以在我试图预测与观察对应的项目集群时可以使用聚类方法吗?