问题描述

预测与一组变量关联的值列表。

动车组

Trainset 有一组变量 X1, X2, X3, ... Xn。在最简单的形式中，每个变量都是具有不同范围的数字类型。最大范围为 1-100000，最小范围为 1-10。目标是一个数字列表（Y），其范围又是 1-100000。该列表的长度可变，因此每个观察都有不同数量的目标。可以假设目标列表是项目 ID 列表。

训练子集示例(X1, X2, X3... Xn => {Y})

观察 1：2345、23、8、... 99399 => {2345、98755}

观察 2：45276, 3, 1, ... 80001 => {7865, 98675, 78954}

等等...

预言

因此，预测是一个数字列表，可以根据变量值而变化。

我的想法

看起来像一个多标签分类问题，每个标签对应于预测列表中的单个值。
但是由于标签的范围很大（即1-100000），不能使用分类方法。
可能可以使用多目标回归方法来预测测试集中观察的目标列表。
假设 Ym 是训练集中预测列表的最大长度。可以将训练集的 Observation1 中的预测列表填充为：

Observation1: 2345, 23, 8, ... 99399 => {2345, 98755, 0 , ... 0}（0 代表空值，重复 Ym-2 次）
可能值得标准化预测列表中的所有变量和值。

问题

我错过了什么吗？这种方法适合这类问题吗？
预测列表中的值是标识符，因此它们与观察中的其他值和变量没有直接相关性。这是一个让我担心的问题。如果我使用多目标回归，这会是一个主要问题吗？
我可以使用什么样的方法？神经网络还是线性回归？
因为在训练过程中知道完整的目标集，所以在我试图预测与观察对应的项目集群时可以使用聚类方法吗？

选择解决多对一映射问题的方法

问题描述

动车组