具有属于一组观察值的类值的预测模型

数据挖掘 分类 预测建模 回归 特征选择 特征构造
2021-10-13 07:44:32

我想知道是否有可能建立一个预测模型,在其中我可以定义一组行及其属性,以及属于该组行的一个类,而不是让典型的模型一个观察 - 一个类。

我要做的是创建一个模型,该模型应该能够预测职业自行车骑手的未来水平——更有可能用于预测年轻骑手的水平。输入数据是每个骑手的结果(比赛、比赛类别、赛道类型、位置等)。等级用值(从 1 到 10)表示,每个“已知”骑手已为每种技能(山地、平地、计时赛、短跑等)分配,这意味着原则上,我会制作一个预测模型对于每项技能(对每个班级意味着什么)。例如,对于山地课程,我将有以下内容:

Rider   Category    Race Type   Parcours    Distance    Position    Class(Mountain)
-----------------------------------------------------------------------------
Froome  GrandTour   Stage       Mountain    185         1           10
Froome  WorldTour   Stage       MidMountain 210         25          10
Nibali  Contin.Tour Stage       Mountain    170         15          9
Nibali  WorldTour   Classic     MidMountain 245         3           9

除了处理数字和分类属性的事实之外,我在这里看到了两个主要挑战。

  1. 一个骑手收集了很多结果,每个结果都会产生相同的类值。例如,克里斯·弗鲁姆(Chris Froome)在大巡回赛类别阶段的胜利将被评为 10 山地,但当他最终在较低级别的赛段中处于不利位置时,他也将被评为 10 山地 - 就像在示例中。好的,假设具有数千行的模型(可能是回归模型,而不是分类算法,但也不确定)应该能够检测到“常见”模式(来自像这样的优秀登山者在山上的良好表现Froome),所以它可以被克服。我想这将是一个测试和找到最合适的模型的问题。

  2. 我发现预测部分是最有问题的部分,因为我需要的不是预测每个观察的类别值(由每个结果表示),而是预测每个骑手的类别值。这就是为什么我在线程开头说我需要以某种方式将骑手的所有结果视为一个独特的观察(类似于一组或一组观察),并将类值分配给该组。一种解决方法可能是获取骑手的所有观察结果,预测每个人的类别,然后计算平均值,但这看起来不是很聪明。

那么,关于如何构建这种模型的任何想法?

提前致谢。

1个回答

看起来你有两个问题:依赖时间的预测建模和特征工程。

1) 时间相关数据

关键词:

创建一个模型,该模型应该能够预测职业自行车骑手的未来水平

骑士的未来等级。

这意味着存在当前级别。并且水平过去以及每个骑手的等级变化历史。

您要解决的问题取决于时间。您的源数据可能如下所示:

在此处输入图像描述

2)建立一个变量来预测

第二。您应该构建目标功能。此骑士等级(等级)。

据我了解:

  • 总体骑手“水平”可以是他在每个特定比赛类型中的“等级”的函数
  • 并且......种族“观察”类是一种功能{Category, Race Type, Parcours, Distance, Position}

所以你真正需要预测的唯一事情就是比赛结果。

在此处输入图像描述