分层数据的特征工程

数据挖掘 特征提取 特征工程
2022-02-16 07:30:41

我正在处理此链接中给出的 KDD 数据集。

该数据集与典型的推荐系统数据集相关。因此,您会找到一个项目和有关该项目的信息。提供的有关项目的信息之一是其类别。Item-Category 是一个字符串a.b.c.d,其中字符分隔层次结构中的类别,.以自上而下的方式排序(即,类别a是 的父类别b,类别b是 的父类别c,依此类推。

我不确定如何在我的特征工程中正确使用这些信息。例如,我可以得出的最简单的信息是对于每个项目,我可以估计它所属的最高类别。但是,要超越这一点并使用子类别信息,我如何为线性回归建模此功能?

0个回答
没有发现任何回复~