特征工程:结合分类特征和连续特征

机器算法验证 机器学习 特征工程 嵌套数据
2022-03-31 17:10:38

当我们分析数据时,我们可以观察到几个可能包含互信息的变量。例如,可以有一个二元变量,例如 Y=你曾经吸烟吗?然后会有一个后续问题,例如(在这种情况下,它是一个连续变量)您第一次吸烟时几岁?

对于变量 X=that 测量您第一次吸烟时的年龄?,

X1 = { =0 ; 如果从不吸烟, =1;如果吸烟}x1x1

X2 = { =0 ; 如果 =0 >=0 ; 如果 =1 }x2x1x2x1

所以的分布是这样的:X2

在此处输入图像描述

这意味着它包含几个零,因为它取决于上一个问题(X1

处理此类问题的一种方法是仅为用户(即消除零)。那么缺点是它会减少相对于变量的样本量。X2X2

建模的另一种方法是将其转换为分类变量。例如,有人可以这样做:X2

X2categorized={“从不吸烟”; =0 , "年轻" ; 0< <=15 , "中" ; 15< <=20 , "老" ; >20} X2X2X2X2

但是有没有办法通过使用混合分布来保持连续性来实现 Model X?从某种意义上说,混合分布可能类似于的乘积。但是我不知道该怎么做。X2X1

因为在这种情况下是 binary ,所以取的乘积似乎是有意义的。但我不确定这通常如何工作,即当有超过 2 个类别时。X1X2X1X1

任何帮助都会很棒

2个回答

这可能只是一个一般不能解决此类问题的 hack,但可能非常适合您的问题:一个不吸烟的人相当于一个在无穷大的年龄开始吸烟的人。因此,如果您将转换为,那么从不吸烟的人应该有一个值,而其他人只有如果您正在执行某种线性回归,这将破坏原始线性,但对于非线性回归技术应该没问题。X2X2=1/X20=1/1/X2

吸烟者类别的属性与非吸烟者类别的属性不同好的,可以。

开始吸烟的年龄是吸烟者类别的一个属性。开始吸烟的年龄不是非吸烟者的属性。假装不这样,捏造看起来像数字的值,是不明智的,会让你的听众感到困惑。