当我们分析数据时,我们可以观察到几个可能包含互信息的变量。例如,可以有一个二元变量,例如 Y=你曾经吸烟吗?然后会有一个后续问题,例如(在这种情况下,它是一个连续变量)您第一次吸烟时几岁?
对于变量 X=that 测量您第一次吸烟时的年龄?,
= { =0 ; 如果从不吸烟, =1;如果吸烟}
= { =0 ; 如果 =0 >=0 ; 如果 =1 }
所以的分布是这样的:
这意味着它包含几个零,因为它取决于上一个问题()
处理此类问题的一种方法是仅为用户(即消除零)。那么缺点是它会减少相对于变量的样本量。
建模的另一种方法是将其转换为分类变量。例如,有人可以这样做:
={“从不吸烟”; =0 , "年轻" ; 0< <=15 , "中" ; 15< <=20 , "老" ; >20}
但是有没有办法通过使用混合分布来保持连续性来实现 Model X?从某种意义上说,混合分布可能类似于和的乘积。但是我不知道该怎么做。
因为在这种情况下是 binary ,所以取和的乘积似乎是有意义的。但我不确定这通常如何工作,即当有超过 2 个类别时。
任何帮助都会很棒