我试图根据目标变量的 kde 分布来确定一个特性是否重要。我知道如何绘制 kde 情节并在查看情节后进行猜测,但有更正式的做法吗?比如我们可以计算两条曲线之间不重叠区域的面积吗?
当我搜索两条曲线之间的区域时,有很多链接,但没有一个可以解决我的确切问题。
注意:
此图的主要目的是确定该特征是否重要。所以,如果我在这里遗漏任何隐藏的概念,请进一步建议我。
我要做的是设置一些阈值,例如 0.2,如果non-overlapping area > 0.2,则断言该功能很重要,否则不。
MWE:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = sns.load_dataset('titanic')
x0 = df.loc[df['survived']==0,'fare']
x1 = df.loc[df['survived']==1,'fare']
sns.kdeplot(x0,shade=1)
sns.kdeplot(x1,shade=1)
