一直困扰我的事情是在机器学习过程的特征工程中总结分布。有人对此有最佳实践吗?
示例:想象一个显示客户产品订单的数据集。您想总结客户行为。
在该示例中,如果我们只关注客户的订单价值,则每个客户的订单价值将具有一定的分布 D(x)。
现在,可以创建描述每个客户分布特征的变量(最小值、平均值、中值、最大值、四分位数、IQR 等),但是是否有最佳实践可以围绕哪些特征在提取时提供最多信息?此外,是否有某种方法可以将分布信息包含在单个变量中?
一直困扰我的事情是在机器学习过程的特征工程中总结分布。有人对此有最佳实践吗?
示例:想象一个显示客户产品订单的数据集。您想总结客户行为。
在该示例中,如果我们只关注客户的订单价值,则每个客户的订单价值将具有一定的分布 D(x)。
现在,可以创建描述每个客户分布特征的变量(最小值、平均值、中值、最大值、四分位数、IQR 等),但是是否有最佳实践可以围绕哪些特征在提取时提供最多信息?此外,是否有某种方法可以将分布信息包含在单个变量中?
最后,每个分布都可以用带参数的函数来描述。可以是高斯、多项式等。原则上,您可以选择只有一个自由参数并适合该参数的函数。根据您的数据,您可能能够猜测出似乎适合基础分布的函数类。然后,您可以使用拟合参数作为数据集的输入。示例:拟合高斯并为您的模型使用均值、归一化和 sigma = 3 参数。
我个人使用关联规则。由于订单是按交易(客户)汇总的,购买可口可乐会取代购买百事可乐吗?购买 IOS 会取代购买 Android 吗?将以漂亮的热图结束;)
除了周围的想法和实践,尝试你自己的艺术围绕使业务受益(这里的美丽)。
可以使用核密度估计 (KDE)来估计每个分布。KDE 是一种估计随机变量概率密度函数的非参数方法。核密度估计是平滑数据/汇总数据。它的优点是不必先验地选择特定的分布。KDE 的缺点是数据不是汇总在单个变量中,而是将数据汇总为一个函数。