分布特征工程

数据挖掘 机器学习 数据挖掘 统计数据 特征选择
2022-02-15 11:44:06

一直困扰我的事情是在机器学习过程的特征工程中总结分布。有人对此有最佳实践吗?

示例:想象一个显示客户产品订单的数据集。您想总结客户行为。

在该示例中,如果我们只关注客户的订单价值,则每个客户的订单价值将具有一定的分布 D(x)。

现在,可以创建描述每个客户分布特征的变量(最小值、平均值、中值、最大值、四分位数、IQR 等),但是是否有最佳实践可以围绕哪些特征在提取时提供最多信息?此外,是否有某种方法可以将分布信息包含在单个变量中?

3个回答

最后,每个分布都可以用带参数的函数来描述。可以是高斯、多项式等。原则上,您可以选择只有一个自由参数并适合该参数的函数。根据您的数据,您可能能够猜测出似乎适合基础分布的函数类。然后,您可以使用拟合参数作为数据集的输入。示例:拟合高斯并为您的模型使用均值、归一化和 sigma = 3 参数。

我个人使用关联规则。由于订单是按交易(客户)汇总的,购买可口可乐会取代购买百事可乐吗?购买 IOS 会取代购买 Android 吗?将以漂亮的热图结束;)

除了周围的想法和实践,尝试你自己的艺术围绕使业务受益(这里的美丽)。

可以使用核密度估计 (KDE)来估计每个分布KDE 是一种估计随机变量概率密度函数的非参数方法。核密度估计是平滑数据/汇总数据。它的优点是不必先验地选择特定的分布。KDE 的缺点是数据不是汇总在单个变量中,而是将数据汇总为一个函数。