数据挖掘 - 分布特征工程 - 吾爱随笔录

数据挖掘机器学习数据挖掘统计数据特征选择

2022-02-15 11:44:06

一直困扰我的事情是在机器学习过程的特征工程中总结分布。有人对此有最佳实践吗？

示例：想象一个显示客户产品订单的数据集。您想总结客户行为。

在该示例中，如果我们只关注客户的订单价值，则每个客户的订单价值将具有一定的分布 D(x)。

现在，可以创建描述每个客户分布特征的变量（最小值、平均值、中值、最大值、四分位数、IQR 等），但是是否有最佳实践可以围绕哪些特征在提取时提供最多信息？此外，是否有某种方法可以将分布信息包含在单个变量中？

3个回答

最后，每个分布都可以用带参数的函数来描述。可以是高斯、多项式等。原则上，您可以选择只有一个自由参数并适合该参数的函数。根据您的数据，您可能能够猜测出似乎适合基础分布的函数类。然后，您可以使用拟合参数作为数据集的输入。示例：拟合高斯并为您的模型使用均值、归一化和 sigma = 3 参数。

我个人使用关联规则。由于订单是按交易（客户）汇总的，购买可口可乐会取代购买百事可乐吗？购买 IOS 会取代购买 Android 吗？将以漂亮的热图结束；）

除了周围的想法和实践，尝试你自己的艺术围绕使业务受益（这里的美丽）。

可以使用核密度估计 (KDE)来估计每个分布。KDE 是一种估计随机变量概率密度函数的非参数方法。核密度估计是平滑数据/汇总数据。它的优点是不必先验地选择特定的分布。KDE 的缺点是数据不是汇总在单个变量中，而是将数据汇总为一个函数。

其它你可能感兴趣的问题