分析具有“是”或“否”二元销售结果的库存的最佳工具

数据挖掘 回归 逻辑回归
2022-03-12 15:20:13

我正在尝试确定一个好的工具,它可以帮助我为包含 300,000 种产品的列表生成销售概率。我有一个历史销售数据表(大约有 300,000 条记录),其中包含大约 10 个连续变量以及一个具有是/否(即二元结果)值的因变量,指示列表中的产品是否在过去 12 个月。

历史数据基本上是这样的。

Product1,2,3 etc
Variable 1
Variable 2 
Variable 3
Variable 4
Variable 5
Variable 6
Variable 7
Variable 8
Variable 9
Variable 10
Sold in past 12 months (Yes or No)

列表中的最后一个变量当然是因变量。

我想做的就是找到一个最好或最容易使用的工具,这样我就可以为列表中的每个产品分配一个概率,基本上让我有机会将我的列表压缩到那些产生销售的可能性最高,这样我就可以列出那些产品而不是那些产生销售可能性较低的产品。

理想情况下,该工具可以根据可用变量进行快速逻辑回归或其他一些概率计算,从而为每个产品提供一个(类似 RVU 的)数字(可能是从 0 到 1 的概率),让我能够快速选择要在网站上列出的前 50,000 种产品,因为根据可用变量,它们更有可能产生销售。

我当然假设变量在某种程度上与结果相关,但也许该工具会帮助我确定这一点。

  1. 有没有人有任何好的工具来实现这一点的建议?我认为有一种简单的方法可以在 Microsoft Excel 中进行设置,但如果没有,那么执行此操作的软件当然也很棒。

  2. 我也愿意接受关于哪种类型的回归分析(或其他分析)最适合实现这一目标的建议。

感谢您的任何建议。

2个回答

逻辑回归将是评估销售概率的理想候选者,但明智的做法是考虑 Emre 关于“多少”的评论。在这种情况下,即使是带有“是”因变量的前 50000 名的基本聚合也会让你到达那里——但为什么要停在那里呢?

您可能想要区分季节性(或其他周期性)因素是否影响购买行为(例如,如果您试图针对夏季购买习惯优化库存水平)。在这种情况下,使用考虑季节或月份的虚拟变量进行线性回归可能是深入研究的好方法(这涉及 Emre 提出的“分类”点)。您在这里拥有的历史数据越多越好。

回到你关于“快速”的观点——你提到了 Excel,所以我假设 Python 或 R 被排除在外。

RapidMiner 或 Knime 将满足您在任何这些建模环境中对“快速”的要求。否则,如果您好奇,scikit-learn (python) 有大约 3 打其他通用线性模型免费提供(R 也有一个庞大的库)。

附件是关于如何在 RapidMiner 中进行这种建模的链接——

逻辑回归示例(RapidMiner)

https://www.youtube.com/watch?v=0npgGPK0zR8

快乐的建模!

如果您可以将数据转码为常规 CSV 文件,那么Orange可以打开它。Orange 是用于数据科学的可视化编程工具。它包括几个分类和回归算法,您可以使用这些算法轻松预测您可能拥有的任何未标记数据。还有用于聚类和聚类分析的小部件,您可能会发现它们很有用(例如,查找是否有一组产品比其他产品更适合组合在一起)。

橙色聚类示例