我正在尝试确定一个好的工具,它可以帮助我为包含 300,000 种产品的列表生成销售概率。我有一个历史销售数据表(大约有 300,000 条记录),其中包含大约 10 个连续变量以及一个具有是/否(即二元结果)值的因变量,指示列表中的产品是否在过去 12 个月。
历史数据基本上是这样的。
Product1,2,3 etc
Variable 1
Variable 2
Variable 3
Variable 4
Variable 5
Variable 6
Variable 7
Variable 8
Variable 9
Variable 10
Sold in past 12 months (Yes or No)
列表中的最后一个变量当然是因变量。
我想做的就是找到一个最好或最容易使用的工具,这样我就可以为列表中的每个产品分配一个概率,基本上让我有机会将我的列表压缩到那些产生销售的可能性最高,这样我就可以列出那些产品而不是那些产生销售可能性较低的产品。
理想情况下,该工具可以根据可用变量进行快速逻辑回归或其他一些概率计算,从而为每个产品提供一个(类似 RVU 的)数字(可能是从 0 到 1 的概率),让我能够快速选择要在网站上列出的前 50,000 种产品,因为根据可用变量,它们更有可能产生销售。
我当然假设变量在某种程度上与结果相关,但也许该工具会帮助我确定这一点。
有没有人有任何好的工具来实现这一点的建议?我认为有一种简单的方法可以在 Microsoft Excel 中进行设置,但如果没有,那么执行此操作的软件当然也很棒。
我也愿意接受关于哪种类型的回归分析(或其他分析)最适合实现这一目标的建议。
感谢您的任何建议。
