我们有一组产品,我们试图确定哪些产品我们应该继续销售,哪些产品要从我们的库存中移除。该文件包含历史销售数据和活动库存,可以通过标题为“文件类型”的列进行识别。
我们怀疑应用于集合的数据科学——例如决策树分析或逻辑回归,或其他一些机器学习模型——可以帮助我们为每个产品生成一个可以使用的值(即概率分数)作为评估库存的主要决定因素。文件中的每一行代表一个产品。
重要的是要注意,我们的库存中有很多产品,而且很少有产品倾向于销售(每年只有大约 10% 的产品销售),而且许多产品在一年内只有一次销售。
该文件包含历史销售数据(用标题为 File_Type 的列标识)以及需要评估的当前活动库存(即,文件类型 =“活动”)。历史数据显示过去 6 个月的销售额。二元目标(1 = 销售,0 = 过去六个月内没有销售)可能是推动分析的主要目标。
其他列包含我们认为与销售相关的数字和分类属性。
请注意,一些历史销售 SKU 也包含在活动库存中。
关于包含的属性的一些评论,因为我们意识到我们可能有一些不必要或可能需要解释的属性。
SKU_number:这是每个产品的唯一标识符。订单:只是一个顺序计数器。可以忽略。SoldFlag:1 = 在过去 6 个月内售出。0 = 未售出 MarketingType = 我们营销产品的两种类别。这可能应该被忽略,或者更好的是,每种类型都应该独立考虑。New_Release_Flag = 任何具有未来版本的产品(即,版本号 > 1)
您的数据将呈现在世界上最大的数据科学社区面前。您希望看到哪些问题得到解答?
(1) 为我们提供每个 SKU 的销售概率估计的最佳模型是什么?我们主要对可以根据这些属性(以及我们可以添加的其他属性)不断更新的相对单位感兴趣。
(2)是否可以提供评分文件(即文件中每个SKU的概率评分),并提供对所选模型准确性的评估?
(3)接下来我们应该采取什么措施?
如果我可以将文件发送给您,请告诉我。
非常感谢您提供的任何建议。