我有大约 700 万行客户数据(大约 500 个稀疏属性)
其中有 100 万人选择了一项新服务。
如何使用此信号来预测剩余的哪些客户可能会采用该服务?以及如何衡量有效性?
目前面临的问题——
- 由于缺乏明确的负变量,无法将此视为监督问题
- 无法应用标签传播,因为只有一个类
除了将其视为异常检测问题(oneclasssvm 等)外,我还尝试使用基于最近邻的方法。
如果我缺少一些常用技术,请寻找其他方法来解决问题。
我知道这里有一个答案,但它只谈论我已经尝试过的 oneclasssvm。还试图找到衡量模型有效性的方法以及任何新的解决方法。