我是机器学习的新手,我正在尝试解决一个问题,我必须预测客户是否会购买家庭保险产品。
- 我有一个数据集,它告诉我银行的哪个客户从银行购买了抵押贷款。
- 我得到了先购买抵押贷款的客户的另一个数据,然后银行开展了一项活动,为他们随机提供房屋保险,这个数据集告诉我哪些抵押贷款客户实际上从银行购买了房屋保险。
现在我的工作是预测我应该为哪家银行挑选最有可能订阅家庭保险产品的客户。
我没有单独的训练/测试/验证数据集,只有一个数据集。我该如何解决这个问题?我应该从给定的原始数据集中创建验证和测试数据吗?我应该如何处理这个问题才能正确预测?