我目前正在研究一个数据集,以根据过去的数据和客户的交易来预测客户流失。
总共有 2,40,000 名客户,其中大约 1,77,000 名客户是活跃的(截至今天),而其余的则处于非活跃状态(6300 名)。这是示例标题的样子:
custID|custAge|custGender|TQuantity|TVolume|TValue|TAmount|HolidayStatus|...
总的来说,我有 40 个预测变量,包括客户详细信息、交易详细信息、项目详细信息等。
数据中的活跃客户明显多于不活跃客户,即不活跃客户仅占整个客户群的 2.6%。因此,活跃客户(2500 万/3200 万)进行的交易多于非活跃客户(之前活跃)(600 万/3200 万)。
尽管如此,我还是使用随机数据创建了一个逻辑回归模型 ( shuf -n 500000 data.csv)。该模型在输入随机数据时的预测准确率达到 96.69%。
问题:如何让模型在这种有偏差的数据集上更准确地预测?或者我如何更恰当地对数据进行采样?
模型预测:以 99.7% 的概率,它预测客户将是活跃的,而客户是不活跃的
PS:更改阈值无济于事