建立客户/患者档案

数据挖掘 机器学习 分类
2022-02-25 19:15:30

我正在寻找有关如何处理某种情况的想法。我有许多用户的约会历史数据。我可以(轻松)预测他们未来的行为(下一次约会是否积极)/

我现在需要建立配置文件,即将用户分类为“好”或“坏”用户。所以,我不会预测未来的约会,而只是说“这个用户是好/坏用户”,然后与例如每月的行为进行比较。

我可以在哪里寻找有关如何进行的信息的任何想法?

我为我含糊的第一个问题道歉。我会尽量说得更清楚。

我有大约 20 万用户,他们的医生预约历史。作为人口统计,我只有他们的年龄和性别。其余变量与他们的预约有关:预约时间、医生(服务)、预约日期等。我也知道他们是否去约会(显示/未显示)。

分配包括将用户分类为“好”或“坏”,即他们是否会去约会。我不必预测他们是否会去下一次约会,只需要有一个用户分类列表。通过这样做,如果我归类为“好”的用户 A 要求预约,我知道他是“好”并且他会赴约。我不会对他采取任何行动。

同样,我不必预测未来的约会或新用户的行为,只需对现有约会进行分类即可。

我希望现在它更清楚一点。如果没有,请告诉我。谢谢!

我知道我提供的信息可能有点模糊,但我不知道是否要详细说明。如果您希望我分享更多信息,请告诉我。

谢谢!

1个回答

也许我有点过于简单化了,但我会构建一组看起来像这样的训练数据(Good=1 表示患者出现在 appt 并且根据您的定义是好的,0 = bad

Recid, PatId, SurgeryId, DrId, DateAppt, TimeAppt, Gender, Age, Good
1, 1, 100, 10, 01jan16, 10:30, M, 31, 1
2, 1, 100, 12, 05jan16, 15:20, M, 31, 1
3, 1, 100, 10, 06mar16, 11:45, M, 31, 0
4, 2, 101, 15, 02Feb16, 12:35, F, 75, 1
....

然后我会使用 R 中的一种机器学习工具——它们有很多种,来训练你的数据模型。

然后用另一组数据,我会测试你刚刚建立的模型,看看它有多正确。如果你没有第二组数据,那么随机划分你的原始训练集,只用一半的数据进行训练。

一些使您的模型更强大的进一步建议是使用以下信息创建其他变量

  • 一个标志,表明一个人是否错过了与任何医生的先前预约。
  • 一个标志,表明一个人是否错过了他们将要拜访的特定医生的先前预约 - 我从个人经验中知道,我的手术中有一些我喜欢看的医生。
  • 自上次约会以来的天数
  • 约会的星期几

听起来像是一个不错的数据集!