创建一个预测模型以查找将预订考试的用户

数据挖掘 机器学习
2021-09-14 18:20:02

我目前在巴西的一家健康公司工作,我想创建一个预测模型,该模型可以找到距离预约只有一步之遥的用户。

我们目前每月有 100 万次访问,其中 60% 的访问没有预订任何东西(检查、咨询、检查等)。我相信通过 ML,如果我们打电话或发送电子邮件,我们可以找到哪些用户会预订。

在过去的 7 年里,我一直是一名专业的网络开发人员,但我没有创建预测模型的技能,所以我正在寻找方向,一种开始的方式。

我们确实有 Google Analytics,但我正在考虑创建一个简单的软件来跟踪:

Age
Gender
Which pages the user visited
How many time the user expended in each page
Name

然后,我可以将用户分成两组:预订的用户和未预订的用户,然后......我被卡住了。

有人能给个方向吗?我应该创建一个软件来跟踪这些信息还是使用 GA?我想创建一个演示以获得融资,所以我没有太多时间:/

谢谢你。

3个回答

您的问题是一种二元分类,它预测目标变量的概率为 Yes(1) 或 No(0)。但是,首先,您需要一些真实数据,因为该问题的大多数最先进的解决方案都是有监督的。

如果您是该系统的管理员或有权访问他们的服务器,您可以通过记录每个用户所需的一切来收集这些数据,并在他们预订或不预订时用 1 和 0 标记他们的踪迹。

过了一会儿,你就有了一个大的标记数据集,你可以规范化和塑造你的输入,使其适合例如用于预测的深度神经网络。

除了 Moh 的回答,这是不可能不同意的,我知道您在构建二进制分类模型原型的时间有限。鉴于您没有太多编写机器学习模型的经验,在您收集数据并将因变量标记为 1 和 0 之后,您应该使用快速原型工具,例如 Orange、Weka、RapidMiner、SAS Enterprise Miner 等。这些是点击式平台,几乎不需要机器学习经验。非常简单的学习曲线,您可以非常轻松地构建概念验证。

稍后,根据您的需求和限制,您可以坚持使用这些易于使用的工具,或者迁移到 R 和 Python,并编写分类模型。

很难回答你的问题,因为它太笼统了。这就像在不知道如何进行编程的情况下询问如何构建网站。但我会是建设性的

鉴于您的背景并假设您熟悉 Python,我建议您使用auto-sklearnauto-sklearn是一个基于流行的sklearn的库,它自动化了一般机器学习中涉及的许多步骤,如特征选择和超参数调整。它还尝试了一堆算法并将它们集成以产生最佳结果。作为机器学习初学者,很难超越它的表现。

虽然auto-sklearn非常适合初学者入门,但我必须警告您,如果不完全了解它的方式和原因,您盲目依赖它会带来极大的风险。特别重要的一件事是您需要了解如何评估机器学习算法的性能。请确保您了解训练、验证和测试数据集之间的区别,然后再对您的预测有多好/准确度做出任何声明。