随着时间的推移预测或查找二元变量

数据挖掘 机器学习 数据集 预测建模 二进制
2022-02-18 08:08:45

我是 ML 的新手,并试图找到一些实际用途,我遇到了保存一堆用户的连接和断开连接(二进制变量)的机会,如下所示:

“用户 A 在 10:02:33 连接

用户 A 在 10:05:02 断开连接"

我想知道如何确定用户何时再次连接,分析他过去的连接、断开连接和在线时间。

我的顾虑如下:

  • 这可能吗?
  • 最好的方法是什么?
  • 我需要每个用户多少样本?
  • 构建数据的最佳方式是什么,除了用户标识符、操作(连接/断开连接)和操作发生的时间之外,还有哪些有用的信息?

一个额外的问题:是否可以实时添加更多数据来改进算法预测?如何?

1个回答

既然你说你是初学者,我建议使用一个简单的二元分类器:逻辑回归。它获取输入向量,并通过将其点积与权重参数(估计哪个是目标)进行转换,然后将其传递给逻辑函数:

y^(x)=11+exp(w,x)y={1,user present0,user absent.

有关详细信息,请阅读维基百科文章对于功能,我会使用一天中的时间编码为((2π/),(2π/)),一个热编码的分类变量,用于表示星期几,一个二进制变量表示周末,等等。这是一个粗略的模型,在表格中留下了很多数据,例如用户之间的相关性,但作为初学者的练习,它是合适的。