使用此数据集可以构建哪些可能的数据产品

数据挖掘 机器学习 数据挖掘 数据集
2022-02-09 07:16:11

我有一个数据集,其中包含有关人们何时进入和离开场所的信息。我在数据集中有以下信息:

  1. 人员 ID
  2. 入境时间
  3. 离开时间

该数据集有大约 50 个独特的人。每个人将有多个条目对应于多次访问。数据跨越一年多,所以我有很多条目(大约 100 万)。

这些人可以根据他们工作的部门(2 个部门 - 相互排斥)或他们的角色(4 个可能的角色 - 所有相互排斥)进行分类

我想知道用这种数据集可以做什么样的数据分析。我不是在寻找直截了当的东西,比如“谁在建筑上花费的时间最多”。然而,像找到 2 个人的访问之间的相关性这样的事情会很有趣。因此,如果 A 人访问了前提,那么 B 人也会访问的概率是多少。由于我只有大约 50 个独立访问者,我认为这样的分析是可行的。

另一种思路是应用一些区间模式挖掘技术,但我对它们不太熟悉。

有人可以给我一些关于可以使用这种数据构建什么样的数据产品或可以对这些数据使用什么样的技术的指示/想法。

编辑:正如评论中所讨论的,我将其称为产品,因为我不想进行一些简单或琐碎的分析。而且我不是在寻找任何商业上可行的想法——只是一些很酷的有趣想法:)

3个回答

您也许可以找到充当锚点的个人。如果安倍在这里,那么其他所有人都更有可能停留更长时间。有趣的是知道是否总是同一个人留下来。

可能还有一些有趣的模式,即群体一起到达、在场或一起离开。

作为企业主,您可以寻找不仅工作时间较短,而且在自己的时间到达并与团队一起离开的人。

我不知道这是否是您正在寻找的答案,但通常先问“我会做些什么不同”?

所以,如果我正在经营一家企业(应用一些背景),我多久没有覆盖某些职位。我如何安排轮班(例如)以确保涵盖所有关键职位,但我的建筑物中的人员尽可能少(最小化成本)?

作为一个简单的时间序列,您可以对该数据集应用任何类型的预测 - 例如,预测他们将在建筑物中的人员和时间,以及他们下一次到达的时间。在到达模式中寻找季节性。

您还可以预测下一个特定人何时会在建筑物中。你能检测出异常值吗?谁提前离开或打破了他们通常的行为模式?

我假设上下文是办公室环境。

研究系统性事件的影响。例如,组织事件如何影响出勤率,或相反(导致模式转变的事件)。

根据本地化事件(例如学校假期、休假模式、应对额外工作量)建立员工档案。不一定是“有趣”(你的问题),但也可以对人口统计数据(年龄、性别、种族等)进行分析

部门或团队分析。例如生成一个人、团队或部门的网络索引(他们的活动有多相关)。

对内部组织设计的可能影响(例如,规模/减少支持人员服务,减少资源浪费等),使用物业的入住率来决定酒店办公室模式,或搬迁。