因此,您收集的数据显示了在任何时候正在使用哪个应用程序,并按一天中的几个小时进行分类。你有几个应用程序。您提到其他维度,例如使用应用程序时的用户状态(行走,不行走),(活动,不活动 - 在我看来,您没有收集太多使用 2-6。是因为使用来自当用户真正离开时,来自应用程序的自主 ping?),位置(这将是所有可能的值,还是您要使用类似这个位置以前经常看到的事实?)。另一个有趣的关系可能是配对应用程序,即挖掘应用程序 A 在使用应用程序 B 之后或在应用程序 B 之前使用之间的关系。
无论如何,您肯定会有许多不同的维度来衡量任何特定使用测量的使用特征,因此您肯定会遇到多维问题。您可能会尝试将其可视化为 N 空间问题,每个特征都有一个测量轴。您之前的每个测量值都代表向量,并且您正在为下一次测量生成一个新向量。
由此,您希望根据测量使用空间的输入特征来预测未来的行为。您可以选择归类为最近邻的东西,并且您可能希望在第一次尝试解决问题时这样做。您最终可能希望通过向分类器添加概率并对其进行操作来使预测模型更加复杂。这意味着获得类成员概率的估计,而不仅仅是简单的分类。但我会逐步构建整个事物。从简单开始,根据需要增加复杂性。增加的复杂性也会对性能产生影响,所以为什么不使用某些东西作为基准。
对于数据的老化,是否要降低牙齿中过长的特征的预测能力?如果是这样,请在数量上明确说明这意味着什么。我对上个月的使用数据的信任程度是否低于昨天的数据?也许是这样,但为什么呢?我的用法不同是因为我不同还是因为上个月与昨天相比特别,反之亦然?同样,您可能会受益于一开始忽略这一点,但随后尝试搜索从数据中获取“季节性”或周期性特征。一旦您确定它是否/如何变化,您就可以通过不同的方式与您的直接使用量相比,对该贡献进行加权。也许您想放大相似时期的贡献(一天中的相同时间 && 相同位置 && 相同的先前应用程序使用情况)。也许您想对历史数据提供指数衰减,因为使用情况总是在适应和变化,最近的使用情况似乎比3xcurrent 更好。
对于所有这一切,正确的数据科学观点是让数据引领你。