数据挖掘 - 预测手机上的应用程序使用情况 - 吾爱随笔录

预测手机上的应用程序使用情况

数据挖掘机器学习预测建模

2021-09-19 17:51:15

我目前正在构建一个应用程序，该应用程序旨在预测用户如何使用不同的应用程序，并根据它认为用户当前将使用哪些应用程序为用户提供建议（基于用户当前条件的排名列表）。过去一周我一直在收集一些数据，但我不确定该采取哪种方法。我一直在考虑使用多个季节性（如果我使用了错误的术语，请纠正我），例如一天中的时间、一周中的一天、一个月中的一周、一个月和季度。我还想使用位置和其他传感器数据（例如稍后用户状态“步行”或“坐着”）。

我总结了上周某些应用程序每小时的使用情况。条形代表在此期间每次打开应用程序，绿线是加权移动平均线，其最近邻的权重为 0.5。

现在我看到了摆在我面前的几个挑战，非常感谢其他人的一些意见，或者一些很好的资源来寻找更多信息。

你认为我的模型是解决这个问题的好模型吗
我如何解释老化数据？
如何将不同的季节性/州/位置相加？将它们相乘？
像我一样平滑曲线是否有意义？

以下是上周每小时的一些数据：

1个回答

因此，您收集的数据显示了在任何时候正在使用哪个应用程序，并按一天中的几个小时进行分类。你有几个应用程序。您提到其他维度，例如使用应用程序时的用户状态（行走，不行走），（活动，不活动 - 在我看来，您没有收集太多使用 2-6。是因为使用来自当用户真正离开时，来自应用程序的自主 ping？），位置（这将是所有可能的值，还是您要使用类似这个位置以前经常看到的事实？）。另一个有趣的关系可能是配对应用程序，即挖掘应用程序 A 在使用应用程序 B 之后或在应用程序 B 之前使用之间的关系。

无论如何，您肯定会有许多不同的维度来衡量任何特定使用测量的使用特征，因此您肯定会遇到多维问题。您可能会尝试将其可视化为 N 空间问题，每个特征都有一个测量轴。您之前的每个测量值都代表向量，并且您正在为下一次测量生成一个新向量。

由此，您希望根据测量使用空间的输入特征来预测未来的行为。您可以选择归类为最近邻的东西，并且您可能希望在第一次尝试解决问题时这样做。您最终可能希望通过向分类器添加概率并对其进行操作来使预测模型更加复杂。这意味着获得类成员概率的估计，而不仅仅是简单的分类。但我会逐步构建整个事物。从简单开始，根据需要增加复杂性。增加的复杂性也会对性能产生影响，所以为什么不使用某些东西作为基准。

对于数据的老化，是否要降低牙齿中过长的特征的预测能力？如果是这样，请在数量上明确说明这意味着什么。我对上个月的使用数据的信任程度是否低于昨天的数据？也许是这样，但为什么呢？我的用法不同是因为我不同还是因为上个月与昨天相比特别，反之亦然？同样，您可能会受益于一开始忽略这一点，但随后尝试搜索从数据中获取“季节性”或周期性特征。一旦您确定它是否/如何变化，您就可以通过不同的方式与您的直接使用量相比，对该贡献进行加权。也许您想放大相似时期的贡献（一天中的相同时间 && 相同位置 && 相同的先前应用程序使用情况）。也许您想对历史数据提供指数衰减，因为使用情况总是在适应和变化，最近的使用情况似乎比3xcurrent 更好。

对于所有这一切，正确的数据科学观点是让数据引领你。

其它你可能感兴趣的问题

上一篇R：比较（6）仅适用于原子和列表类型下一篇在 Zeppelin 上为 Scala 绘制库