数据挖掘 - 无监督学习从空间数据中识别最常见的篮球比赛 - 吾爱随笔录

无监督学习从空间数据中识别最常见的篮球比赛

数据挖掘机器学习

2021-10-10 07:43:17

NBA 有一个名为 Sports VU 的系统，该系统在 2013-2014 和 2014-2015 赛季的每场比赛中每 1/10 秒跟踪每个球员和球的 xy 坐标。通过一些花哨的网络抓取，我现在可以访问这些数据，而且——因为我是 NBA 的狂热粉丝——我想确定每支球队最常见的比赛。假设我事先对每支球队的比赛一无所知（所以我认为监督学习在这里不起作用）。什么是最好的无监督学习技术？

如果我可以在游戏过程中追踪每个玩家的路径，我想这个问题会类似于你在图像识别/分类中看到的问题。无论如何，我应该使用 PCA，某种神经网络吗？我知道这是一个非常广泛的问题——我不需要知道如何编码（我是一个熟练的编码器和机器学习从业者）；我只是在寻找高级无监督机器学习细节。

2个回答

这是一个非常有趣的问题！像大多数真正有趣的问题一样，您不太可能为此找到开箱即用的解决方案，但我认为图/子图相似性领域在这里有一些希望。我会更详细地介绍，但是，在高层次上，我认为您可以将玩家在游戏中的路径视为通过 x,y 空间的五次遍历的集合，顶点是您可用的任何 x,y 点（大概这里有某种程度的时间粒度），以及描述玩家随着时间从 x,y 空间中的一个点到下一个点的移动的边。应该可以使用相似度度量对数据进行聚类（例如，参见Koutra 等人，2011一个很好的概述）。然后，使用您自己的领域专业知识，您应该能够确定您派生的集群在篮球中是否具有某些现实意义。

我同意图像分类是寻找灵感的正确地方。但是，不要将“图像”视为球场位置的网格，而“颜色”是球员，我会首先看看你是否从将“图像”视为球员网格中得到任何有用的东西，其中“颜色”是玩家的 x 和 y 位置（可能还有速度）。

我认为您需要对数据进行某种“聚合”：与其尝试查看完整的游戏，不如查看更接近游戏长度的片段。您可以使用移动窗口（相当于图像补丁）或将足够相似的玩家秒数（相当于超像素）连接在一起来创建描述游戏的图形。我的猜测是，移动窗口方法是最好的起点，因为它可能会告知哪些特征与将像素连接在一起以形成超像素相关。

在游戏的移动窗口上执行 k-means 时，可能会出现类似 play 之类的情况，但您可能会从确保看起来很重要的那种结构中受益匪浅（例如，与最近的敌人的距离） player) 已经可以作为包含在假设中的功能使用。

其它你可能感兴趣的问题

上一篇如何使用交叉验证来修剪决策树下一篇具有属于一组观察值的类值的预测模型