数据挖掘 - 我可以将健康人群分类为受伤人群中的集群吗？ - 吾爱随笔录

数据挖掘机器学习分类聚类

2022-03-16 02:21:48

只是一点背景：我们正在人类生物力学领域应用机器学习算法。在之前的一个项目中，我的同事在受伤人群中确定了三个不同的亚组，他们利用层次聚类进行运动。为了能够对新主题进行分类，我们开发了一种分类算法（使用相同的数据集），该算法能够将每个案例分配到预定义的集群。

我们目前正在进行另一项研究，该研究涉及新的比较受伤和健康受试者执行与发现集群相同的任务。

我的问题是，有没有办法知道受伤运动员中发现的集群在多大程度上适用于健康运动员？如果我使用相同的算法和功能，可能会产生什么影响/后果？我可以证明吗？有什么限制？

由于我正在努力在文学/互联网中找到任何类似的情况，因此将不胜感激任何对文学的回答或指导。

谢谢大家。

干杯!

2个回答

您用于定义集群的数据集（人口）与您现在正在查看的数据集（健康人口）不同。这意味着您不能像这样使用集群对健康人进行分类，但您的研究问题不是每个人属于哪个集群。

如果您的问题是查看人们的移动策略是否一致，那么您可以使用来自您拥有的集群或您刚刚组成的任何其他集群的信息。集群分配是每个测量的代理（简化表示），您试图从每个测量的集群编号中查看它们是否一致。

在我看来，这会导致难以解释的结果。如果健康人始终非常接近两个集群之间的边界怎么办？一致，但在集群之间抖动。

我想说你需要放弃使用集群作为代理的想法。假设您的衡量标准是人们一次又一次地跑一英里的速度。要知道它们是否一致，您只需查看每个人的标准差。

我想您的问题是您在每个示例中都有很多测量值，并且您试图通过使用簇号而不是实际测量值来简化。那是降维到一个维度，这是极端的，我不会使用聚类。是否真的需要减少维度，或者是否可以在原始数据上定义一致性度量？如果不是，并且您需要减小尺寸，我会首先求助于 PCA，如果这还不够，也许是来自自动编码器的嵌入。

我不确定这是发布此问题的最佳地点。这看起来更像是生物力学专家/医生/物理治疗师的问题......

从机器学习的角度来看，您正在尝试使用在受伤运动员的特定数据集上训练的模型，然后使用它来预测另一个（可能）不同数据集的分类。在这样做的过程中，有一个隐藏的假设，即两个总体共享相似的分布。

您可以尝试根据从新的健康运动员收集的数据训练模型，并尝试对受伤人群进行分类，看看这 2 个模型的结果之间是否存在显着差异。

其它你可能感兴趣的问题