如何从数据构建平均原型

数据挖掘 聚类 距离
2021-10-01 15:26:00

我有一个数据集,其中包含随着时间的推移对受试者的生理测量。我想创建(或选择)一个平均原型示例,以便能够在新示例中识别它们与平均原型的距离。第二个问题是选择一个阈值来确定什么是近或远。每个示例有 20 个数字特征,每个主题我有大约 300 个示例。

第一个想法(忽略异常值):

  • 遍历一个主题的所有示例,并找到与所有其他示例的平均距离最小的那个。这将从数据集中选择一个特定的示例。
  • 使用进化算法找到与所有其他示例的平均距离最小的原型示例。这将创建一个可用作原型的新示例。

现在我想确定一个新示例何时接近、远离或远离原型(平均值)。一种可能的方法是设置两个阈值距离来确定哪个类或案例对应于新示例(近、远或非常远)。我如何确定这些阈值?可能使用标准偏差的数量?可以遵循哪些其他方法来执行所有这些操作?

假设已经选择了距离度量。

2个回答

具有最小平均距离的对象(= 具有最小距离总和的对象)被称为中心点,并且是 k-中心点算法(如 PAM)的基础。因为您不能使用任意距离的 k-means。

对于您的原型:对于每个时间段 t1-t300,对于每个特征 f1-f20,计算跨主题 s1-sn 的平均特征值。这是您的原型主题,您可以计算置信区间设置为目标阈值(例如,95%)或根据您对异常值的定义将阈值设置为 +/- Nsd。