我有一个数据集,其中包含随着时间的推移对受试者的生理测量。我想创建(或选择)一个平均原型示例,以便能够在新示例中识别它们与平均原型的距离。第二个问题是选择一个阈值来确定什么是近或远。每个示例有 20 个数字特征,每个主题我有大约 300 个示例。
第一个想法(忽略异常值):
- 遍历一个主题的所有示例,并找到与所有其他示例的平均距离最小的那个。这将从数据集中选择一个特定的示例。
- 使用进化算法找到与所有其他示例的平均距离最小的原型示例。这将创建一个可用作原型的新示例。
现在我想确定一个新示例何时接近、远离或远离原型(平均值)。一种可能的方法是设置两个阈值距离来确定哪个类或案例对应于新示例(近、远或非常远)。我如何确定这些阈值?可能使用标准偏差的数量?可以遵循哪些其他方法来执行所有这些操作?
假设已经选择了距离度量。