从多个变量创建质量指数以实现排名排序

机器算法验证 排行 估值
2022-01-29 20:29:55

我有四个数字变量。所有这些都是衡量土壤质量的指标。变量越高,质量越高。它们的范围是不同的:

Var1 从 1 到 10

Var2 从 1000 到 2000

Var3 从 150 到 300

Var4 从 0 到 5

我需要将四个变量组合成单个土壤质量得分,这将成功排序。

我的想法很简单。标准化所有四个变量,将它们加起来,得到的就是应该排序的分数。您是否发现应用这种方法有任何问题。您还有其他(更好的)方法可以推荐吗?

谢谢

编辑:

多谢你们。很多讨论都涉及“领域专业知识”......农业的东西......而我期待更多的统计谈话。就我将使用的技术而言……它可能是简单的 z 分数求和 + 逻辑回归作为实验。因为绝大多数样本质量较差 90%,我将把 3 个质量类别合并为一个,基本上存在二元问题(一些质量与无质量)。我用一块石头杀死两只鸟。我在事件率方面增加了我的样本,并通过让他们对我的样本进行分类来利用专家。然后,专家分类样本将用于拟合 log-reg 模型,以最大限度地提高与专家的一致性/不一致程度......你觉得这听起来如何?

4个回答

建议的方法可能会给出合理的结果,但只是偶然的。在这个距离上——也就是说,从表面上看问题,隐藏变量的含义——一些问题是显而易见的:

  1. 每个变量都与“质量”正相关,这甚至不是很明显。 例如,如果“Var1”的 10 表示“质量”比 Var1 为 1 时的质量差怎么办?然后将其添加到总和中几乎是一件错误的事情。它需要被减去。

  2. 标准化意味着“质量”取决于数据集本身。因此,定义将随着不同的数据集或对这些数据的添加和删除而改变。 这可以使“质量”成为任意的、瞬态的、非客观的结构,并排除数据集之间的比较。

  3. 没有“质量”的定义。 它应该是什么意思?阻止受污染水的迁移的能力?支持有机流程的能力?促进某些化学反应的能力?对其中一种目的有益的土壤可能对其他目的特别贫瘠。

  4. 所说的问题没有目的: 为什么需要对“质量”进行排名?排名将用于什么 - 输入更多分析、选择“最佳”土壤、确定科学假设、发展理论、推广产品?

  5. 排名的后果并不明显。 如果排名不正确或劣势,会发生什么?世界会更饥饿,环境会更受污染,科学家会更受误导,园丁会更失望吗?

  6. 为什么变量的线性组合应该是合适的? 为什么不应该将它们相乘或取幂或组合为多项式或更深奥的东西?

  7. 原始土壤质量测量值通常被重新表达。例如,对数渗透率通常比渗透率本身更有用,对数氢离子活度 (pH) 比活度更有用。 确定“质量”的变量的适当重新表达是什么?

人们希望土壤科学能够回答大多数这些问题,并指出对于任何客观的“质量”意义而言,变量的适当组合可能是什么。如果不是,那么您将面临多属性估值问题Wikipedia 文章列出了解决此问题的数十种方法。恕我直言,其中大多数不适合解决科学问题。Keeney & Raiffa 的多属性估值理论是少数具有扎实理论和潜在适用于经验问题的理论之一(小牛)。它要求您能够确定,对于变量的任何两个特定组合,这两者中的哪一个应该排名更高。此类比较的结构化序列揭示了 (a) 重新表达价值观的适当方式;(b) 重新表达值的线性组合是否会产生正确的排名;(c) 如果可以进行线性组合,它将让您计算系数。简而言之,只要您已经知道如何比较特定案例,MAVT 就会提供解决您问题的算法。

有人看过 Russell G. Congalton 1990 年“评估遥感数据分类准确性的回顾”吗?它描述了一种称为可变矩阵的误差矩阵的技术,他也使用了一个称为“归一化数据”的术语,即获取所有不同的向量并“归一化”或将它们设置为从 0 到 1 相等。您基本上将所有向量更改为从 0 到 1 的相等范围。

您没有讨论的另一件事是测量的规模。V1 和 V5 看起来它们是等级顺序的,而另一个似乎不是。所以标准化可能会扭曲分数。因此,您最好将所有变量转换为等级,并确定每个变量的权重,因为它们的权重不太可能相同。等权重更像是“没有任何东西”的默认设置。您可能需要进行一些相关性或回归分析以得出一些先验权重。

我最近遇到了类似的问题,尽管我将我的方法添加到了很好的答案中。我认为为了找到一种简单的方法来确定哪个变量导致最佳排名。可以将您的问题转换为网格搜索方法:

基本上使用组合分数进行排名,其组成如下:

Finel_score = Var1 * A + Var2 * B + Var3 * C ....

然后,您可以使用 A、B、C 的不同值计算最终分数(可以使用 sklearn 网格搜索)......并将结果排名与预期排名进行比较(需要一些基本事实来确定您排名的优劣)。最佳参数会产生各个变量的权重。