TL;DR:寻找有关让主题专家对定性数据进行评分以训练 ML 模型的最佳方法的建议或资源。
问题: 我正在研究生物化学领域的一个问题。我有一组约 500 个协议结果,需要给出定量分数。从历史上看,生物化学家只是审查每个方案并判断结果是否令人满意。
数据: 被评估的价值是 SNP 等位基因鉴别图的质量(对不起,行话,它实际上对这个问题并不重要)。每个等位基因表示为一组样本。一个好的结果是密集的簇之间有很好的分离。一个糟糕的结果会使集群分散开来。请注意,对于这个特定的应用程序,图中的所有数据点都是已知的,因此不需要聚类算法(例如 k-means)。
PoC模型: 对于概念验证模型,我给每个协议结果是我的数据集的二进制通过/失败值(注意我不是可通过 SNP 图的专家,所以我的评分有点反复无常)。对于特征工程,我计算了各种聚类分离指标(Davies-Bouldin、Calinski-Harabasz、Silhouette)并进行了 Box-Cox 变换(lambdas 均接近 0)以获得归一化分布。所有三个指标都高度相关,因此我应用了 PCA 并使用了第一台 PC(解释了 95% 的可变性)。然后我拟合逻辑回归曲线,使用第一台 PC 作为变量,我的手动通过/失败评分值作为响应。我能够在测试数据上达到 90% 的准确率,这是有希望的。然后,我在一个新数据集上进行了验证,并与科学团队一起对其进行了审查,结果显示出了希望。
问题: 所以我的实际问题。 那么对于主题专家来说,对 SNP 图的质量进行评分的最佳方法是什么? 我已经在互联网上搜索了有关此问题的指导,但运气不佳。仔细考虑这些问题,到目前为止,我有 3 个想法。
- 二进制分数:只需让他们为每个情节得分通过/失败。仅限于分类和逻辑回归模型。
- 数字分数:得分 1-10。> 5的值正在传递。这里的大问题是每个审阅者浏览数据集时的分数“漂移”。评分开始时的 8 可能与评分过程结束时的 6 匹配。最终用户真的希望该模型创建一个分数,因此可能会考虑使用回归模型(尽管我认为我使用“良好 SNP”的逻辑回归模型概率作为分数出售它们。)
- 排名分数:强制对每个协议相对于其他协议进行 1-500 分的排名。还将包括二进制分数以查找通过的排名子组。实施将是并排显示一对图,并让评论选择最好的。在后台使用排序算法(合并排序?)将迭代降低到 O(n * log(n))。不确定实现这一点的最佳工具——也许是 Dash+Plotly?