优先收集数据

机器算法验证 机器学习 数据挖掘
2022-04-11 13:34:11

在毒理学中,机器学习方法用于估计化合物毒性的概率。

不幸的是,大多数毒理学数据集包含大约 100 种化合物,有时包含的变量比化合物多得多。

在组织创建新数据时,人们可能会问我们如何使用生成模型来确定接下来要测试哪些化学品是有价值的,以及对这些化学品执行哪些测试。

这种数据收集的目标是尽快改进底层模型。在做了一些搜索之后,我没有找到任何接近这个问题的论文。是否有人知道用于组织数据收集以尽快提高机器学习模型的预测性的方法?

1个回答

您是否考虑过使用决策贝叶斯网络 ( http://en.wikipedia.org/wiki/Influence_diagrams ) 对这个问题进行建模?如果您可以定义一些可以优化的效用函数,那么根据您做出的决定,即应该测试哪些化学品。这是一个问题,当你在不确定的情况下做出决定时,看起来就像你描述的情况。

我知道这是相当抽象的反应,但也许它会引导你走向正确的方向。