我正在对化学样本数据集进行模型训练,以找出异常值并在有意义的地方进行插补。
化学数据集
包含数千行具有许多属性列的化学混合物。实例性质:溴含量、密度。
固有不适用的数据
化学物质可以是气体、液体或固体,但某些特性仅适用于某种状态的样品。一个例子可以是液体中的粘度、固体中的键类型(离子、分子、共价)或气体中的密度。
至今...
...所有研究都指向通过列方法、数据插补或类似方法修复“缺失值”的方法。估算气体的冰点似乎没有任何意义。气体混合物没有冰点。我仍在准备数据的过程中,不确定如何进行。
我在 python 中工作,丢失的数据存储为NaN值。也许有一些模型可以处理这样的值NaN。
边注:
数据集的大部分由蒸馏曲线数据点组成(描述化学样品随着温度升高而蒸发的百分比的连续数据)。该数据适用于所有样品。
跟进1:有没有一个模型,当我给它一个类似于气体的东西时,它会给我NaN冰点的值?
追问2:这可以和物体被部分遮挡的图像物体检测相比吗?或图像的一部分已损坏?