对具有固有不适用数据单元的数据进行训练

数据挖掘 Python 预测建模 数据清理 缺失数据 数据插补
2022-03-06 04:43:59

我正在对化学样本数据集进行模型训练,以找出异常值并在有意义的地方进行插补。

化学数据集

包含数千行具有许多属性列的化学混合物。实例性质溴含量密度


固有不适用的数据

化学物质可以是气体、液体或固体,但某些特性仅适用于某种状态的样品。一个例子可以是液体中的粘度、固体中的键类型(离子、分子、共价)气体中的密度


至今...

...所有研究都指向通过列方法、数据插补或类似方法修复“缺失值”的方法。估算气体的冰点似乎没有任何意义。气体混合物没有冰点。我仍在准备数据的过程中,不确定如何进行。

我在 python 中工作,丢失的数据存储为NaN值。也许有一些模型可以处理这样的值NaN


边注:

数据集的大部分由蒸馏曲线数据点组成(描述化学样品随着温度升高而蒸发的百分比的连续数据)。该数据适用于所有样品。


跟进1:有没有一个模型,当我给它一个类似于气体的东西时,它会给我NaN冰点的值?

追问2:这可以和物体被部分遮挡的图像物体检测相比吗?或图像的一部分已损坏?

1个回答

欢迎来到本站!

缺失值的常用方法是手动处理它们。有一些算法可以自动执行此操作,例如LightGBMXGBoost,但在大多数情况下,最好让模型性能决定如何指示数据中缺少值。

例如,在 Python 中的 Pandas 数据帧中,我可能决定用 -99替换特定列中的所有 NA/NaN 值,该列应该包含正整数:

dataframe[column] = dataframe[column].fillna(-99)