在细胞成像数据中正确使用类别标签的方法

数据挖掘 训练 标签 二进制 分类器
2022-02-18 01:48:38

作为大学小组项目的一部分,我们收到了一系列 24 小时内的细胞培养视频。许多这些细胞(“敲除”细胞)已经去除了一个特定的基因,该基因在恶性肿瘤中通常不存在或发生突变。我们使用斑点检测算法来识别细胞中心和半径,并进一步处理以逐帧匹配细胞以建立单独的路径,然后我们用它来计算各种特征。我们的目标是训练一个二元分类器,该分类器可以在给定这些路径衍生特征向量之一的情况下识别潜在的癌细胞。

我们的训练数据由免疫荧光标记的视频组成,其中敲除细胞标记为红色,正常或“对照”细胞标记为绿色。可以这么说,这些是我们的“标签”,我们两次使用我们的斑点检测算法,一次在红色通道上,一次在绿色通道上,以分离数据中的两个类。我们的测试数据将包含不存在此标记的灰度视频。

我的队友声称,将训练数据中的红色和绿色通道分开是“不公平的”,因为除了区分这两个类之外,标记有时还可以更容易区分单个细胞。这是因为单元格之间可能存在显着重叠,从而使各个中心有些模棱两可。在敲除细胞和对照细胞重叠的情况下,分离两个通道可以消除这种歧义。由于颜色通道的分离只能在训练数据中进行,因此可以说我们的“标签”实际上不仅识别单个单元属于哪个类,而且还隐含地将额外信息添加到训练数据中通过有时消除重叠的歧义。

这是我正在谈论的内容的说明:

如果我们分别取红色和绿色通道,斑点检测算法可以很容易地恢复这两个细胞。否则,它只会看到一个。通过这种方式,颜色标签隐含地为斑点检测提供了额外的信息。

我的问题是,是否可以通过在训练过程中分离两个通道来使用训练数据中标签提供的这些额外信息?

编辑:添加插图。

1个回答

如果算法在训练期间被赋予测试期间不存在的特征,则通常称为[数据泄漏](https://en.wikipedia.org/wiki/Leakage_(machine_learning)。数据泄漏将导致训练期间的高性能和测试期间性能大大降低。机器学习的目标通常是测试期间的高性能,因此只训练具有测试期间存在的特征的模型。

在您的情况下,仅使用灰度视频训练模型。