当存在未知标签时,权重如何在反向传播期间更改句柄

人工智能 神经网络 训练 反向传播 目标函数
2021-11-17 14:35:50

我有一个关于在反向传播期间如何更新我的一些具有未知标签的样本(请注意,未知,没有丢失)的样本的问题。它们未知的原因是因为这是基因组数据,生成这些数据需要 8 年的实验室工作!不过,我有具有多个标签、性别年龄器官等的样本的基因组数据。这是一个多类多标签问题。

对于大多数类,所有标签都是完整的。对于两个或三个类,有未知标签。一个例子是样本在 x 岁时的发育阶段,样本在 y 岁时的发育阶段是已知的。Z岁样本的发育阶段未知!(生成这些数据需要花费最多时间)......因此,我想在训练期间包含所有这些数据,因为它是必不可少的。我想生成 sigmoid 概率并根据阈值(例如> = 0.5)将未知标签“Z”分配为属于发育阶段 0 或 1(已知类别)......当单热编码时,未知标签只是有没有基本事实,0 表示课程开发,0 表示未开发,如下所示(为相关课程显示的 3 个样本示例):

  [[1., 0.
   [0., 1.
   [0., 0.  ......]]

第一行是已知样本 1,第二行是已知样本 2,第三行是未知的,因此没有基本事实。正是这个样本,我想根据“最高概率”分配一个已知类别 1 或 2 的标签。基于阅读和讨论,这是我将为此任务采取的方向,因为它可以在实验室稍后......所以方法是,包括在训练中,看看网络“认为”它是什么。

我的问题是:关于权重更新,反向传播如何处理这些已知和未知的样本

我应该注意我已经以大约 90% 的验证性能训练了网络。对于所有有完整数据的类,预测都很好。对于有未知数据的类也是如此。它可以准确地对已知发育阶段的样本进行分类......并且它确实为那些具有“未知”标签(0,0)的样本分配了一个概率值,所以我真的很想知道如何反向支持正在为存在未知真实标签的类处理这些样本。

谢谢!

0个回答
没有发现任何回复~