我想做的一个例子是在产品页面上确定产品的价格。
虽然我可以训练 CNN 来识别价格,但它很可能会识别给定页面上的每个价格实例,并最终获取推荐产品的价格以及主要产品的价格。
是否有考虑对象上下文的视觉神经架构示例?我想这将类似于 RNN 和 CNN 的组合。
编辑:也许更简单的方法是找到一种方法将多个标签应用于同一个边界框?
我这样说的原因是,如果页面上有 10 个价格,网络将更容易首先将它们识别为价格,然后为主要价格应用标签
我想做的一个例子是在产品页面上确定产品的价格。
虽然我可以训练 CNN 来识别价格,但它很可能会识别给定页面上的每个价格实例,并最终获取推荐产品的价格以及主要产品的价格。
是否有考虑对象上下文的视觉神经架构示例?我想这将类似于 RNN 和 CNN 的组合。
编辑:也许更简单的方法是找到一种方法将多个标签应用于同一个边界框?
我这样说的原因是,如果页面上有 10 个价格,网络将更容易首先将它们识别为价格,然后为主要价格应用标签