FaceNet 使用一种新颖的损失度量(triplet loss)来训练模型以输出嵌入(论文中的 128-D),这样任何两个相同身份的人脸都将有一个小的欧几里德距离,并且任何两个不同的人脸身份将具有大于指定边距的欧几里得距离。但是,它首先需要另一种机制(HOG 或 MTCNN)来从图像中检测和提取人脸。
这个想法可以扩展到物体识别吗?也就是说,是否可以使用对象检测框架(例如 MaskR-CNN)来提取对象的边界框,裁剪对象并将其馈送到经过三重损失训练的网络,然后比较对象的嵌入以查看它们是否'是同一个对象吗?
是否有任何已经完成的研究或任何已发布的公共数据集?