识别照片中物体的最先进模型是什么?

数据挖掘 深度学习 张量流 美国有线电视新闻网 卷积
2022-03-08 03:20:31

根据我的观察和很少的经验,大多数 ML 项目似乎都是关于分类的。照片上有癌症迹象吗?图片是汽车、鲸鱼还是香蕉?等等。

我需要实现一个人脸识别模型。不是检测/识别,而是识别:拥有同一个人的两张不同照片,我的模型应该确定照片中是否描绘了同一个人。

我想使用带有卷积网络的 Tensorflow 来实现这一点。我读过这篇论文:http: //ydwen.github.io/papers/WenECCV16.pdf并且中心损失看起来很有希望。你怎么看?关于该问题是否有任何值得关注的新想法/论文/实施?

我也在 MachineLearning reddit(https://www.reddit.com/r/MachineLearning/comments/8cysrx/d_what_are_the_stateoftheart_models_for/)上问了这个问题,并获得了与 FaceNet 实现的有用链接,也在这里尝试:)

1个回答

编辑:深度人脸识别: arxiv 2018 年 4 月 18 日上的新调查看起来像是对人脸相关任务方法的最佳调查:)。

除了 Facenet,还有一些方法可以很好地查看您打算让您的系统知道多少张面孔 - 也就是有一个网络可以直接输出它是哪个面孔的网络(~<10K),而不是一个特征用于聚类的地图(~ 10k 到 100K),或比较任何 2 个面(~ > 100K) - 下面是每个方法的示例......

这篇论文刚出来: Exploring Disentangled Feature Representation Beyond Face Identification-2018 -Reported Accuracy 99.816。使用类似编码器-解码器的方案来计算人脸的特征。然后给定您计算过的所有面,进行聚类以找出哪些是相同的面(TSNE - 特征空间中的距离)。这篇论文很酷,因为它还给出了每个人脸的特征,比如“微笑”,这些用于增强搜索。沿着类似的路线是这样的

在此之前(Facenet 除外) - DeepFace - 准确度 97.35。它的 facebook 库。如果它对他们来说是最先进的,那么它对我来说就足够了。方法给定两张图像,将它们放入连体网络中,首先进行检测,然后对人脸进行 3d 建模,然后投影到 2d 特征图,然后结合标签说明它们是否是同一个人。

通过多模态深度人脸表示实现稳健的人脸识别- 2016,报告的准确度为 98.43。这很有趣,因为他们在相对较小的数据集(CASIA WebFace)上进行了训练。然而,这最后一层是数据集中的身份数量 - 因此,如果您想像 facebook 那样识别数百万个身份,这可能是一个限制因素。否则,这看起来最容易实现/混乱。

使用分层多标签匹配器的基于补丁的人脸识别- 不确定这里发生了什么,但看起来很有趣。

我认为对您来说另一个限制因素是每张脸有多少示例 - 例如,您是否有 4K 身份和 400 万张图像,如 Facebook 数据集,或 10k 身份和 50 万张图像(CASIA WebFace),或 LFW 大约 5K身份和约 15k 图像。