Image Captioning 是 AI 社区的热门研究课题。有相当多的图像字幕模型供研究使用,例如 NIC、Neural Talk 2 等。但是这些研究模型可以用于商业目的吗?或者我们应该构建更复杂的结构用于商业用途?或者我们是否可以基于这些模型进行一些改进以满足业务应用的情况?如果是这样,我们应该采取哪些改进措施?是否有任何现有的商业图像字幕应用程序可以参考?
如何构建商业图像字幕系统?
人工智能
深度学习
图像识别
自然语言处理
2021-11-12 13:07:52
1个回答
商业思维
商业解决方案需要能够确定、持续验证和利用字幕学习模型的最佳选项。
每个相当成功的图像字幕学习模型都可以放置在适配器中,以提供通用的训练、优化、测试、评估和使用界面。可以应用在外围设备安装、RAID、J2EE 容器、浏览器和其他包含子系统中使用的可热插拔容器插件巨型模式。
系统描述
系统验收标准如下。
- 如果其他人认为成功,则可以添加新模型而无需停止或启动系统
- 如果任何模型表现不佳,都可以在不启动或停止系统的情况下删除它
- 添加的每个模型的每个可能状态都可以分配到总系统资源的某个百分比
- 各种训练过程和超参数调整过程可以应用于任何这些模型状态组合
- AB 测试可以在任何模型状态组合上进行
- 统计数据可以显示在任何模型状态组合上任何模型整体或所有添加模型的任何状态
- 每个模型的接口要求其关联模型生成一个标题可靠性对数组,其中包含零个或多个对
- 包含在标题对中的可靠性度量表明模型对图像的适当性的评估
- 最合适的标题是从各种模型的建议中挑选出来的
状态可以是空闲的或任何这些。
- 训练
- 测试
- 评估
- 超参数调优
- 正在使用
例如,对于这个问题中建议的可用于字幕系统的两种学习模型,NIC 和 Neural Talk 2,我们可以有这样的系统资源分配:
- 30% 网卡培训
- 5% 网卡超参数调优
- 45% NT2 使用中
- 15% NT2 评估
- 5% NT2 超参数调优
可以从经过审查的样本池中提取样本。该池可以通过通过系统的真实图像进行扩充,根据安全标准进行过滤以避免外部控制尝试。
在资源分配中,必须指定样本池选择标准。如果系统已经处于 100%,则还必须指定从中提取资源的模型状态组合。
处理多个输出选项
由于使用的模型可能不止一个,并且每个模型可能对每个图像有零个、一个或多个字幕建议,每个都有一个可靠性度量,因此必须分析输出以提供与正在分析的图像相关联的最佳选择. 其他系统标准必须涵盖此过程场景。对于任何给定的图像,最终评估必须遵循以下一般准则。
- 如果多个模型产生相似或完全相同的字幕,则它们在最终评估中的权重最高。
- 如果根据最终用户的反馈在实际使用中证明了模型的可靠性,那么模型的输出必须相应地加权更高
- 重入模型(例如强化学习网络模型)即使在使用状态下也必须能够访问最终用户反馈以进行额外学习
- 选择明确的获胜者
- 通过训练有素的功能消除近距离比赛的歧义
- 通过伪随机索引生成打破了精确关系
另一个人工网络可以放置在输出端,并且可以在训练之前应用适当的编码和归一化,以便使用上述附加标准的量化收敛的经过适当训练的网络可以从每个图像的选项中选择最佳标题。
分阶段开发方法
这种系统的第一阶段可能需要手动处理模型状态分配。第二阶段将是半自动化。新模型的位置仍然需要专家的关注。也许在未来更远的地方,寻找新模型的过程也可以自动化。