深度学习方法通常被认为是数据效率非常低的方法,每类需要 100-1000 个示例,而人类需要 1-2 个示例才能达到可比较的分类精度。
然而,现代数据集是巨大的(或可以变得巨大),这就引出了我们是否真的需要数据高效算法的问题。尽管在其他地方进行了权衡,例如训练或推理效率,是否存在数据高效的机器学习算法非常有用的应用领域?比如说,数据效率提高 100 倍但速度降低 1000 倍的 ML 算法有用吗?
从事数据高效算法工作的人经常提出机器人技术作为“动机”。但即使对于机器人技术,也可以收集大型数据集,就像谷歌的这个数据收集工厂所做的那样:
基本上,我担心的是,虽然存在数据高效算法(例如ILP、图形模型)并且可以进一步改进,但它们的实际适用性在存在大量数据集的常见任务和可能不值得自动化的罕见任务之间受到挤压(给人类留点东西!)。