机器学习真的需要数据高效算法吗?

机器算法验证 机器学习 神经网络 样本量 小样本 效率
2022-01-23 21:07:30

深度学习方法通​​常被认为是数据效率非常低的方法,每类需要 100-1000 个示例,而人类需要 1-2 个示例才能达到可比较的分类精度。

然而,现代数据集是巨大的(或可以变得巨大),这就引出了我们是否真的需要数据高效算法的问题。尽管在其他地方进行了权衡,例如训练或推理效率,是否存在数据高效的机器学习算法非常有用的应用领域?比如说,数据效率提高 100 倍但速度降低 1000 倍的 ML 算法有用吗?

从事数据高效算法工作的人经常提出机器人技术作为“动机”。但即使对于机器人技术,也可以收集大型数据集,就像谷歌的这个数据收集工厂所做的那样:

在此处输入图像描述

基本上,我担心的是,虽然存在数据高效算法(例如ILP、图形模型)并且可以进一步改进,但它们的实际适用性在存在大量数据集的常见任务和可能不值得自动化的罕见任务之间受到挤压(给人类留点东西!)。

4个回答

您并没有完全错,通常收集更多/更好的数据来改进算法比从算法中挤出小的改进要容易得多。

然而,在实践中,有很多设置,很难获得真正的大数据集。

当然,当您使用(自我/非)监督方法或自动创建标签时(例如,如果您是 Google,无论用户是否点击链接),很容易获得非常大的数据集。然而,许多实际问题依赖于人类专家(他们的时间可能很昂贵)来标记示例。当任何人都可以完成这项工作时(例如,为 ImageNet 标记狗或猫或其他东西),这可以扩展到数百万张图像,但是当您付钱给医生对医学图像进行分类时,数万(或可能 100,000 多张)标记图像是一个相当大的数据集。或者,如果您需要对每个标签进行化学实验。

此外,在某些情况下,可能的现实世界示例的数量或数量自然是有限的(例如,用于预测美国总统选举获胜者的训练数据、根据地震数据预测火山喷发等,这些只是用于我们到目前为止只能有这么多的数据)。

我从事零售预测工作。当您需要预测 Y 商店明天对产品 X 的需求时,您只有有限数量的可用数据:可能只有该特定产品在该特定商店的最近两年的销售额,或所有产品在该特定商店的潜在销售额所有商店,如果您使用交叉学习模型。但无论如何,您不能简单地创建新数据。(创建新数据包括实际经营超市并记录销售和库存,因此这不是一件小事。)

此外,如果一场全球史无前例的大流行袭击了您,那么您之前的数据价值确实会突然变得可疑,因此对于实际用途,您的数据量会急剧减少。

当然,您是对的,某些用例实际上具有无限数据,或者可以动态创建数据。一个例子是训练网络玩国际象棋或围棋之类的游戏:您可以简单地让模型的多个实例相互对战(强化学习)。

虽然现在确实很容易收集大量数据,但这并不意味着它是好的数据。大型数据集通常是通过抓取 Internet 上免费可用的资源来收集的,例如,文本数据可能是 Reddit 帖子、新闻文章、维基百科条目,图像可能是人们发布的各种图像,视频可能是将内容发布在 YouTube 上。请注意,此类数据存在许多潜在问题。

首先,它没有标签。要给它贴上标签,就需要有人去做。最常见的是,这是由 Amazon Mechanical Turk 工作人员完成的,他们为这项任务支付了很少的钱,因此没有真正的动机去正确地完成它,也没有任何内部动机来标记随机图像。此外,您无法保证贴标者具有适当的标签知识(例如,他们被要求标记他们不熟悉的野生动物或汽车品牌)。你可以自己做,但你需要很多时间,这也不能保证不会出现人为错误。您可以自动进行标记,但是如果启发式有效,那么您的“聪明”机器学习算法将从“愚蠢”启发式提供的标签中学习,

其次,这个数据是有偏差的。大多数文本数据集仅限于英语。大多数带有人类照片的图像数据集都描绘了白皮肤的个体。大多数带有建筑图片的数据集都显示了来自美国或欧洲的城市。这些并不具有真正的代表性,除非您正在构建一个机器学习模型,该模型仅供居住在美国的说英语的白人男性使用。

最近,Northcutt 等人发表了一篇关于测试集中普遍标签错误破坏机器学习基准的好预印本。

我曾经被要求建立一个模型,根据它们的制造过程将考古文物分类。一个大问题:对于某些类,只有四个样本。许多人工制品都被破坏了,所以即使对于我们拥有的样本,也不是所有的测量值都是已知的(比如它们的总长度)。

是的,“小数据”确实是个问题。在这种特殊情况下获得更多数据意味着将考古学家派回中亚山脉进行挖掘,并测量我认为有意义的文物的所有特征。那样的话,他们最好找到一件一件的文物,而不是破碎的!;-)