机器学习中的小数据集

数据挖掘 机器学习 数据
2021-10-03 04:06:53

我从阅读中了解到,医疗行业正在使用机器学习来应用于小型数据集,并想了解它是如何工作的?因此,我为我妻子的业务创建了一个小型数据集。

我有一个大约 100k 单位的数据集,如何确定在处理这个小的数据集时要使用的最佳预测或因子模型?我想避免过度拟合等。

我应该避免的任何常见陷阱和/或我应该使用哪些技巧来充分利用这些数据?

1个回答

一般来说,机器学习算法处理卷数据。这并不意味着您不能从“小”数据中提取信息。

记住:

  • 过拟合。只有少量数据,过度拟合模型的风险要高得多。
  • 异常值。那些变得更讨厌。如果您有数百万个数据,那么几个异常值将不是问题。但只有少数,他们肯定会扭曲你的结果。

使用的模型

为避免过度拟合,您需要避免复杂性。因此,您需要一个参数尽可能少的模型。例如,线性/逻辑回归可能是您需要的。朴素贝叶斯和 SVM 可能运作良好,但这不是一概而论。

清理您的数据

与异常值一起,您需要小心其余的清洁过程。噪音会使您的数据产生很大的偏差。

这是一篇关于“小数据”以及使用它们时可以做什么的不错的博客文章。强烈推荐。

如何处理“小”数据?(7 分钟阅读)

关于异常值

我推荐这个Data Science Stack Exchange question的答案。短篇故事。您需要一一检查异常值。没有任何规则是一成不变的。但是您需要确定这些异常值是否只是错误的输入数据或有意义的数据,即使是异常值。例如,如果您每天有一个 eshop 的销售额,并且在您的数据中,您有一个特定日期的销售额增加了 10 倍,那么您需要了解这是错误还是当天发生的事情以增加销售额(也许是折扣活动或电子邮件广告)。

另外,这取决于您遇到的问题类型。如果您的问题是异常检测,那么您不想删除异常值。

另一个建议(我没有任何来源可链接)是使用数据中的平均值、模式或其他指标更新这些异常值的值。如果你只有几行,删除一打会更困难。

通常,这应该是您的模型过程的一部分。您尝试一次使用异常值,几次没有或使用更新的值,并尝试了解它是表现不佳还是过度拟合。