数据挖掘 - 什么时候有足够的数据进行泛化？ - 吾爱随笔录

什么时候有足够的数据进行泛化？

数据挖掘机器学习数据挖掘统计数据搜索

2021-09-19 08:41:14

是否有任何一般规则可以用来推断可以从特定数据集中学习/概括什么？假设数据集取自人群样本。这些规则可以描述为样本或总人口的函数吗？

我理解以上内容可能含糊不清，所以一个案例场景：用户参与搜索任务，其中数据是他们的查询、点击的结果以及这些结果的 HTML 内容（仅限文本）。每一个都标有他们的用户和时间戳。用户可能会生成几页 - 用于简单的事实调查任务 - 或数百页 - 用于长期搜索任务，例如课堂报告。

编辑：除了对给定样本的人群进行概括外，我还对在给定时间片的情况下概括个人的整体搜索行为感兴趣。理论和论文参考是一个加号！

3个回答

据我了解，随机抽样是做出任何概括陈述的必要条件。恕我直言，其他参数，例如样本量，只会影响泛化的概率水平（置信度）。此外，澄清@ffriend 的评论，我相信你必须计算所需的样本量，基于置信区间、效果大小、统计能力和预测变量的期望值（这是基于 Cohen 的工作 - 请参阅下面的参考部分关联）。对于多元回归，您可以使用以下计算器：http://www.danielsoper.com/statcalc3/calc.aspx?id=1。

有关如何选择、计算和解释效应大小的更多信息，请参阅以下精美而全面的论文，该论文可免费获得：http: //jpepsy.oxfordjournals.org/content/34/9/917.full。

如果您正在使用（甚至，如果您不使用），您可能会发现以下关于置信区间和 RR的网页有趣且有用： http: //osc.centerforopenscience.org/static/CIs_in_r.html。

最后，即使您没有使用调查研究设计，以下调查抽样综合指南也会有所帮助。在我看来，它包含大量关于采样方法、采样大小确定（包括计算器）等方面的有用信息：http: //home.ubalt.edu/ntsbarsh/stat-data/Surveys.htm。

通用性有两条规则：

样本必须具有代表性。至少在预期中，您的样本中的特征分布必须与总体中的特征分布相匹配。当您使用响应变量拟合模型时，这包括您未观察到但会影响模型中的任何响应变量的特征。由于在许多情况下不可能知道您没有观察到什么，因此使用随机抽样。

随机化的想法是，一个随机样本，直到抽样误差，必须准确地反映人口中所有特征的分布，观察到的和其他的。这就是为什么随机化是“黄金标准”的原因，但如果样本控制可以通过其他技术获得，或者可以辩称没有遗漏的特征是有道理的，那么它并不总是必要的。
您的样本必须足够大，以使抽样误差对特征分布的影响相对较小。这也是为了确保代表性。但决定对谁进行抽样与决定抽样多少人是不同的。

由于听起来您正在拟合模型，因此还有一个额外的考虑，即某些重要的特征组合在人群中可能相对罕见。这不是普遍性问题，但它在很大程度上取决于您对样本量的考虑。例如，我现在正在使用（非大）数据开展一个项目，这些数据最初是为了了解大学少数族裔的经历而收集的。因此，确保统计能力在少数族群中特别高是至关重要的。出于这个原因，黑人和拉丁裔被故意过度采样. 然而，他们被过采样的比例也被记录下来。这些用于计算调查权重。如果需要有代表性的样本，这些可用于重新加权样本，以反映估计的总体比例。

如果您的模型是分层的，则会出现额外的考虑。分层模型的典型用途是儿童在学校的行为之一。孩子们按学校“分组”并共享学校级别的特征。因此，需要有代表性的学校样本，并且每所学校都需要有代表性的儿童样本。这导致分层抽样。这个和其他一些抽样设计在Wikipedia上得到了惊人的深度审查。

回答一个更简单但相关的问题，即“我的模型对我拥有的数据的概括能力如何？” 学习曲线的方法可能适用。这是吴恩达关于他们的讲座。

基本思想是绘制测试集误差和训练集误差与您正在使用的模型的复杂性（这可能有点复杂）。如果模型足够强大以完全“理解”您的数据，那么在某些时候模型的复杂性将足够高，以至于在训练集上的性能将接近完美。但是，复杂模型的方差可能会导致测试集性能在某个时候提高。

我认为，这个分析告诉你两个主要的事情。首先是性能的上限。您在未见过的数据上比在训练数据上做得更好的可能性很小。它告诉您的另一件事是获取更多数据是否会有所帮助。如果您可以通过将训练误差降至零来证明您完全理解您的训练数据，则可能通过包含更多数据，通过获取更完整的样本然后在此基础上训练一个强大的模型来进一步降低您的测试误差.

其它你可能感兴趣的问题

上一篇派生多个集群的算法下一篇有哪些非训练分类方法可用？