我是数据科学/机器学习世界的新手。我知道在统计中,我们假设某个事件/过程具有某些特定分布,并且该随机过程的样本是某些抽样分布的一部分。然后可以通过使用置信区间和显着性水平来概括数据的发现。
一旦我们“学习”了数据集中的模式,我们如何概括我们的发现?这里置信水平的替代方法是什么?
我是数据科学/机器学习世界的新手。我知道在统计中,我们假设某个事件/过程具有某些特定分布,并且该随机过程的样本是某些抽样分布的一部分。然后可以通过使用置信区间和显着性水平来概括数据的发现。
一旦我们“学习”了数据集中的模式,我们如何概括我们的发现?这里置信水平的替代方法是什么?
Bias-Variance 分解是一种方式,VC 维度/界限是另一种方式......
这两个指标都是您可以用来了解您应该有多大信心相信您的训练结果将推广到样本外的指标。
VC维度侧重于这种学习算法的结果。Bias-Variance 侧重于算法本身的预期结果。
选择你的毒药 - 我真诚地希望这会有所帮助。
本质上机器学习使用非参数方法...假设您有足够的数据和(计算)时间您通过交叉验证(而不是例如评估系数的显着性)识别最佳模型,并通过使用测试集估计预测误差。置信区间也可以通过自举生成。