我是一个新手,将开始阅读有关数据挖掘的内容。我有人工智能和统计学的基本知识。既然很多人说机器学习在数据挖掘中也扮演着重要的角色,那么在我继续数据挖掘之前有必要阅读机器学习吗?
如何开始阅读有关数据挖掘的内容?
机器算法验证
机器学习
参考
数据挖掘
2022-03-26 17:28:49
4个回答
我自己有点处于这个位置,我会尝试提供一些见解。
首先,下载Elements of Statistical Learning。它假定微积分和线性代数,虽然它非常技术性,但它也写得非常好。
其次(或首先)看看Andrew Ng 的机器学习教程。
第三,获取一些数据,并开始尝试分析数据。您需要分成训练集和测试集,然后在训练集上构建模型并针对测试集进行测试。我发现 R 的 caret 包对所有这些都非常有用。在那之后它的练习,练习练习(就像几乎所有其他事情一样)。
Tan、Steinbech、Kumar 的《数据挖掘导论》是目前最好的入门书籍
http://www.amazon.com/Introduction-Data-Mining-Pang-Ning-Tan/dp/0321321367
当你想更深入地挖掘时,保存 EoSL。更多的是参考。
数据挖掘可以是描述性的或预测性的。
一方面,如果您对描述性数据挖掘感兴趣,那么机器学习将无济于事。
另一方面,如果您对预测数据挖掘感兴趣,那么机器学习将帮助您了解在最小化经验风险的同时尝试最小化未知风险(损失函数的期望):您将牢记过拟合、泛化错误和交叉验证。例如,为了保持一致性,-NN 用于大小的训练样本应该是这样的:
- 当走向无限,
- 变为 0 时走向无穷大。
我只添加另一个非常好的Tom Mitchell的数据挖掘/机器学习教程来源。
他解释得非常清楚,您也可以从他的网站下载他的演示文稿(以及在那里观看他的讲座)。
其它你可能感兴趣的问题