我想探索“数据科学”。这个词对我来说似乎有点模糊,但我希望它需要:
- 机器学习(而不是传统的统计);
- 一个足够大的数据集,您必须在集群上运行分析。
有哪些好的数据集和问题可供具有一定编程背景的统计学家访问,我可以用来探索数据科学领域?
为了尽可能缩小范围,理想情况下,我希望链接到打开的、使用良好的数据集和示例问题。
我想探索“数据科学”。这个词对我来说似乎有点模糊,但我希望它需要:
有哪些好的数据集和问题可供具有一定编程背景的统计学家访问,我可以用来探索数据科学领域?
为了尽可能缩小范围,理想情况下,我希望链接到打开的、使用良好的数据集和示例问题。
只需前往 kaggle.com;它会让你忙很长时间。对于开放数据,有UC Irvine Machine Learning Repository。事实上,有一个专门的Stackexchange 站点。看这里。
你是计算机科学硕士吗?统计数据?
“数据科学”会成为你论文的中心吗?还是副题?
我假设你是统计学专业的,并且你想把你的论文集中在一个“数据科学”问题上。如果是这样,那么我将违背常规,建议您不要从数据集或 ML 方法开始。相反,您应该寻找一个有趣的研究问题,即人们对它了解甚少,或者 ML 方法尚未被证明是成功的,或者有许多相互竞争的 ML 方法,但似乎没有一个比其他方法更好。
考虑这个数据源:Stanford Large Network Dataset Collection。虽然你可以选择其中一个数据集,组成一个问题陈述,然后运行一些 ML 方法列表,但这种方法并不能告诉你数据科学的全部内容,而且在我看来也没有导致一篇非常好的硕士论文。
相反,您可以这样做:查找所有在某些特定类别上使用 ML 的研究论文——例如协作网络(又名共同作者)。当你阅读每篇论文时,试着找出他们能够用每种 ML 方法完成什么,以及他们无法解决什么。特别是寻找他们对“未来研究”的建议。
也许他们都使用相同的方法,但从未尝试过竞争的 ML 方法。或者他们没有充分验证他们的结果,或者数据集很小,或者他们的研究问题和假设过于简单或有限。
最重要的是:试着找出这条研究路线的去向。他们为什么还要费心去做这件事?它有什么意义?他们在哪里以及为什么会遇到困难?