统计学硕士论文的面向数据科学的数据集/研究问题

数据挖掘 统计数据 教育 知识库 定义
2021-09-29 04:56:28

我想探索“数据科学”。这个词对我来说似乎有点模糊,但我希望它需要:

  1. 机器学习(而不是传统的统计);
  2. 一个足够大的数据集,您必须在集群上运行分析。

有哪些好的数据集和问题可供具有一定编程背景的统计学家访问,我可以用来探索数据科学领域?

为了尽可能缩小范围,理想情况下,我希望链接到打开的、使用良好的数据集和示例问题。

3个回答

只需前往 kaggle.com;它会让你忙很长时间。对于开放数据,有UC Irvine Machine Learning Repository事实上,有一个专门的Stackexchange 站点。看这里。

阳光基金会是一个致力于开放和鼓励对政府数据进行无党派分析的组织

有大量的分析可以用于比较,以及各种各样的主题。

他们提供用于访问数据的工具api,并帮助推动在data.gov等地方提供数据。

一个有趣的项目是Influence Explorer您可以在此处获取源数据以及访问实时数据。

您可能还想看看我们更受欢迎的问题之一:

公开可用的数据集

你是计算机科学硕士吗?统计数据?

“数据科学”会成为你论文的中心吗?还是副题?

我假设你是统计学专业的,并且你想把你的论文集中在一个“数据科学”问题上。如果是这样,那么我将违背常规,建议您不要从数据集或 ML 方法开始。相反,您应该寻找一个有趣的研究问题,即人们对它了解甚少,或者 ML 方法尚未被证明是成功的,或者有许多相互竞争的 ML 方法,但似乎没有一个比其他方法更好。

考虑这个数据源:Stanford Large Network Dataset Collection虽然你可以选择其中一个数据集,组成一个问题陈述,然后运行一些 ML 方法列表,但这种方法并不能告诉你数据科学的全部内容,而且在我看来也没有导致一篇非常好的硕士论文。

相反,您可以这样做:查找所有在某些特定类别上使用 ML 的研究论文——例如协作网络(又名共同作者)。当你阅读每篇论文时,试着找出他们能够用每种 ML 方法完成什么,以及他们无法解决什么。特别是寻找他们对“未来研究”的建议。

也许他们都使用相同的方法,但从未尝试过竞争的 ML 方法。或者他们没有充分验证他们的结果,或者数据集很小,或者他们的研究问题和假设过于简单或有限。

最重要的是:试着找出这条研究路线的去向。他们为什么还要费心去做这件事?它有什么意义?他们在哪里以及为什么会遇到困难?