我只是想知道非专业人士如何练习他们所学的统计技术。我是一名学生,想实施一些我正在学习的技术,但不知道如何始终如一地找到符合我技能水平的问题。
谢谢
我只是想知道非专业人士如何练习他们所学的统计技术。我是一名学生,想实施一些我正在学习的技术,但不知道如何始终如一地找到符合我技能水平的问题。
谢谢
我不能强调这一点,寻找真实数据。
例如,如果您使用 R stats 包中提供的特定统计方法,该包通常会包含一个示例数据集,作者将在该数据集上展示他们的方法。同样,如果您查看 R's datasets,则会包含一大堆经典数据集。
但是,如果您想练习使用统计方法,这只是开始的地方。R 包中包含的数据集不能很好地代表真实数据分析,原因有两个:首先,数据通常是有组织的和干净的。其次,通常会精心挑选数据以使特定的统计方法看起来很棒。虽然作者这样做是有道理的(为什么你会在不必要的数据上展示你的方法?),但在使用统计数据回答实际问题时,使用哪种方法并不总是很清楚或显而易见。
因此,虽然这些数据集是一个很好的基础教程(就像任何人都应该从“hello world”开始编程一样)以获得更多真实体验,但我建议去公共存储库。您可能会对免费提供的数据量感到惊讶。对气候建模感兴趣?去 NOAA 并选择你想要的。对收入建模感兴趣?欧洲社会调查。我认为在学习新方法的同时获得真正的见解真的很酷。
我确实警告说,获取和清理数据是一项相当大的工作量。但这并不是对真实数据分析的不准确表示。
如果你想用统计数据“弄脏你的手”,有无数种方法可以挖掘数据、建立假设、实验、使用各种分析风格(即贝叶斯与常客)分析数据集等。但是,您的问题表明您无法确定从哪里开始。
找到一个你感兴趣的话题,无论是体育、政治、科学、商业/经济学、行为心理学、生物学等等。如果上述话题中存在可以量化的现象,那么很可能已经有人挖出了海量的数据。我强烈推荐 Nate Silver 的博客FiveThirtyEight,(我在其中没有既得利益/立场),其中有各种各样的主题,包括小型研究和分析。主题经过深思熟虑,使用的统计数据对于初学者来说并不难理解或掌握(Nate Silver 无意冒犯)。最起码,您可以建立在任何文章的基础上,并使用文章中的许多数据参考来进行自己的分析或运行自己的特定测试。
在你弄清楚你想要什么主题之后,指定你在该主题中的一个特定问题——例如,我只是想到“在体育运动中,高利润的胜利与冠军头衔或疲劳有关吗?”——然后找到你的数据。互联网上的资源几乎是无穷无尽的,但您必须记住,并非所有数据都是质量数据(即,要小心您在哪里找到数据,以及是否存在任何道德/质量问题)。
一些有用的链接包括DataHub.IO,您可以在其中找到(并分享!)许多免费数据集,以及Data.gov,这是美国政府共享的所有开放数据的来源。如果你的编程技术不错,我想你也可以从流行的社交媒体网页上获取数据,例如 Twitter、Instagram、Facebook 等。
不要忘记拥有某种常用的统计评估软件。大多数人(包括我自己)会推荐开放软件标准R,但如果您的数据量不是很大和很复杂,您会惊讶于使用 Microsoft Excel 之类的东西可以走多远。
祝你好运!
在我看来,练习你所拥有的技能的最佳方法是获取一些数据(这是你的最后一个问题,你可以在互联网上找到数据集,或者你可以创建自己的数据集)并尝试找出是否存在关系或某些数据组的差异(假设您想练习推理统计)。
例如:
我正在学习回归或机器学习技术:我可以预测当前正在发展的事件的结果吗?(奥斯卡?比赛的结束?)
对于推论统计,我可以分析一些数据并找出某些组之间的差异吗?变量之间的关联?
以此类推。可能性是无止境
一些免费(或至少便宜)的认证(Coursera 等)有一些小项目,可以让你进行大量练习。您可以快速而肮脏地完成它们,或者您可以比要求的更详细地完成它们。与单独做相比的优势是有一个论坛,您可以在其中讨论您的结果,并且通常社区专家也可以提供建议。当然,它们经过了初学者的良好测试,因此没有无法克服的阻碍学习的障碍。
我想到了约翰霍普金斯大学的实用机器学习。但 Andrew Ng 的斯坦福 ML 课程也是另一种可能性,还有更多。