我应该使用哪些初始步骤来理解大型数据集,以及我应该使用哪些工具?

数据挖掘 机器学习 数据挖掘 工具 初学者
2021-10-01 06:27:42

警告:在机器学习方面,我是一个完整的初学者,但渴望学习。

我有一个大型数据集,我正在尝试在其中找到模式。数据之间可能/可能没有相关性,无论是已知变量,还是数据中包含但我尚未意识到的变量实际上是变量/相关。

我猜这在数据分析领域会是一个熟悉的问题,所以我有几个问题:

  1. “灵丹妙药”是将所有这些数据放入统计/数据分析程序中,并让它处理数据以寻找已知/未知模式以试图找到关系。SPSS是否适合,或者是否有其他可能更适合的应用程序。

  2. 我是否应该学习像 R 这样的语言,并弄清楚如何手动处理数据。这不会影响查找关系,因为我必须手动指定分析数据的内容和方式?

  3. 专业的数据挖掘者将如何解决这个问题以及他/她将采取哪些步骤?

4个回答

我将尝试回答您的问题,但在我想指出使用术语“大型数据集”具有误导性之前,因为“大型”是一个相对概念。您必须提供更多详细信息。如果您正在处理投标数据,那么这一事实很可能会影响为您的数据分析选择首选工具方法算法我希望我对数据分析的以下想法能够解决您的子问题。请注意,我的分数编号与您的子问题编号不匹配。但是,我相信它更好地反映了一般的数据分析工作流程,至少,我是如何理解它的。

  1. 首先,我认为您至少需要记住某种概念模型(或者,更好的是,在纸上)。该模型应指导您进行探索性数据分析 (EDA)模型中存在因变量 (DV)意味着在分析后期的机器学习 (ML)阶段,您将处理所谓的有监督 ML,而不是在没有已识别 DV 的情况下处理无监督 ML。

  2. 其次,EDA是至关重要的一环。恕我直言,EDA 应该包括生成描述性统计数据可视化的多次迭代,因为您可以完善对数据的理解。这一阶段不仅会为您提供有关数据集的宝贵见解,还会为您的下一个重要阶段——数据清理和转换提供支持。仅仅将原始数据放入统计软件包中不会有太大的作用——对于任何有效的统计分析,数据应该是干净、正确和一致的。这通常是最费时费力但绝对必要的部分。有关此主题的更多详细信息,请阅读好论文(由 Hadley Wickham 撰写)和(由 Edwin de Jonge 和 Mark van der Loo 撰写)。

  3. 现在,正如您希望完成EDA以及数据清理和转换一样,您已准备好开始一些更多涉及统计的阶段。其中一个阶段是探索性因素分析 (EFA),它允许您提取数据的底层结构对于具有大量变量的数据集,EFA 的积极副作用是降而且,从这个意义上说,EFA 类似于主成分分析 (PCA)和其他降维方法,我认为 EFA 更重要,因为它可以改进你的数据“描述”的现象的概念模型,从而理解你的数据集。当然,除了 EFA 之外,您可以/应该根据您在之前阶段的发现执行回归分析以及应用机器学习技术。

最后,关于软件工具的说明。在我看来,统计软件包的现状是这样的,几乎所有主要的软件包在功能方面都具有可比性。如果您在软件工具方面具有某些政策和偏好的组织学习或工作,那么您会受到它们的限制但是,如果不是这样,我会根据您对其特定编程语言学习曲线和您的职业前景的舒适度,由衷地推荐开源统计软件。我目前选择的平台是R Project,它提供成熟、强大、灵活、广泛和开放的统计软件,以及令人惊叹的软件包、专家和爱好者生态系统。其他不错的选择包括PythonJulia和用于处理大数据的特定开源软件,例如HadoopSparkNoSQL数据库、WEKA有关用于数据挖掘的开源软件的更多示例,包括通用和特定的统计和 ML 软件,请参阅Wikipedia 页面的这一部分。

更新:忘了提到Rattle,它也是一个非常流行的面向 R 的开源 GUI 软件,用于数据挖掘。

  1. SPSS 是一个很棒的工具,但是您可以使用计算机上已有的资源(如 Excel)或免费的资源(如 R-project)来完成大量工作。尽管这些工具功能强大,并且可以帮助您识别模式,但您需要在运行分析之前牢牢掌握数据(我建议对您的数据运行描述性统计数据,并使用图表探索数据以确保一切正常)看起来很正常)。换句话说,您使用的工具不会提供“灵丹妙药”,因为输出只会与输入一样有价值(您知道谚语......“垃圾进,垃圾出”)。我所说的大部分内容已经在 Aleksandr 的回复中说明了——当场。

  2. 对于我们这些不熟悉编码的人来说,R 可能具有挑战性,但是与 R 及其软件包相关的免费资源非常丰富。如果您练习学习该程序,您将很快获得牵引力。同样,您需要熟悉您的数据和您想要运行的分析,无论您使用何种统计工具,这一事实仍然存在。

  3. 我首先要对我的数据非常熟悉(按照 Aleksandr 的回复中概述的步骤,首先)。您可能会考虑阅读 John Foreman 的名为 Data Smart 的书。这是一本动手操作的书,因为 John 提供了数据集,您可以按照他的示例(使用 Excel)来学习导航和探索数据的各种方法。对于初学者来说,这是一个很好的资源。

Aleksandr 给出了非常透彻的解释,但简而言之,这些是遵循的步骤:

提取数据

清理数据

特征提取

建筑模型

推断结果

发布结果

循环重复步骤 3、4、5,直到获得正确的精度。

R 有pnc 对话 GUI,如 SPSS。他们打印 R 代码,因此您可以学习并结合他们的努力。我会推荐 BlueSky,因为它可以为所有事物提供对话和嘎嘎声。虽然这些软件非常适合 EDA、统计和可视化,但它们的机器学习表现不佳。