我将尝试回答您的问题,但在我想指出使用术语“大型数据集”具有误导性之前,因为“大型”是一个相对概念。您必须提供更多详细信息。如果您正在处理投标数据,那么这一事实很可能会影响为您的数据分析选择首选工具、方法和算法。我希望我对数据分析的以下想法能够解决您的子问题。请注意,我的分数编号与您的子问题编号不匹配。但是,我相信它更好地反映了一般的数据分析工作流程,至少,我是如何理解它的。
首先,我认为您至少需要记住某种概念模型(或者,更好的是,在纸上)。该模型应指导您进行探索性数据分析 (EDA)。模型中存在因变量 (DV)意味着在分析后期的机器学习 (ML)阶段,您将处理所谓的有监督 ML,而不是在没有已识别 DV 的情况下处理无监督 ML。
其次,EDA是至关重要的一环。恕我直言,EDA 应该包括生成描述性统计和数据可视化的多次迭代,因为您可以完善对数据的理解。这一阶段不仅会为您提供有关数据集的宝贵见解,还会为您的下一个重要阶段——数据清理和转换提供支持。仅仅将原始数据放入统计软件包中不会有太大的作用——对于任何有效的统计分析,数据应该是干净、正确和一致的。这通常是最费时费力但绝对必要的部分。有关此主题的更多详细信息,请阅读此好论文(由 Hadley Wickham 撰写)和此(由 Edwin de Jonge 和 Mark van der Loo 撰写)。
现在,正如您希望完成EDA以及数据清理和转换一样,您已准备好开始一些更多涉及统计的阶段。其中一个阶段是探索性因素分析 (EFA),它允许您提取数据的底层结构。对于具有大量变量的数据集,EFA 的积极副作用是降维。而且,从这个意义上说,EFA 类似于主成分分析 (PCA)和其他降维方法,我认为 EFA 更重要,因为它可以改进你的数据“描述”的现象的概念模型,从而理解你的数据集。当然,除了 EFA 之外,您可以/应该根据您在之前阶段的发现执行回归分析以及应用机器学习技术。
最后,关于软件工具的说明。在我看来,统计软件包的现状是这样的,几乎所有主要的软件包在功能方面都具有可比性。如果您在软件工具方面具有某些政策和偏好的组织学习或工作,那么您会受到它们的限制。但是,如果不是这样,我会根据您对其特定编程语言、学习曲线和您的职业前景的舒适度,由衷地推荐开源统计软件。我目前选择的平台是R Project,它提供成熟、强大、灵活、广泛和开放的统计软件,以及令人惊叹的软件包、专家和爱好者生态系统。其他不错的选择包括Python、Julia和用于处理大数据的特定开源软件,例如Hadoop、Spark、NoSQL数据库、WEKA。有关用于数据挖掘的开源软件的更多示例,包括通用和特定的统计和 ML 软件,请参阅Wikipedia 页面的这一部分。
更新:忘了提到Rattle,它也是一个非常流行的面向 R 的开源 GUI 软件,用于数据挖掘。