使用智能手机数据集问题的人类活动识别

数据挖掘 大数据 机器学习 数据库 聚类 数据挖掘
2021-09-14 08:32:49

我是这个社区的新手,希望我的问题很适合这里。作为我本科数据分析课程的一部分,我选择使用智能手机数据集进行人类活动识别项目。就我而言,这个主题与机器学习和支持向量机有关。我对这项技术还不是很熟悉,所以我需要一些帮助。

我决定遵循这个项目的想法(顶部的第一个项目)项目目标是从智能手机(三星)记录的数据中确定一个人正在从事的活动(例如,WALKING、WALKING_UPSTAIRS、WALKING_DOWNSTAIRS、SITTING、STANDING、LAYING) Galaxy S II) 在对象的腰部。使用其嵌入式加速度计和陀螺仪,数据包括 3 轴线性加速度和 50Hz 恒定速率的 3 轴角速度。

所有数据集都在一个文件夹中,带有一些描述和特征标签。数据分为“测试”和“训练”文件,其中数据以这种格式表示:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

这只是文件所包含内容的一小部分。

我真的不知道这些数据代表什么以及如何解释。此外,对于数据的分析、分类和聚类,我需要使用哪些工具?有什么方法可以将这些数据放入包含标签的 excel 中,例如使用 R 或 python 来提取样本数据并进行处理?

任何提示/提示将不胜感激。

3个回答

数据集定义在此处的页面上:

属性信息在底部

或者您可以在 ZIP 文件夹中看到名为 activity_labels 的文件,其中包含您的列标题,请确保您仔细阅读自述文件,其中包含一些很好的信息。您可以使用该命令轻松地.csv在 R 中引入文件。read.csv

例如,如果您命名文件samsungdata,您可以打开 R 并运行以下命令:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

或者,如果您已经在 R 的工作目录中,则可以运行以下命令

data <- read.csv("samsungdata.csv", header = TRUE)

可以将名称data更改为您想要调用数据集的任何名称。

看起来这个(或非常相似的数据集)用于 Coursera 课程。清理此数据集是获取和清理数据的任务,但它也用于探索性数据分析的案例研究。此案例研究的视频可在 EDA 课件第 4 周的视频中找到。它可能会帮助您从这些数据开始。

在我看来,这就像一个典型的时间序列分类案例。在对数据进行清理和归一化之后,您可以构建一个简单的 LSTM 模型来学习具有 2 个下游密集层的时间序列,从而在 tensorflow 中进行分类。只需谷歌时间序列分类,你就会得到你想要的。