背景资料
我在佛罗里达州的一个消防部门工作,消防队长向我提出了一个问题;在 2018 日历年的任何特定时间,有多少消防车在忙碌,有多少可用,有多少待命,有多少停止使用?使用 SQL Server 数据库,我能够将这些信息提炼成表格数据。
我可以使用的软件。
此外,由于数据在 SQL Server 中,我可以按小时、工作日、月份等解析日期时间戳。然后使用 Python 或 Excel,我可以生成统计测试和单变量统计数据和图表。我对 R 的经验不多。因此我的工具是 SQL Server、R、Python 和 Excel。
数据
在 2018 年 1 月 1 日 00:02:31.800 时,主键为 21546912 的第一条记录有 1 辆消防车在工作,9 辆消防车可以工作,0 辆待命或停止服务。在整个一年中,我有 104,179 次观察结果显示在那个时间戳上有多少正在工作、可用、待命或停止服务。我在我的问题下方以逗号分隔值文件的形式附上了 30 条记录,供您查看示例。
问题!
那么我该如何处理这些数据呢?我已经生成了直方图,显示了 FireTrucksWorking 等的频率。我可以对这些数据执行回归等统计测试吗?我如何为这个数据集带来意义?我可以发现数据集的任何一般模式吗?我可以根据这些数据创建一个概率模型吗?在 7 月份的 08:00 时,N 辆消防车工作的概率为 x%?你会在这个数据集上使用排队论吗?
我愿意接受所有建议。此时我有一个大数据集,但它实际上只是一堆数字,我如何从这些数字中产生意义?
这是在数学交流中交叉发布的。但在这里我做了以下修改。我正在寻找某种类型的知识发现,它将向我展示关于我的数据集的一些肉眼无法看到或人脑无法辨别的信息。例如:“在 08:00 到 12:00 的时间里工作的可能性比一天中的其他时间要高得多”。“我的数据中是否存在我无法识别的模式”?你对此有什么想法吗?
三十条数据样本记录
PrimaryKey,DateTimeStamp,FireTrucksWorking,FireTrucksAvailableForWork,FireTrucksStandingBy,FireTrucksOutOfService
21546912,2018-01-01 00:02:31.800,1,9,0,0
21546921,2018-01-01 00:04:46.720,1,9,0,0
21546950,2018-01-01 00:09:39.400,1,9,0,0
21546951,2018-01-01 00:09:47.320,2,8,0,0
21546955,2018-01-01 00:11:16.780,3,7,0,0
21546959,2018-01-01 00:12:04.840,2,8,0,0
21546962,2018-01-01 00:12:09.030,3,7,0,0
21546963,2018-01-01 00:12:14.470,3,7,0,0
21546966,2018-01-01 00:12:17.790,3,7,0,0
21546967,2018-01-01 00:12:21.240,2,8,0,0
21546970,2018-01-01 00:12:40.240,2,8,0,0
21546973,2018-01-01 00:12:46.720,2,8,0,0
21546990,2018-01-01 00:14:24.610,2,8,0,0
21547002,2018-01-01 00:16:03.130,2,8,0,0
21547036,2018-01-01 00:19:59.450,1,9,0,0
21547043,2018-01-01 00:21:21.950,0,10,0,0
21547064,2018-01-01 00:24:50.470,0,10,0,0
21547065,2018-01-01 00:25:13.000,0,10,0,0
21547165,2018-01-01 00:43:31.130,0,10,0,0
21547344,2018-01-01 01:15:00.980,1,9,0,0
21547361,2018-01-01 01:16:58.320,1,9,0,0
21547383,2018-01-01 01:21:38.130,1,9,0,0
21547421,2018-01-01 01:30:42.250,0,10,0,0
21547436,2018-01-01 01:33:30.320,1,9,0,0
21547442,2018-01-01 01:33:48.470,1,9,0,0
21547449,2018-01-01 01:33:58.780,1,9,0,0
21547474,2018-01-01 01:37:30.550,1,9,0,0
21547484,2018-01-01 01:39:12.350,1,9,0,0
21547487,2018-01-01 01:40:41.290,0,10,0,0
21547510,2018-01-01 01:47:02.420,0,10,0,0