写下整个问题,以避免在实际上我需要一个完全不同的问题的答案时问一个问题,只是不知道如何问。我有很多关于我日常生活的数据,我想找到不同跟踪变量之间的相关性。或者更确切地说,那些相互关联的变量,以进行更深入的检查。它们每个都有一个精确的时间戳,有时还有一个附加值。
我不知道从哪里开始,我可以用 python 编程,但我没有太多(可能有)统计学知识。我正在寻找一个研究方向,这将帮助我解决这个任务。
有关数据的更多信息:
我记录了过去 5 个月的体温,但有时我只在感觉不好的时候记录下来,即 - 并非所有日子都有数值,测量时间也不规律。所以,如果一天没有价值,这意味着我忘记记录它或者我感觉很好 - 假设它在 36.6C 左右等。或者例如,如果我在某处感到疼痛 - 如果它有条目,则意味着我感觉它并且没有条目意味着没有痛苦或者我忘记了,因为日志记录并不完美。
那么,当将这些类型的系列与其他系列进行比较时,我应该在它们之间填充默认值还是保持原样?
我还有很多其他的测量数据,比如我吃了什么食物、我睡了多久,以及其他重要的常规事件的日志。
每个条目都有一个时间戳,或者是类型(值 - 睡眠时间,情绪水平)或类型 - 发生并记录或根本没有记录。
我有很多,我想找到那些相互关联的,以便进一步深入研究它们,另外,如果我只是绘制它们,如果没有一些处理和智能指标,我认为并不总是可以看到相关性. 所以,说我有
摄氏温度
2018-05-29 11:59:00 35.7
2018-05-29 20:42:00 36.7
2018-05-29 21:23:00 36.6
2018-05-29 23:20:00 36.9
2018-05-30 11:03:00 35.8
2018-05-30 21:08:00 36.8
2018-05-30 23:34:00 36.7
2018-05-31 01:27:00 36.8
2018-05-31 17:32:00 36.4
2018-05-31 20:41:00 36.5
2018-06-01 01:05:00 37.0
2018-06-01 01:09:00 37.2
2018-06-01 01:40:00 36.7
2018-06-01 14:10:00 36.8
2018-06-01 15:58:00 36.6
2018-06-01 16:59:00 36.2
2018-06-01 22:11:00 36.1
2018-06-02 03:08:00 36.1
吃甜的东西
2018-05-21 20:29:00 1.0
2018-05-21 22:12:00 1.0
2018-05-21 23:47:00 1.0
2018-05-24 23:19:00 1.0
2018-05-25 15:59:00 1.0
2018-05-29 20:01:00 1.0
2018-05-30 01:51:00 1.0
2018-06-02 19:28:00 1.0
2018-06-03 20:29:00 1.0
其他一些值介于 -5 和 3 之间的测量值
2018-05-27 21:30:00 -1.0
2018-05-27 21:58:00 0.0
2018-05-27 22:44:00 -2.0
2018-05-28 00:54:00 -1.0
2018-05-28 23:17:00 1.0
2018-05-29 13:09:00 -1.0
2018-05-29 19:23:00 -1.0
2018-05-29 21:46:00 -1.0
2018-05-30 20:23:00 -1.0
2018-05-31 13:38:00 -1.0
2018-05-31 15:19:00 -1.0
2018-05-31 17:08:00 -1.0
2018-05-31 18:27:00 0.0
2018-05-31 20:39:00 -1.0
2018-06-01 20:07:00 -2.0
2018-06-02 12:36:00 -1.0
2018-06-02 12:52:00 -3.0
2018-06-03 14:45:00 -2.0
2018-06-03 15:16:00 -1.0
还有很多相同的类型,大约 100 多个不定期发生的事件,但它们仍然很重要,并且通常比定期发生的事件具有更大和更少的延迟影响,我如何检查它们中的每一个或他们中的每一个都与其他人的组合进行相关性?
我可以考虑尝试将它们转换为一天内的平均值,或者对于没有价值的事件跟踪器每天的条目数。但它可以在以后完成。我需要一些帮助来指导我在哪里看、读什么和尝试什么。
例如,这是我的体温图和过去 2 个月按 24 小时间隔分组的事件 X 的条形图。我想知道它们是否相关。事件 X 有一个精确的记录时间和一个与之相关的值——从 -5 到 3,但我不确定如何最好地可视化它。

UPD:还有一个示例图 - 另一个以小时为单位的事件,但在这里它计算记录了多少次。事件 Y。

再次事件 Y,但这次是每天的总和值(对于这个事件)虽然我在凌晨 3 点到 5 点上床睡觉并且情节是使用 12 点作为分割点生成的,但我可能会在稍后调整它在项目中进一步。

我还打算添加天气数据,另外我还有室温和二氧化碳读数。所以,我有很多不同格式的、不规则记录的并且不是 100% 准确(忘记记录、错过等)的变量及时跟踪,我想找到关于一些变量的见解 - 它们的原因等,但我没有了解影响他们的因素以及延迟时间。
到目前为止,我想到但我还没有尝试实现它的唯一想法是使用像 LSTM 这样的循环神经网络,将每天分成 10 分钟的片段,并为每个跟踪变量指定一个输入并将它们输入它,并教它预测下一步。在我训练它之后,更改/删除一些变量,看看整体情况如何变化。当然,我必须尽量避免过度拟合,因为它只有 6 个月的数据。但我认为这不是最佳解决方案。我对统计一无所知,可能应该有一种方法可以做我想做的事。但我什至不知道如何用谷歌搜索它。
一个叫做“互相关”的东西适合我的情况吗?
@scherm 的 UPD2 问题
虽然你提到看情节,但我想要一个更自动化的解决方案..
在收集数据的 5 个月内,我有 22 个具有 >100 值的跟踪变量、57 个具有 >50 值的跟踪变量、192 个具有 >10 值的变量以及更多具有更少值的变量,总共 12500 个手动记录的事件/测量值,总共 435 个变量(其中一些当然被遗弃了,但只有一小部分)。
用于统计分析的数据不多,但在手动记录方面却很多。
感谢您指点我填写丢失的数据包。也肯定存在共现。最后,我正在寻找一个工具,我可以在其中选择一个跟踪变量,它会告诉我pick_event之类的东西与 event1(n1 步延迟)、event2(n2 步延迟)、event3(n3 步延迟)。但你的回答符合我提出的问题。
我有一个关于制作散点图的问题,我在上面的帖子中添加了所有数据点的散点图(不是区间拆分,每条链都是一个变量),它是按上次使用跟踪器的时间排序的。我不确定我能从中收集到什么,也不确定如何为您描述的每个变量绘制平均值,您能否详细说明您的第三点?

