我正在为 inplay 体育赛事的客户设计一种数据捕获方法,他希望每半秒记录一次赔率变动,以便以后在 Excel 中进行分析。我想做到这一点,以便在其他包中轻松使用数据进行分析。
更多的背景和假设。
- 每个事件可以有 4 - 40 名竞争者 (c)
- 每个事件有 10 个变量,同样适用于所有竞争者 (e)
- 每个竞争者有 20 个具有相同标题/类型的变量,其值对竞争者 (i) 是唯一的
本质上我需要在
- 1. 1 行有 1 个时间帧,所以每个时间帧捕获都有
所需列 = e+max(c)i = 810
所需行数 = 1
好:易于操作,一行数据,1 行描述每行事件中的所有竞争者。
不好:大量的列,如果 c 小于 max(c) 则有大量空白列数据,难以跨多列搜索名称
或者
- 2. 在多行上有 1 个时间帧,所以每个时间帧都有
所需列 = e+i =30
所需行数 = c
好:更少的列,易于搜索/过滤为同一列中的所有名称
不好:不同竞争者的不同行中的时间范围
有关系吗?包处理这两种形式的数据是否容易?我的客户不知道答案,但想要最好的解决方案!我倾向于 2. 因为用数据库术语管理和搜索要容易得多,但不确定时间序列分析的准备工作?哪位有经验的可以给点建议吗?
谢谢奥斯