为什么使用记录变量?

机器算法验证 相关性 数据转换 对数
2022-03-20 02:33:19

可能,这是一个非常基本的问题,但我似乎无法找到可靠的答案。我希望在这里,我可以。

我目前正在阅读论文,为我自己的硕士论文做准备。目前,我正在阅读一篇研究推文与股市特征之间关系的论文。

在他们的一个假设中,他们提出“增加的推文量与交易量的增加有关”。

我希望它们在成对相关中与 相关tweetVolumetradingVolume但他们使用记录的版本进行报告:LN(tweetVolume)LN(tradingVolume)

对于我的论文,我复制了他们论文的这一点。我收集了超过 6 个月(tweetVolume)和同一时间段内的股票交易量的大约 100 家公司的推文。如果我关联绝对变量,我会发现,r=.282, p.000但是当我使用记录的版本时,我会发现r=.488, p=.000.

我不明白为什么研究人员有时会使用他们变量的日志版本,以及为什么如果你这样做,相关性似乎会高得多。这里的推理是什么,为什么可以使用记录的变量?

非常感谢您的帮助:-)

1个回答

使用记录变量的原因分为两类:统计和实质性。

从统计上讲,如果你的变量是右偏的(也就是说,它们在高端有一条长尾),那么相关性或回归等测量值可能会受到一个或两个高端案例的很大影响变量(异常值、杠杆点、影响点)。记录日志可以通过减少或消除偏差来帮助实现这一点。

实质上,一些概念在比率方面比在差异方面更好。采取你讨论的两个体积测量。现在,比较两家公司:一家是在纳斯达克交易但很少有人听说过的小公司,另一家是大型公司。前者每天会收到很少的推文。后者会得到很多;交易量也是如此。假设(只是为了选择数字)A 公司通常每天收到 100 条推文,而后者则获得 100,000 条。

如果 A 公司的推文从 100 条增加到 500 条(相差 400 条,比率为 5),那将是一个巨大的新闻——一定是发生了什么事。但如果 B 公司从 100,000 上升到 100,400(相差 400,比率非常接近 1),没人会在意。如果它从 100,000 增加到 500,000,则大致相当于。