我有一些正在使用的数据;为简单起见,让我们假设数据包含有关博主撰写的帖子数量与订阅该人博客的人数的信息(这只是一个虚构的示例)。
我想得到一些关于#posts 与 #subscribers 之间关系的粗略模型,并且在查看对数图时,我看到以下内容:

这看起来像一个粗略的线性关系(在对数尺度上),并且快速检查残差似乎是一致的(没有明显的模式,没有明显偏离正态分布):


所以我的问题是:可以使用这个线性模型吗?我隐约知道在对数图上使用线性回归来估计幂律分布存在问题,但我的数据不是幂律概率分布(它只是看起来大致遵循模型; 特别是,没有什么需要总和为 1),所以我不确定是否适用相同的批评。(也许我在同一句话中提到“log-log”和“linear regression”时过度纠正了......)另外,我真正想做的就是:
- 查看具有正残差的博客与具有负残差的博客是否有任何模式
- 就订阅者与发帖数量的关系提出一些粗略的模型。