子集的方差

机器算法验证 数理统计 标准差 子集
2022-04-01 02:12:34

首先对草率的术语感到抱歉,但我正在寻找一个统计概念的名称。

我被要求计算 Facebook 朋友对我的帖子发表评论的“营业额”,因此我正在寻找一个指标,如果总是相同,则价值很高,假设有 10 个朋友在评论我的帖子,如果总是不同的朋友在评论,则价值很低.

显然,一组评论我给定帖子的朋友构成了我朋友的一个子集,所以我在我所有的帖子中寻找这些子集的一种“标准差”、“方差”。

这个统计概念的正确名称是什么?你是怎么计算的?

4个回答

怎么样:假设你的朋友集合是并且是评论帖子的朋友集合,那么 如果总是不同的朋友评论,则高,如果总是相同的朋友评论,则低(这与您的建议相反),同时或多或少独立于您有多少朋友。AAiAii=1,,n

KPI=|i=1nAi|i=1n|Ai|

您正在寻找评论朋友集之间的“相似性度量”。最流行的测量方法之一是Jaccard 指数

J=|i=1nAi||i=1nAi|

Ai是一组对帖子i发表评论的朋友。

如果大多数评论的朋友都相同,则交集计数将接近并集计数,Jaccard 指数将接近 1。如果只有少数朋友有共同评论,则它会很小。

StijnDeVuyst,并由 igrinis 重复,为您正在寻找的“子集之间的差异”提供了一个很好的度量和概念。

与您的任务相关,即查找“营业额”,而不仅仅是回复您帖子的朋友的“相似性”。相信大家不妨扩展一下这个概念。

  • 您可能只想查看相邻的子集,而不是将所有子集放在一起不同之处在于,您是要对始终回复您所有帖子的朋友进行相对度量,还是要对每个帖子或每个周期的回复朋友的变化(多少来去)进行相对度量。

  • 您可能希望通过将多个帖子放在一起来创建子集,而不是根据回复特定帖子的朋友创建子集。您必须确定是否应将不定期回复的 Facebook 好友(例如回复帖子编号 x 和 x+2 但未回复帖子编号 x+1)视为对营业额的贡献。

    (一个例子:对于一些将短期休假作为移民和移民包括在内的国家,其统计数据显示出相对于人口的高值。您可能想知道这是否正确。一些媒体喜欢在没有正确的情况下报道这些高流动率放置这种细微差别并假装大量的人正在离开这个国家)。

然后这些统计数据变得多维。例如,营业额在时间上不是恒定的。

您可能想在图表中提供多种类型的营业额定义。例如,您可以绘制 1) 离开者数量、2) 到达者数量和 3) 评论朋友总数的时间序列。

然后考虑你希望如何表达营业额例如,它是关于替换(到达所替换的叶子数量)还是关于变化?后者,变化,也反映了增长和减少。

作为替代方案,您可以创建一个度量来确定您的 facebook 朋友在评论子集中停留的平均时间(停留时间反映了周转率)。

您也可以将其分解为活动级别的变化(过于放松 Facebook 朋友在评论您的帖子时活跃或不活跃的概念)。例如,您可以将每 10 个帖子的回复数确定为一个活动级别,然后确定您所有朋友的活动级别的变化。这样,一位朋友从 10 个帖子中的 8 个回复变为 2 个回复到 10 个帖子的朋友可以包含在您的营业额衡量标准中。

这很简单,但我总是从那里开始......

假设您有 100 个朋友和 5 个帖子。假设每个帖子有 20 条评论。

在一个极端情况下,每个帖子都有 20 个相同的人发表评论。在另一个极端,每个帖子都有 20 个不同的人发表评论。

在第一种情况下,这 20 个人每篇帖子的平均评论数为 1.0,而其他 80 人的相同指标为零。在第二种情况下,每个人每个帖子都发表了 0.2 条评论,共 100 条)。

我的想法是从评论的人数除以帖子的数量来计算。有些人会得分 1.0(他们对每个帖子都发表评论),有些人会得分较低(他们只评论一次或不评论)。

如果从最高分到最低分绘制,你会得到类似于“碎石”图的东西。

这不会让你走得很远吗?