我想建立一个基于新闻报道的犯罪指数和政治不稳定指数

机器算法验证 机器学习 分类 文本挖掘
2022-02-01 00:13:11

我有这个副项目,我在我的国家爬取当地的新闻网站,并想建立一个犯罪指数和政治不稳定指数。我已经介绍了项目的信息检索部分。我的计划是:

  • 无监督主题提取。
  • 近重复检测。
  • 受监督的分类和事件级别(犯罪/政治 - 高/中/低)。

我将使用 python 和 sklearn,并且已经研究了可用于这些任务的算法。我认为 2. 可以给我一个故事的相关性因素:关于某个故事或主题的新闻报道越多,与当天的相关性就越高。

我的下一步是根据我拥有的功能构建每月、每周和每日指数(全国和每个城市),我在这里有点迷失,因为“不稳定敏感性”可能会随着时间的推移而增加。我的意思是,去年重大不稳定事件的指数可能低于今年的指数。此外,是否使用固定比例 0-100。

稍后我希望能够基于此预测事件,例如,过去几周的连续事件是否会导致重大事件。但就目前而言,我会对分类工作和构建索引模型感到满意。

我将不胜感激任何指向论文、相关阅读或想法的指针。谢谢。

PD:对不起,如果问题不属于这里。

更新:我还没有“成功”,但最近有消息称,一组科学家正在使用新闻档案预测事件的系统并发布了相关论文Mining the Web to Predict Future Events (PDF )。

1个回答

考虑 GINI 分数的变化。

它被归一化,其输出范围为 0 到 1。

编辑:

为什么 GINI 很“酷”或至少可能是合适的:

它是衡量不平等或不公平的标准。它被用作无标度度量来表征无标度网络的异质性,包括无限网络和随机网络。它在构建 CART 树时很有用,因为它是特定数据拆分的拆分能力的度量。

因为它的范围:

  • 舍入误差较少。远离 1.0 的范围往往会遇到数字问题。
  • 它是人类可读的,并且更易于人类访问。人类对物体的把握比对数十亿物体的把握更具体。

因为它是标准化的:

  • 分数比较是有意义的,一个国家的 0.9 意味着与任何其他国家的 0.9 的相对不均匀程度相同。
  • 它针对洛伦兹曲线进行了标准化,以实现完美的均匀性,因此这些值是感兴趣值分布与洛伦兹曲线之间关系的相关指标。

参考: