我有这个副项目,我在我的国家爬取当地的新闻网站,并想建立一个犯罪指数和政治不稳定指数。我已经介绍了项目的信息检索部分。我的计划是:
- 无监督主题提取。
- 近重复检测。
- 受监督的分类和事件级别(犯罪/政治 - 高/中/低)。
我将使用 python 和 sklearn,并且已经研究了可用于这些任务的算法。我认为 2. 可以给我一个故事的相关性因素:关于某个故事或主题的新闻报道越多,与当天的相关性就越高。
我的下一步是根据我拥有的功能构建每月、每周和每日指数(全国和每个城市),我在这里有点迷失,因为“不稳定敏感性”可能会随着时间的推移而增加。我的意思是,去年重大不稳定事件的指数可能低于今年的指数。此外,是否使用固定比例 0-100。
稍后我希望能够基于此预测事件,例如,过去几周的连续事件是否会导致重大事件。但就目前而言,我会对分类工作和构建索引模型感到满意。
我将不胜感激任何指向论文、相关阅读或想法的指针。谢谢。
PD:对不起,如果问题不属于这里。
更新:我还没有“成功”,但最近有消息称,一组科学家正在使用新闻档案预测事件的系统并发布了相关论文Mining the Web to Predict Future Events (PDF )。