我很好奇情绪分析工具的训练数据是否需要专门针对它正在使用的领域。例如,如果我想衡量电影评论的情绪,IMDB 电影评论数据是有意义的,但会如果我想衡量公众对公司股票的看法,它仍然可以使用吗?
如果我想衡量一家公司股票的情绪,我是否应该创建自己的训练集,使用来自金融新闻/社交媒体对公司反应的数据?
我很好奇情绪分析工具的训练数据是否需要专门针对它正在使用的领域。例如,如果我想衡量电影评论的情绪,IMDB 电影评论数据是有意义的,但会如果我想衡量公众对公司股票的看法,它仍然可以使用吗?
如果我想衡量一家公司股票的情绪,我是否应该创建自己的训练集,使用来自金融新闻/社交媒体对公司反应的数据?
机器学习中最基本的假设之一是训练数据与测试数据“相似”。否则培训毫无意义。
所以问题是:电影和股票的评论有多相似?也许有点,但不会太多。您的电影训练算法当然能够处理诸如“这家公司很棒”或“警告,不要购买这只股票”之类的陈述。
但是“股价将爆炸/内爆”或“关于这只股票,我看跌/看涨”呢?爆炸、内爆、看跌和看涨这些词可能从来都不是电影评论中情绪的表达。
如果我正确理解您的担忧,您想知道您是否可以对 imdb 数据以外的来源(即电影评论以外的领域)进行情绪分析。简短的回答:是的!
过去(即使在今天)的研究人员试图对生活的各个方面进行情绪分析,例如:
这里的挑战在于,如果数据已经不存在,您必须自己获取一些数据。