我正在做这个项目,我必须预测一篇文学文章的接受概率,比如说出版商的一篇研究论文,在这种情况下是期刊。
我想为这个项目使用机器学习算法,该算法将从出版商/期刊迄今为止发表的文章/研究论文库中学习。稍后我想使用手头当前的文章/研究论文来预测这篇文章/研究论文的接受概率关于算法学到的见解。以下是我的疑问:-
- 有什么算法可以解决这样的任务?
- 我应该如何让这些算法学习词向量、语法、主题等?
- 如何将文章转换为算法可以从中学习的特征集?
我正在做这个项目,我必须预测一篇文学文章的接受概率,比如说出版商的一篇研究论文,在这种情况下是期刊。
我想为这个项目使用机器学习算法,该算法将从出版商/期刊迄今为止发表的文章/研究论文库中学习。稍后我想使用手头当前的文章/研究论文来预测这篇文章/研究论文的接受概率关于算法学到的见解。以下是我的疑问:-
Applied Predictive Modeling 这本书有一个关于赠款提案接受率的案例研究,这是一场 Kaggle 竞赛。你可以从那里得到很多好主意。
我认为很难从论文的文本中预测论文的质量,但是通过包括作者的学术等级、他们过去的出版历史和成功、接受率等特征,你可能会幸运得多论文投稿的期刊,甚至论文的长度等。这种纸张质量的代理功能实际上可能非常成功......
首先,我认为您正在尝试做的事情非常困难。一篇研究论文的成功不仅取决于文字,还取决于数学、发表时间、期刊等。您应该考虑许多特征。
我会尝试深度学习。对于输入,我会添加上面的所有功能,也许更多。作为输出,我会使用引用的数量或者更复杂的东西,比如流行的自定义函数。在 Nature 上发表与在其他期刊上发表是不一样的。