为教科书生成索引是一项繁琐的任务。可以通过机器学习实现自动化吗?有没有参考文献中以前的尝试这样做?
是否有将机器学习应用于书籍索引生成的项目?
机器算法验证
机器学习
自然语言
2022-03-22 05:25:01
2个回答
为了补充@denis-tarasov 的答案,我建议您参考卫报的这篇精彩文章。
看看这段话:
人们普遍想象的一件事是,在 Google 时代,索引是可以外包给计算机算法的东西。大错特错。索引 - 本质上是一本书中所有单词的字母列表以及页面参考 - 可以由计算机完成。但是,一个有用的索引需要由人来完成。例如,在一本关于中东的书中,写着“叙利亚 2、3、5、6、7、10、23、25、26、27 ……”的条目根本没有用。
事实上,主要论点是关键字/关键短语提取不能取代诙谐、批判性思维和与书本读者互动等人为因素。
我认为这个问题与关键字/关键短语提取问题非常相似。关键字提取是一项经过深入研究的任务(例如,请参阅本文进行审查)。可能的方法包括启发式、监督机器学习(具有许多特殊功能,如 TD/IDF、句子中的位置等)和语言模型。存在强大的关键词/关键词提取工具,因此可以先尝试一下,看看它们是否做得好。