机器算法验证 - 是否有将机器学习应用于书籍索引生成的项目？ - 吾爱随笔录

是否有将机器学习应用于书籍索引生成的项目？

机器算法验证机器学习自然语言

2022-03-22 05:25:01

为教科书生成索引是一项繁琐的任务。可以通过机器学习实现自动化吗？有没有参考文献中以前的尝试这样做？

2个回答

为了补充@denis-tarasov 的答案，我建议您参考卫报的这篇精彩文章。

看看这段话：

人们普遍想象的一件事是，在 Google 时代，索引是可以外包给计算机算法的东西。大错特错。索引 - 本质上是一本书中所有单词的字母列表以及页面参考 - 可以由计算机完成。但是，一个有用的索引需要由人来完成。例如，在一本关于中东的书中，写着“叙利亚 2、3、5、6、7、10、23、25、26、27 ……”的条目根本没有用。

事实上，主要论点是关键字/关键短语提取不能取代诙谐、批判性思维和与书本读者互动等人为因素。

我认为这个问题与关键字/关键短语提取问题非常相似。关键字提取是一项经过深入研究的任务（例如，请参阅本文进行审查）。可能的方法包括启发式、监督机器学习（具有许多特殊功能，如 TD/IDF、句子中的位置等）和语言模型。存在强大的关键词/关键词提取工具，因此可以先尝试一下，看看它们是否做得好。

其它你可能感兴趣的问题

上一篇带有序数因变量的 OLS - 系数有什么意义吗？下一篇将 glmer (lme4) 模型规范翻译成 MCMCglmm