有一段时间,我进行评估以设计有关如何识别编写良好且有意义的软件需求的指标。然后我决定使用 Stack Overflow 问题帖子,因为它们是一个大型语料库,并且还有表明人类感知质量1的投票。
现在我不确定哪些适当的数据科学/NLP 术语可以描述区分什么是有意义的文本的方法。
我一直在研究熵和符号学,也专门研究 Stack Overflow 语料库,但我找不到真正涉及定义和测量文本意义的开创性论文。
什么是意义?
- 根据维基词典和维基百科,意义是“有意义的状态或度量”,而有意义是“具有意义,有意义”,而意义是“发送者在与他人交流时打算传达或确实传达的信息或概念一个接收器”。
- 我还在 Linguistics SE 上提出了一个问题,以了解学术研究是否有最近的结果以及更多最新的定义。
Stack Overflow 的人应该已经实现了一些实用的熵检测算法来过滤掉低质量的帖子(正如我们通过系统过滤器知道的那样,直到您输入更多内容),但是例如以下毫无意义的问题不会产生任何警告 -也就是说,熵即随机性看起来足够低,但实际上文本确实非常随机且毫无意义。
我确实理解没有绝对的“意义”,因为它取决于消息接收者的上下文(符号学!),但是应该可以将消息(SO 问题)放入所有先前收到的消息的上下文中(发布的 SO 问题)。
1 SO 内容除了自然语言之外还具有代码片段这一事实,它可能是一个主题自己研究它的含义,有什么贡献等;为简单起见,我可能只排除用于文本分析的代码,但可以肯定的是,代码片段和投票之间的相关性也值得一看。如前所述,它本身可能是一个研究课题。
