句子中的亵渎程度

数据挖掘 nlp 情绪分析
2022-02-20 15:49:50

给定评论或句子以及亵渎词列表,如何编写程序来打印该句子中的亵渎程度?

2个回答

处理它的一种方法是将句子拆分为标记并计算亵渎标记的数量。

import re

def tokenize(text): 
    return re.findall(r'\w+', text.lower())

profane_tokens = {"nerfherder"}

sentence = "Why you stuck-up, half-witted, scruffy-looking nerfherder!"

tokens = tokenize(sentence)

# Rate: number of occurrences normalized by total number
degree_of_profanity = sum(1 for t in tokens if t in profane) / len(tokens)

此代码不会处理多个令牌,并且许多亵渎是多个令牌。

您可能会在搜索“攻击性文本检测”的文献中找到指针。与检测欺凌等相关任务有许多变体/重叠。周围可能还有带注释的数据集,以防您想将它们用作训练数据。