给定评论或句子以及亵渎词列表,如何编写程序来打印该句子中的亵渎程度?
句子中的亵渎程度
数据挖掘
nlp
情绪分析
2022-02-20 15:49:50
2个回答
处理它的一种方法是将句子拆分为标记并计算亵渎标记的数量。
import re
def tokenize(text):
return re.findall(r'\w+', text.lower())
profane_tokens = {"nerfherder"}
sentence = "Why you stuck-up, half-witted, scruffy-looking nerfherder!"
tokens = tokenize(sentence)
# Rate: number of occurrences normalized by total number
degree_of_profanity = sum(1 for t in tokens if t in profane) / len(tokens)
此代码不会处理多个令牌,并且许多亵渎是多个令牌。
您可能会在搜索“攻击性文本检测”的文献中找到指针。与检测欺凌等相关任务有许多变体/重叠。周围可能还有带注释的数据集,以防您想将它们用作训练数据。