数据挖掘 - 句子中的亵渎程度 - 吾爱随笔录

句子中的亵渎程度

数据挖掘 nlp 情绪分析

2022-02-20 15:49:50

给定评论或句子以及亵渎词列表，如何编写程序来打印该句子中的亵渎程度？

2个回答

处理它的一种方法是将句子拆分为标记并计算亵渎标记的数量。

import re

def tokenize(text): 
    return re.findall(r'\w+', text.lower())

profane_tokens = {"nerfherder"}

sentence = "Why you stuck-up, half-witted, scruffy-looking nerfherder!"

tokens = tokenize(sentence)

# Rate: number of occurrences normalized by total number
degree_of_profanity = sum(1 for t in tokens if t in profane) / len(tokens)

此代码不会处理多个令牌，并且许多亵渎是多个令牌。

您可能会在搜索“攻击性文本检测”的文献中找到指针。与检测欺凌等相关任务有许多变体/重叠。周围可能还有带注释的数据集，以防您想将它们用作训练数据。

其它你可能感兴趣的问题

上一篇如何信任使用 ML 模型生成的标签？下一篇使用哪个数据集来查找预测变量和响应变量之间的相关性？测试数据集？训练数据集？还是整个数据集？