我正在开展一个项目,该项目要求同学们分享他们的原始文本数据,以便使用数据挖掘技术进行进一步分析,而且我认为在他们提交的内容中匿名化学生姓名是合适的。
撇开学生提交作品的 url 和插入匿名 ID 的后端脚本的更好解决方案不谈,我可以指导学生自己实施什么样的解决方案来匿名化他们自己的名字?
我仍然是这个领域的菜鸟。我不知道规范是什么。我在想解决方案可能是散列算法。这听起来比编一个假名更好,因为两个人可以选择相同的假名。可能的人可以选择相同的假名。我应该注意哪些问题?
我正在开展一个项目,该项目要求同学们分享他们的原始文本数据,以便使用数据挖掘技术进行进一步分析,而且我认为在他们提交的内容中匿名化学生姓名是合适的。
撇开学生提交作品的 url 和插入匿名 ID 的后端脚本的更好解决方案不谈,我可以指导学生自己实施什么样的解决方案来匿名化他们自己的名字?
我仍然是这个领域的菜鸟。我不知道规范是什么。我在想解决方案可能是散列算法。这听起来比编一个假名更好,因为两个人可以选择相同的假名。可能的人可以选择相同的假名。我应该注意哪些问题?
我怀疑您使用名称作为标识符。你不应该;他们不是独一无二的,他们提出了这个隐私问题。改用他们的学号,您可以从他们的 ID 中验证,以散列形式存储。使用学生的姓氏作为盐,以更好地衡量(通过连接 ID 号和姓氏来形成要散列的字符串)。