嘿,数据爱好者!
我有一个聚类分析的数据建模问题,我无法解决。也许我正在考虑进阶,我应该简化我的分析。
我有 2 个数据集:
- 具有其属性的人:
- 个人身份
- 性别
- 年龄
- 国家
- 等等。
- 对话及其属性:
- 会话 ID
- 谈话的句子
- 一个句子的关键字+它的频率
- 句子的极性(pos、neg 或中性)
我想对一组人具有相同极性的术语进行聚类。例如。20 至 35 岁的男性对经济持积极态度,对隐私持否定态度。BE、NL 和 DE 的男性对气候变化持否定态度。
问题是我需要为一组未定义的人聚集多个术语。对于一个术语(例如隐私),确定不同段的属性将是“容易的”,因为这是一个分类问题。由于我想将多个术语聚集在一起,我正在努力为我的数据建模,因为这意味着我每人有多个记录(他们可以谈论多个术语)。
假设:您可以假设我每学期每人有一个记录。