聚类分析术语和细分的数据模型

数据挖掘 分类 聚类
2022-02-17 15:35:02

嘿,数据爱好者!

我有一个聚类分析的数据建模问题,我无法解决。也许我正在考虑进阶,我应该简化我的分析。

我有 2 个数据集:

  • 具有其属性的人:
    • 个人身份
    • 性别
    • 年龄
    • 国家
    • 等等。
  • 对话及其属性:
    • 会话 ID
    • 谈话的句子
    • 一个句子的关键字+它的频率
    • 句子的极性(pos、neg 或中性)

我想对一组人具有相同极性的术语进行聚类。例如。20 至 35 岁的男性对经济持积极态度,对隐私持否定态度。BE、NL 和 DE 的男性对气候变化持否定态度。

问题是我需要为一组未定义的人聚集多个术语。对于一个术语(例如隐私),确定不同段的属性将是“容易的”,因为这是一个分类问题。由于我想将多个术语聚集在一起,我正在努力为我的数据建模,因为这意味着我每人有多个记录(他们可以谈论多个术语)。

假设:您可以假设我每学期每人有一个记录。

2个回答

聚类算法可以采用任何数据类型,只要它是可测量的,理想情况下不应该是字符串(可以使用主题转换为向量)。如果您告诉我您使用的是什么应用程序,我可以指导您逐步进行操作

如果您只是在寻找一种数据模型,那么这个模型应该可以满足您的要求:

    Person
    -------------------
    PersonId
    Age
    Gender
    Country
    Etc
    --------------------

    Person_Conversation
    --------------------
    PersonId
    ConversationId
    --------------------

    Conversation
    --------------------
    ConversationId
    ....
    --------------------

    ---- if a sentence can be part of more than one conversation
    ---- use:

    Conversation_Sentence 
    --------------------
    ConversationId
    SentenceId
    --------------------

    Sentence
    --------------------
    SentenceId
    Keyword
    Polarity
    --------------------

    ----Otherwise use:

    Sentence
    --------------------
    SentenceId
    ConversationId
    Keyword
    Polarity
    --------------------