怀疑文本分类问题的范围

数据挖掘 数据挖掘 聚类 文本挖掘 文本分类
2022-01-30 19:31:57

我有一个数据集,描述了销售各种品牌的卖家。我需要确定这些卖家的来源(他从哪里购买他所销售的品牌)。(数据集维度 11,29,490 行 2 列:卖家和品牌)

例如:示例数据集

我需要每个卖家的唯一实例。也就是说,在每一行中,我必须有一个卖家以及他所销售品牌的所有信息。我的想法是创建使每个独特品牌成为一个特征并创建一个稀疏数据集。但是,我们拥有近 200 万个独特品牌。是否可以进行一些文本分类并提出一些文本集群,然后将每个集群作为一个特征?我不确定这是否是一种正确的方法,我现在没有办法。谁能帮我解决这个问题?

提前致谢

1个回答

如果您有很多以不同方式描述同一品牌的情况,例如“肯德基”、“肯德基”、“肯德基”,那么可能值得使用基于文本相似性度量的集群。这种问题类似于记录联动

但如果不是这种情况,那么尝试根据品牌名称合并品牌将是一个坏主意,因为您最终会得到一组除了名称的某些部分之外没有任何共同点的品牌。

在更一般的层面上,在我看来你的任务设计是有缺陷的:为什么你需要为每个卖家提供一个独特的实例?卖家可以拥有多个品牌,每个品牌都来自不同的来源,对吧?这意味着每个卖家都有多个来源,您打算如何处理?您确定不想预测特定配对卖家 + 品牌的来源吗?