怀疑文本分类问题的范围
数据挖掘
数据挖掘
聚类
文本挖掘
文本分类
2022-01-30 19:31:57
1个回答
如果您有很多以不同方式描述同一品牌的情况,例如“肯德基”、“肯德基”、“肯德基”,那么可能值得使用基于文本相似性度量的集群。这种问题类似于记录联动。
但如果不是这种情况,那么尝试根据品牌名称合并品牌将是一个坏主意,因为您最终会得到一组除了名称的某些部分之外没有任何共同点的品牌。
在更一般的层面上,在我看来你的任务设计是有缺陷的:为什么你需要为每个卖家提供一个独特的实例?卖家可以拥有多个品牌,每个品牌都来自不同的来源,对吧?这意味着每个卖家都有多个来源,您打算如何处理?您确定不想预测特定配对卖家 + 品牌的来源吗?
