机器算法验证 - 混合文本和数字数据 - 吾爱随笔录

机器算法验证机器学习分类数据挖掘文本挖掘

2022-03-28 01:37:08

我必须根据包含文本和数字数据的数据训练一个包含 15 个类的分类模型。例如：产品描述（文本）、产品长度'（数字）。我有文本挖掘的经验，但仅限于文本数据。我的方法是将文本数据和数字数据分开，创建 dfm，然后将其与数字数据合并。但我对其他更好的方法持开放态度。

2个回答

您在这里有两个主要选择：

正如您所说，从文本描述中创建一些数字特征并将其与其余数字数据合并。从文本描述中创建的特征可以是文档术语矩阵（是否使用 tf-idf），可以是 SVD 组件，甚至可以是平均词向量（查找 word2vec 等）。
您可以构建两个单独的分类器（一个仅使用文本数据，一个仅使用数字），然后使用一些元建模组合它们的输出。

我认为有一个比已经建议的解决方案更令人满意的解决方案，它创建一个单独的模型来正确处理两种输入数据及其与输出类的关系。使用像 RNN 这样的序列模型将文本转换为一种嵌入。该嵌入输出直接用作密集层的输入，该密集层也将非文本数据作为输入。

将其放入一个模型的好处是您可以仅依靠反向传播来学习输出类对两种输入的正确依赖程度，并让它与最终分类器联合训练 RNN。无需增加集成的复杂性。

有关详细信息，这里有一个很好的教程：

其它你可能感兴趣的问题