机器算法验证 - 在分类模型中结合文本和非文本特征 - 吾爱随笔录

我是 ML 新手，所以请相应地解释这个问题......我不确定这是否是一个常见问题，或者我是否正在以正确的方式思考这个问题。

这是我正在尝试做的事情：

我有一堆文本片段，我想将它们分类为某些主题。文本片段是支持票的标题，因此例如标题“我的笔记本电脑坏了，请帮忙”可能会被归类为硬件类别，而标题“我想为我的 7 月账单退款”可能会被归类为金融类。

到目前为止，这很简单。但是，我有很多元数据可能对包含在我的模型中很有用。例如，我知道某人成为该公司的客户已有多长时间，这可能是一个特点。我知道每个客户的年龄，这可能是另一个特点。等等。

我不确定的是，将这些元数据功能与文本功能结合起来的最佳方式是什么？对于文本特征，我使用了 tf-idf 之类的东西，所以我将为词汇表中的每个单词设置一个特征，并且由于词汇量很大，特征列表会很长。我想我可以手动将这些元数据特征附加到词汇表的末尾，但是将 10 个特征附加到 100k 个特征长的特征向量上似乎有点荒谬。而且我不确定它是否会正常工作。

FWIW 我正在使用 scikit-learn，但我不确定它是否有任何可以帮助的功能。