我目前正在研究一个用例,其中功能集包含诸如数量之类的数值,以及包含冗长英文文本的评论功能。训练数据和测试数据之间的英文文本会有很大差异。例如'我见过它很好'、'nto ok'、'timepass'等
我如何将文本特征集与数值数据结合起来,并将其提供给机器学习模型?
我将无法使用编码,这些文本变量不是分类值。它们各不相同。
import pandas as panda
from sklearn.feature_extraction.text import TfidfVectorizer
words = ['i hv paid','i dont like','its good','yum yum']
a = panda.DataFrame({'amount':[10,20,30,40],'word':words})
tf = TfidfVectorizer()
csr = tf.fit_transform(words)
#how do i now use my csr to feed both amount and word to my machine learning model
