我正在尝试处理 quora 发布的数据集,以确定 Question1 是否具有与 Question2 相似的意图
数据集如下所示:
id|question1|question2|is_duplicate
0|什么是投资印度股票市场的分步指南|什么是投资股票市场的分步指南?|0
我想参考Abhishek Thakur 的功能来开始。它说:

根据我的理解,sklearn 的 python 代码将是:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
tfidf_vectorizer = TfidfVectorizer()
data['tf_idf_q1'] = tfidf_vectorizer.fit_transform(data.question1)
data['tf_idf_q2'] = tfidf_vectorizer.fit_transform(data.question2)
data['tf_idf_q1]和data['tf_idf_q2]将针对每个问题引用 2 个模型,如图像的第一部分。
我不确定我将如何实现第二部分?我是否用第一个问题 fit_transform 向量化器然后转换第二个问题?还是我合并 2 个问题然后得到一个矢量化器?如下所示:
merged_questions = pd.DataFrame(data['question1'].map(str) + data['question2'].map(str))
data['tf_idf_q1_q2'] = tfidf_vectorizer.fit_transform(merged_questions)
非常感谢任何输入。