我试图了解输出变量的两种标签编码技术之间的区别。我已经阅读了一些东西,但仍然无法清楚地了解它们的不同之处。我们也可以将它们应用于自变量。
这是我正在进行的一个项目,我必须Roles为每个观察结果进行预测。大约有 15k 个独特的角色,每个输出变量都有 3-20 个角色组合。这就是二值化器发挥作用的地方。
现在当我这样做时
m=MultiLabelBinarizer()
ytrain=m.fit_transform(ytrain)
yval=m.transform(yval)
这是我收到的警告,但我知道这些标签不存在于我的训练集中,这也可以避免泄漏,但同时这不会影响我的模型的性能。
'Senior Android Engineer', 'Senior Asset Manager', 'Senior Billing Manager', 'Senior Buyer', 'Senior Finance Analyst', 'Senior Manager Technical', 'Senior Nodejs Developer', 'Senior Optometrist', 'Senior Procurement Manager', 'Senior Revenue Assurance', 'Senior Visual Designer', 'Service Delivery Consultant', 'Shop Assistant', 'Site Deployment', 'Software Lead Tester', 'Solar Design Engineer', 'Sous Chef', 'Specialist Support Worker', 'Storage And Backup Engineer', 'Subject Matter Expert Data Science', 'Support Accountant', 'Support Engineer Information Technology', 'Sustainability Coordinator', 'System Support Specialist', 'Systems Developer', 'Team Lead Business Developer', 'Team Leader IT', 'Technical Operations Manager', 'Telecommunications Engineer', 'Telemetry Technician', 'Training and Competence Manager', 'Tutor', 'VP Production', 'Vice President Internal Audit', 'Vice President Investor Relations', 'Visual FoxPro Developer', 'Web Marketing Specialist', 'Web Producer', 'Welding Inspector', 'Work Life'] will be ignored
warnings.warn('unknown class(es) {0} will be ignored'
所以我想知道这是正确的使用方式MultiLabelBinarizer还是有其他处理方式。
感谢任何链接、模块或答案。谢谢!!

