我一直在寻找一段时间,但没有任何运气 - 希望有更多知识的人可以就我一直在考虑的以下 ML 问题给我一些建议:
假设您试图在电影上映前预测烂番茄“番茄计”的得分。通常,您可以通过编译一些现有电影的特征和标签列表并将其输入到有监督的 ML 算法中来解决此问题。
在此示例中,功能列表将是描述电影的标准指标,例如预算、拍摄时长、演员人数等,而标签是电影的 Tomatometer 得分,以 0 到 100 之间的值给出. 每部电影都可以使用这个分数来表达,但它们单独分布在许多类型、制作国家等,这意味着训练数据中有自然子集。
假设我们的训练数据仅包含属于五种类型的电影(例如动作、惊悚、恐怖、奇幻和纪录片),而我们希望我们的算法适用于该类型以外的电影(例如科幻或动画),但对于出于疑问,我们无法访问这些整个类别。在此示例中,还假设某些特征对某些类型比其他类型更重要,例如,与动画相比,大型演员阵容可能与动作片的得分相关性更高。
转换数据以使其对子组(流派)不变的一般方法是什么,或者这里可以使用什么 ML 算法(如果有的话)?这种情况是否有通用名称(我可以搜索一些关键字?)