在我工作的场景中,每个实体都可以用N个不同的属性来表示,我将它们称为p1、p2、 ...、pn。对于它们中的每一个,一个实体可以为单个属性具有其特定的值范围。实体的属性不能有任何关联的值。
正式地说,给定实体e并调用pk与e关联的特定属性,它可以具有关联的nk个值(nk >= 0)。
这是一个简短的例子:
<entity 1>
director: Tarantino
distributor: Miramax
producer: Bender
starring: Fox, Hannah, Dreyfus, Thurman
<entity 2>
director: Tarantino
distributor: Miramax
producer: Bender
starring: Travolta, Jackson, Thurman
我无法理解如何表示这些实体以供机器学习算法使用。我见过其他一些将多值分类属性转换为多个二元属性的方法。我认为在这种情况下,准确分析每个属性及其所有值至关重要。
创建此方法后,我将能够表示数据集中的所有实体。假设在这种情况下,有用户表达了对某些实体的偏好(只有二元偏好,例如,Tom 喜欢实体 1等等)。使用机器学习算法,我想为每个用户生成一个模型,以便能够了解该用户是否喜欢新实体(新电影)(这可以用 a 中的值表示范围在 0-1 之间)。
在这一点上,我将在这里报告两个不同的问题:
- 什么是表示数据集实体的正确方法?
- 什么是能够使用我拥有的实体生成模型的适当机器学习算法?