我正在尝试创建一个模型,该模型将为我提供最好的部分,从而使序列中的得分最大化。
我的数据(spark rdd)如下所示:
(“丹”,“约翰”,“约翰”,“家伙”,45)
(“约翰”,“丹”,“家伙”,60)
(“家伙”,“家伙”,“家伙”,“家伙”,“家伙”,“家伙”,“家伙”,“家伙” 8)
(“家伙”,“约翰”,“约翰”,“家伙”,“马克”,0)
- 名字的数量是已知的,并且是有限的。
- 最长序列的长度也是已知且有限的。
- 顺序是按出现的顺序,分数是结果。
- 我也有每次发生时特定时间戳的数据。
我正在尝试找到可以最大化我最终得分的最佳组合/最佳部分,(所以我可以说“约翰”对于获得高分至关重要,但“家伙”不是很有效)
任何帮助将不胜感激,在此先感谢!