我一直在从不同的来源自学数据科学。我有一个数据集,是我的朋友从她的一门大学课程中发送给我的。这项工作最好在 R 中完成。
描述:它是关于在发展中国家使用传统方法或移动设备作为媒介的金融交易服务使用情况的调查和结果。该研究旨在了解发展中国家男性和女性对金融服务技术的使用情况,以了解他们为此目的使用技术的舒适程度。数据集提供了一个字典,您可以参考列详细信息。数据集很大并且包含许多缺失值。在数据集中,对于男性,他们使用 0,对于女性,他们使用 1。这个问题的目的是您将能够了解如何处理真实数据以提取有价值的信息。
数据集字典:https ://1drv.ms/x/s!ArGTGzC7esWNa25KnJACZTXuGPw
数据集:https ://1drv.ms/u/s!ArGTGzC7esWNbCQevyUWRWhgrl8
给我朋友的任务是:
1)预处理数据
2)您使用了哪些特征工程技术?
3) 预测被调查者的性别。
4) 以一定的概率预测被访者是女性。5)找到与特定性别相关的有趣模式
1)我想知道我可以对数据进行哪些预处理。我可以删除缺失值和重复值,但是对于缺失值存在问题。如果调查对象在宗教栏中选择了其他(DG3A 栏中的值为 96),他们会在下一栏中指定名称。但是,如果他们在 DG3A 列中给出诸如 1(代表基督教)的响应,则下一列中的值将为空。我将如何满足这些缺失的值(实际上并没有缺失,而是不需要填充)?
2)我不确定我应该使用哪些以及如何使用。
任何人都可以指导我使用哪些列以及其余部分如何更好。:)