您可以使用经典的“Pima Diabetes”数据集,该数据集由美国原住民女性测试为糖尿病阴性/阳性。
(在 R 中,MASS 包中有这个数据集的一些变体(有和没有缺失数据)。)
但是,“diabetes.arff”数据文件也作为样本数据集出现在 Weka 软件中,并且 Weka 内置了一些“属性选择”算法。
如果您了解 Weka,我建议您自己尝试一下。只需单击几下,您就可以了解很多关于您的数据集的信息(当然,没有得到明确的答案)。
我添加了一个截图来说明我的方法。

Weka 从小的“Weka GUI 选择器”窗口开始。我打开了 Weka Experimenter (1),然后出现了大窗口。
我已经导入了文件(在“预处理”选项卡 (2) 中)。我刚刚加载了它,没有应用任何预处理,因为数据集已经很干净了。
在 (3) 中,我选择了“选择属性”选项卡,并尝试了一些 Weka 的算法。数字 4,5,6 表示我必须单击的按钮。
(7) 显示我上次运行的——“GainRatioAttributeEval”方法,该方法是Weka结合“Ranker”方法对结果进行加权。
主面板 (8) 显示了该算法认为最重要的属性/特征,按重要性排序:
=== Attribute selection 10 fold cross-validation (stratified), seed: 1 ===
average merit average rank attribute
0.104 +- 0.008 1.1 +- 0.3 2 plas --- Blood plasma
0.092 +- 0.008 1.9 +- 0.3 6 mass --- Body mass
0.067 +- 0.009 3.1 +- 0.3 8 age --- age
0.052 +- 0.005 3.9 +- 0.3 1 preg ---
0.04 +- 0.003 5 +- 0 5 insu ---
0.02 +- 0.011 6.4 +- 0.66 7 pedi ---
0.016 +- 0.011 7.1 +- 0.7 4 skin ---
0.009 +- 0.009 7.5 +- 0.67 3 pres ---
# Column Positions in the original datatable:
% 1. Number of times pregnant
% 2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test
% 3. Diastolic blood pressure (mm Hg)
% 4. Triceps skin fold thickness (mm)
% 5. 2-Hour serum insulin (mu U/ml)
% 6. Body mass index (weight in kg/(height in m)^2)
% 7. Diabetes pedigree function
% 8. Age (years)
% 9. Class variable (0 or 1)
所以这个属性选择算法认为前 3 个重要属性(按顺序)是#2、#6、#8。这些是 2. 血浆、6. 体重指数和 8. 年龄。对我来说听起来很合理。
请记住,这是一个理想化的例子。
您的数据集包含多少缺失数据?你没有告诉我们。我认为您的患者数据将非常稀疏,并且数据集将包含许多空单元格。我认为当缺失数据值很少时,许多属性选择算法效果最好。