使用 pandas 计算列的值,我得到以下结果:
Human 195
Mutant 62
God / Eternal 14
Cyborg 11
Human / Radiation 11
Android 9
Symbiote 8
Kryptonian 7
Alien 7
Demon 6
Atlantean 5
Alpha 5
Asgardian 5
Cosmic Entity 4
Inhuman 4
Human / Altered 3
New God 3
Animal 3
Saiyan 2
Eternal 2
Frost Giant 2
Human-Kree 2
Demi-God 2
Human / Cosmic 2
Vampire 2
Metahuman 2
Amazon 2
Icthyo Sapien 1
Czarnian 1
Rodian 1
Martian 1
Clone 1
Zombie 1
Maiar 1
Yoda's species 1
Human-Vulcan 1
Zen-Whoberian 1
Mutant / Clone 1
Korugaran 1
Dathomirian Zabrak 1
Parademon 1
Kaiju 1
Flora Colossus 1
Human-Spartoi 1
Yautja 1
Ungaran 1
Human-Vuldarian 1
Neyaphem 1
Xenomorph XX121 1
Bizarro 1
Human / Clone 1
Gungan 1
Bolovaxian 1
Talokite 1
Luphomoid 1
Tamaranean 1
Kakarantharaian 1
Spartoi 1
Strontian 1
Gorilla 1
Name: Race, dtype: int64
我是数据科学的新手,但我认为所有这些值在数据集中只出现一次并不会帮助分类器,那么有没有处理这些值的好方法?我正在考虑将所有出现少于 5 次的值分组,或者我应该删除这些行。顺便说一句,我不知道知道是否重要,但我想将高斯朴素贝叶斯、knn 和逻辑回归应用到这个数据集。此列是预测二进制值的特征。