我有一个格式为:
Keywords Disease/Drugs
bradycardia, insomnia, hypotension, hearinglos... NSAIDS Poisoning
vomiting, nausea, diarrhea, seizure, edema, an... NSAIDS Poisoning
pancreatitis, gi, symptoms, restlessness, leuk... Chronic abacavir use (Nucleoside Analog Revers..
ards, apnea, hepatotoxicity, dyspnea, pulmonar... Chronic stavudine and didanosine use (Nucleosi...
有很多数据,但都是这种格式。
将上面的数据转换成格式,展开,按照,
Keywords Disease/Drugs
bradycardia NSAIDS Poisoning
insomnia NSAIDS Poisoning
pancreatitis Chronic stavudine and didanosine use (Nucleosi...
DecisionTreeClassifier
现在我在对 Input 列进行编码后创建了预测系统Keywords
。
此外,我使用以下方法找到了前 10 个预测:
p_probability = model.predict_proba([[t]])
best_n = np.argsort(p_probability, axis=1)[:,-10:]
当我输入单个症状bradycardia
时,它会显示 10 个最佳预测。
此外,当我输入 5 个症状的列表时,它会显示 50 个最佳预测。
由于症状列表可能包含常见疾病/药物,因此我想创建一个系统,当输入任意数量的症状列表时,将仅显示 10 个最佳预测。