使用SMOTE+ENN和机器学习改善慢性心力衰竭不良结局的风险识别
2021年6月,在国际学术期刊Risk Management and Healthcare Policy上以“Improving Risk Identification of Adverse Outcomes in Chronic Heart Failure Using SMOTE+ENN and Machine Learning”为题在线发表了山西医科大学公共卫生学院张岩波教授团队的研究论文。
心力衰竭对生活质量的损害几乎超过任何其他慢性病。准确识别预后风险对于以患者为中心的照料至关重要,无论是在选择治疗策略方面,还是在告知患者作为共同决策的基础方面。虽然已发表的报告中有大量不同的模型来识别心衰患者的死亡或住院风险,但该研究从几个重要的方面扩展了这方面的知识。首先,大多数标准算法假设或期望均衡的类分布或相等的误分类代价。当出现不平衡的数据集时,这些算法不能正确地表示数据的分布特征,因此在数据的各个类之间提供了不利的准确性。不幸的是,在生物医学领域,不平衡的数据无处不在,这给我们探索疾病风险识别模型带来了新的挑战。如果忽略类别不平衡的问题,利用不平衡数据集建立的风险识别模型往往会对多数类别设想更高的准确率。研究表明,对于几种基本分类器,与不平衡数据集相比,平衡的数据集比所有分类器的性能都更好。因此,有必要在建模前采用有效的预处理方法对失衡进行处理,以提高模型精度。该研究使用SMOTE+ENN对数据进行预处理。除了数据不平衡的问题,该方法还解决了SMOTE算法容易出现数据重叠和噪声的问题。其次,以前的大多数模型都是使用传统的统计方法开发的。然而,新的替代方案,例如基于ML的模型,仍然没有得到的使用。先进的统计工具和ML方法可以以多种方式提高传统统计技术的风险识别能力。在我们的研究中,除了先进的ML模式,其他知识已被证明能够有效地提高风险识别模型的性能也被使用,如missForest、RFECV等。
Figure1Categorization threshold of Prediction score(left)and predictiondistributions of adverse outcomes in patients withHF(right).
Figure2SHAP summary plots for the risk of adverse outcomesinpatients with HF.The importance ranking of the top 20 risk factors withstability and interpretation usingSME-XGBoostmodel.The SHAP value (x axis) is a unified index responding to the impact of a feature in the model. In each feature importance row, all patients’ attribution to outcome were plotted using different color dots, in which the red dot represented highriskvalueand the blue dotrepresentedlowriskvalue.
山西医科大学公共卫生学院2018级博士研究生王可为文章第一作者,山西医科大学公共卫生学院张岩波教授和山大一院韩清华教授为共同通讯作者。该工作得到国家自然科学基金、重大疾病风险评估山西省重点实验室等多方资助。