目的 为解决损伤时间推断模型法医实践性不强、可解释性缺乏的问题,应用SHAP算法构建特征可解释机器学习模型,为损伤时间推断提供新策略.方法 基于前期发现与骨骼肌损伤时间密切相关的35 个基因相对表达量,利用多层感知器(Multilayer Perceptron,MLP)、随机森林(Random Forest,RF)、LightGBM(LGBM)和支持向量机(Support Vector Machine,SVM)4 种算法构建损伤时间推断模型.应用SHAP(SHapley Additive exPlanation)算法对模型进行基因特征重要性排序,剔除冗余特征,比较并获得损伤时间推断最优模型.基于SHAP的局部解释对最优模型提取到的基因特征进行了个性化评估和分析.结果 经过SHAP特征筛选后,MLP算法表现最佳.仅用15个基因特征,就能准确预测损伤时间段为4 h~12 h、16 h~24 h、28 h~36 h、40 h~48 h,受试者工作特征曲线下面积(Area Under the Curve,AUC)为 0.99.SHAP结果显示与损伤时间推断最相关的基因是Fam210a.局部分析进一步揭示了Fam210a基因的高水平表达有助于增加4 h~12 h的预测概率;Rae1基因的高水平表达有助于增加 16 h~24 h的预测概率;Tbx18 基因的低水平表达有助于增加 28 h~36 h的预测概率;Tbx18基因的高水平表达有助于增加 40 h~48 h的预测概率.结论 MLP结合SHAP构建的损伤时间推断模型能准确预测损伤时间.此外,使用SHAP可解释器能够更好的理解模型中特征基因对模型预测的贡献度,为进一步深入研究损伤时间奠定基础.
法医病理 损伤时间推断 机器学习模型 SHAP 特征解释
Forensic pathology Wound age estimation Machine learning algorithms SHAP Feature explanation