机器学习在山西省农村地区蛋白尿筛查中的初探

芦园月, 李子良, 李旺鑫, 刘艳琴, 李荣山, 周晓霜

PDF(953 KB)
中华肾脏病杂志 ›› 2023, Vol. 39 ›› Issue (7) : 491-498. DOI: 10.3760/cma.j.cn441217-20221028-01041
临床研究

机器学习在山西省农村地区蛋白尿筛查中的初探

作者信息 +

Preliminary study of machine learning in the screening of proteinuria in rural areas of Shanxi province

Author information +
History +

摘要

目的 筛查山西省农村地区蛋白尿的发生率,构建基于机器学习算法的蛋白尿风险预测模型。 方法 该研究为横断面调查研究。采用多阶段分层抽样方法,筛查2019年4—11月山西省8个地级市(太原、阳泉、临汾、运城、吕梁、晋中、晋城、忻州)农村地区≥30岁的居民,收集居民的问卷调查、体格检查和实验室检查资料。蛋白尿定义为尿白蛋白/肌酐比值≥30 mg/g,统计蛋白尿的发生率。将参与者分为蛋白尿组和无蛋白尿组,分别采用基于堆叠法构建的Logistic回归集成算法(SE-LR)、Logistic回归、支持向量机、决策树、随机森林和极端梯度提升构建蛋白尿和无蛋白尿的机器学习二分类模型。采用受试者工作特征曲线下面积、精准率、召回率和F1加权值评估各模型的预测效能,最后对综合性能最优模型预测特征的重要性排序。 结果 该研究纳入8 869名农村地区居民,年龄为(58.59±9.49)岁,男性3 872例(43.66%),女性4 997例(56.34%),蛋白尿的发生率为13.49%(1 196/8 869)。蛋白尿组参与者血压、脉搏、体重指数、腰围、肥胖或超重比例、高血压比例、摄盐量中重度比例、糖化血红蛋白、尿酸碱度、尿比重、尿潜血阳性比例、尿糖阳性比例、尿酮体阳性比例、尿红细胞数≥5个/μl比例、尿白细胞数≥10个/μl比例及尿α1微球蛋白均高于无蛋白尿组,缺乏运动比例和饮酒史比例均低于无蛋白尿组(均P<0.05)。评估多个模型,SE-LR模型综合性能最优,曲线下面积(0.736,95% CI 0.719~0.746)略低于Logistic回归模型(0.745,95% CI 0.680~0.762),精准率(0.844)、召回率(0.621)及F1加权值(0.801)最高。SE-LR模型中,前10个特征的重要性排序分别为尿α1微球蛋白、尿潜血、尿糖、尿酸碱度、吸烟、超重或肥胖、体重指数、总胆固醇、糖化血红蛋白及高血压。 结论 山西省农村地区蛋白尿的发生率较高,通过机器学习建立的蛋白尿风险预测模型可以预测蛋白尿的发生风险,并识别其风险因素,可在一定程度上为社区和临床的疾病预防、干预和治疗提供科学依据。

Abstract

Objective To screen the incidence of proteinuria in rural areas of Shanxi province and construct a risk prediction model of proteinuria based on machine learning algorithm. Methods It was a cross-sectional investigation study. The residents ≥30 years old in rural areas of Shanxi province from April to November 2019 were screened by multi-stage stratified sampling method, and data from questionnaire surveys, physical examinations, and laboratory examinations were collected. Urine albumin/creatinine ratio ≥30 mg/g was defined as proteinuria, and the incidence of proteinuria was calculated. Subjects were divided into proteinuria group and non-proteinuria group. The machine learning binary classification model of proteinuria and non-proteinuria was constructed based on the stackable integrated logistic regression algorithm (SE-LR), logistic regression, support vector machine, decision tree, random forest and extreme gradient lift algorithms, respectively. The area under the receiver operating characteristic curve, accuracy, recall, and F1 weights were used to evaluate the predictive efficiency of the comparison models. Finally, the importance of the predictive features of the model with the best overall performance was ranked. Results There were 8 869 rural residents included in the study, aged (58.59±9.49) years old, with 3 872 males (43.66%) and 4 997 females (56.34%). The prevalence of proteinuria in rural areas of Shanxi province was 13.49% (1 196/8 869). Blood pressure, pulse, body mass index, waist circumference, proportion of obesity or overweight, proportion of hypertension, proportion of moderate to severe salt intake, glycosylated hemoglobin, uric pH value, urinary specific gravity, proportion of positive urinary occult blood, proportion of positive urinary glucose, proportion of positive urinary ketone body, proportion of urinary red blood cell count ≥5/μl, proportion of urinary white blood cell count ≥10/μl and urinary α1 microglobulin in the proteinuria group were all higher than those in the non-proteinuria group (all P<0.05). The proportions of lack of exercise and drinking history in the proteinuria group were lower than those in non-proteinuria group (both P<0.05). The overall performance of SE-LR model was the best, with the area under the curve (0.736, 95% CI 0.719-0.746) slightly lower than that of the logistic regression model (0.745, 95% CI 0.680-0.762), and the highest accuracy (0.844), recall rate (0.621) and F1 weighting value (0.801). In the SE-LR model, the orders of importance of the top 10 features were urinary α1- microglobulin, urinary occult blood, urinary sugar, uric acid basicity, smoking history,overweight or obesity, body mass index, total cholesterol, glycosylated hemoglobin and hypertension. Conclusions The prevalence of proteinuria is high in rural areas of Shanxi province. The risk prediction model of proteinuria established by machine learning algorithm can predict the risk of proteinuria and identify its risk factors, which can provide a scientific basis for disease prevention, intervention, and treatment in the community and clinic to a certain extent.

关键词

蛋白尿 / 机器学习 / 肾疾病 / 危险因素 / 山西省

Key words

Proteinuria / Machine learning / Kidney diseases / Risk factors / Shanxi province

引用本文

导出引用
芦园月 , 李子良 , 李旺鑫 , 刘艳琴 , 李荣山 , 周晓霜. 机器学习在山西省农村地区蛋白尿筛查中的初探[J]. 中华肾脏病杂志, 2023, 39(7): 491-498. DOI: 10.3760/cma.j.cn441217-20221028-01041.
Lu Yuanyue , Li Ziliang , Li Wangxin , Liu Yanqin , Li Rongshan , Zhou Xiaoshuang. Preliminary study of machine learning in the screening of proteinuria in rural areas of Shanxi province[J]. Chinese Journal of Nephrology, 2023, 39(7): 491-498. DOI: 10.3760/cma.j.cn441217-20221028-01041.
近年来,慢性肾脏病(chronic kidney disease,CKD)的患病率持续上升,预计到2040年,CKD将成为危害全球人类健康的第五大死因1。蛋白尿是CKD的主要症状之一,也是肾脏损伤的独立相关因素2。随机尿白蛋白/肌酐比值(albumin/creatinine ratio,ACR)检测是一种灵敏、简便、快速的诊断蛋白尿的实验室方法。在改善全球肾脏病预后组织指南中,尿ACR水平用于CKD的诊断和分期3。因此,尿ACR检测对于肾脏疾病的筛查和预防具有重要意义4
机器学习(machine learning,ML)是优于传统计算的统计方法,能拟合变量间复杂的非线性关系从而更精准地预测疾病风险。2019年,Zhang等5将ML用于预测重症监护室中少尿性急性肾损伤患者的容量反应性。Xiao等6开发了用于预测CKD进展的ML工具。目前,ML广泛应用于临床决策辅助、疾病预测和个性化治疗等医学研究和实践中。
然而,ML在肾脏疾病的应用研究中关于蛋白尿早期筛查和预防的研究较少。因此,本研究通过检测到的尿ACR对山西省农村地区成人蛋白尿的发病情况进行分析,建立ML模型,预测个体蛋白尿发生的风险,并探讨其风险因素,以期指导农村地区高危人群蛋白尿的早期筛查和制定有针对性的早期干预策略。

对象与方法

1. 研究对象: 本研究为横断面调查研究。采用多阶段分层抽样方法,筛查2019年4—11月山西省8个地级市(阳泉、临汾、运城、吕梁、太原、晋中、晋城、忻州)农村地区的居民。纳入标准:年龄≥30岁的农村地区居民。排除标准:(1)记录资料不完整;(2)不愿意合作;(3)存在药物滥用史;(4)孕妇。所有参与者对本研究均知情同意。本研究获得山西医科大学第五临床医学院伦理委员会的批准(审核文号:【2022】省医科伦审字第372号)。
2. 资料收集: 所有参与者均完成问卷调查、体格检查和实验室检查。问卷调查包括性别、年龄和摄盐量等内容,由本人或其家属填写。体格检查包括身高、体重和血压测量,测量2次,并计算出平均值和体重指数。实验室检查抽取参与者空腹静脉血,检测总胆固醇、三酰甘油、高密度脂蛋白、低密度脂蛋白、糖化血红蛋白、空腹血糖和同型半胱氨酸等,另取晨尿测定尿α1微球蛋白(α1 microglobulin,α1-MG)、尿肌酐、微量白蛋白,计算尿ACR。所有调查人员在项目开展前进行统一培训。所有样本连续3 d重复收集,上机检测后取平均值。数据收集和检测均在当地中心医院完成。
3. 蛋白尿定义: 根据《CKD筛查、诊断、预防和治疗指南》和美国肾脏病基金会的肾脏病预后质量倡议(Kidney Disease Outcomes Quality Initiative,KDOQI)7-8,尿ACR≥30 mg/g定义为蛋白尿。
4. 数据预处理: 删除有数据缺失的样本。根据先验医学知识,对数据中的异常值进行修正(如舒张压应低于收缩压),对分类变量进行编码处理。对数据进行缩放和标准化处理,以减少数据规模、特征和分布差异等对ML模型的影响。
5. 统计学方法: 使用Python 3.7软件进行数据的统计学分析。正态分布的计量资料用x-±s形式表示,采用独立样本t检验进行两组间比较;非正态分布的计量资料用MP 25P 75)形式表示,采用Wilcoxon秩和检验进行两组间比较;计数资料以例(%)表示,采用χ 2检验或Wilcoxon秩和检验进行两组间比较。P<0.05被视为差异有统计学意义。
6. ML模型分析: 本研究基于堆叠法构建Logistic回归(logistic regression,LR)集成算法模型(SE-LR模型),并将其与LR、支持向量机(support vector machine,SVM)、决策树(decision tree,DT)、随机森林(random forest,RF)和极端梯度提升(eXtreme gradient boosting,XGBoost)分类模型进行比较。ML模型通过使用Python软件中的SCIKIT- LEARN库构建9,训练集和测试集的比例为8∶2。在训练集中,使用K-fold交叉验证(K=10),并通过随机搜索获得最优参数组合。SE-LR模型分为2层:第1层是2个LR组成的基分类器,分别接收原始数据中的分类变量和连续变量进行训练,对训练集数据进行预测;第2层以LR为基分类器,将第1层的预测结果作为特征进行训练,完成最终的预测。SE-LR模型结构见图1。蛋白尿风险预测模型流程见图2。使用受试者工作特征曲线下面积(area under the curve,AUC10、精准率、召回率和F1加权值评估各个模型的性能。精准率表示所有预测为正的样本中实际为正样本的概率,召回率表示在实际为正样本中被预测为正样本的概率,F1加权值是精准率和召回率的加权平均值。
图1 基于堆叠法构建的Logistic回归集成算法模型结构
注:P1:分类变量的预测结果;P2:连续变量的预测结果

Full size|PPT slide

图2 蛋白尿风险预测模型流程图
注:SE-LR:基于堆叠法构建的Logistic回归集成算法模型;DT:决策树;LR:Logistic回归;RF:随机森林;SVM:支持向量机;XGBoost:极端梯度提升

Full size|PPT slide

结果

1. 基线资料: 本研究共13 550名参与者,经过数据预处理后,8 869个样本纳入分析。蛋白尿发生为1 196例(13.49%),年龄为(58.59±9.49)岁,男性3 872例(43.66%),女性4 997例(56.34%)。蛋白尿组参与者血压、脉搏、体重指数、腰围、肥胖或超重比例、高血压比例、中重度摄盐量比例、糖化血红蛋白、尿酸碱度、尿比重、尿潜血阳性比例、尿糖阳性比例、尿酮体阳性比例、尿红细胞数≥5个/μl比例、尿白细胞数≥10个/μl比例及尿α1-MG均高于无蛋白尿组,缺乏运动比例和饮酒史比例均低于无蛋白尿组(均P<0.05),其余基线资料的差异均无统计学意义(均P>0.05)。见表1
表1 蛋白尿组和无蛋白尿组基线特征比较
项目 总体(n=8 869) 无蛋白尿组(n=7 673) 蛋白尿组(n=1 196) 统计值(χ²/t/Z P
女性[例(%)] 4 997(56.34) 4 317(56.26) 680(56.86) 0.148 0.700
年龄(岁) 58.59±9.49 58.62±9.50 58.40±9.47 -0.752 0.443
收缩压(mmHg) 134.00(122.50,147.50) 133.50(122.00,147.50) 136.00(124.50,147.63) -2.277 0.023
舒张压(mmHg) 81.5(76.5,89.5) 81.5(76.5,89.5) 83.0(77.0,90.0) -2.875 0.004
脉搏(次/min) 75.0(69.0,82.0) 75.0(69.0,82.0) 75.5(70.0,83.0) -2.294 0.022
体重指数(kg/㎡) 24.70(22.66,26.89) 24.49(22.52,26.67) 25.95(23.74,28.30) -12.741 <0.001
腰围(cm) 85(80,90) 84(80,90) 86(80,93) -5.832 <0.001
缺乏运动[例(%)] 5 139(57.94) 4 485(58.45) 654(54.68) 6.033 0.014
肥胖情况[例(%)] -6.771 <0.001
正常 3 646(41.11) 3 316(43.22) 330(27.59)
肥胖 1 474(16.62) 1 152(15.01) 322(26.92)
超重 3 749(42.27) 3 205(41.77) 544(45.48)
脑卒中[例(%)] 1 085(12.23) 936(12.20) 149(12.46) 0.065 0.799
高血糖[例(%)] 411(4.63) 353(4.60) 58(4.86) 0.145 0.703
高血压[例(%)] 3 903(44.01) 3 330(43.40) 573(47.91) 8.544 0.003
脑血管病史[例(%)] 554(6.25) 483(6.29) 71(5.94) 0.227 0.634
糖尿病[例(%)] 843(9.51) 718(9.36) 125(10.45) 1.440 0.230
房颤或瓣膜性心脏病[例(%)] 51(0.58) 43(0.56) 8(0.67) 0.213 0.644
冠心病[例(%)] 786(8.86) 681(8.88) 105(8.78) -0.109 0.913
吸烟史[例(%)] 1 909(21.52) 1 677(21.86) 232(19.40) 3.701 0.054
饮酒史[例(%)] 1 171(13.20) 1 076(14.02) 95(7.94) 33.377 <0.001
血脂异常[例(%)] 4 818(54.32) 4 173(54.39) 645(53.93) 0.087 0.769
摄盐量[例(%)] -2.620 0.009
轻度 2 234(25.19) 1 913(24.93) 321(26.84)
中度 5 492(61.92) 4 738(61.75) 754(63.04)
重度 1 143(12.89) 1 022(13.32) 121(10.12)
膳食结构[例(%)] 2.105 0.349
动物性食物为主 424(4.78) 376(4.90) 48(4.01)
动植物平衡 5 630(63.48) 4 873(63.51) 757(63.29)
植物性食物为主 2 815(31.74) 2 424(31.59) 391(32.69)
三酰甘油(mmol/L) 1.54(1.10,2.14) 1.54(1.10,2.15) 1.51(1.11,2.13) -0.445 0.656
总胆固醇(mmol/L) 4.35(3.74,5.00) 4.36(3.74,5.01) 4.33(3.72,4.97) -0.923 0.356
低密度脂蛋白(mmol/L) 2.29(1.76,2.86) 2.29(1.76,2.86) 2.24(1.75,2.88) -0.668 0.504
高密度脂蛋白(mmol/L) 1.25(1.09,1.45) 1.25(1.09,1.45) 1.26(1.08,1.44) -0.530 0.596
同型半胱氨酸(μmol/L) 18.30(13.50,28.10) 18.30(13.50,27.80) 18.60(13.48,29.13) -0.855 0.392
空腹血糖(mmol/L) 4.7(4.3,5.3) 4.7(4.2,5.3) 4.8(4.3,5.3) -1.147 0.252
糖化血红蛋白(%) 5.3(5.0,5.7) 5.3(5.0,5.7) 5.4(5.0,5.8) -4.372 <0.001
尿酸碱度(pH值) 6.0(5.0,6.5) 6.0(5.0,6.5) 6.0(5.0,6.5) -4.440 <0.001
尿比重 1.02(1.01,1.02) 1.02(1.01,1.02) 1.02(1.01,1.02) 4.620 <0.001
尿潜血[例(%)] -9.089 <0.001
- 6 195(69.85) 5 482(71.45) 713(59.62)
+ 2 023(22.81) 1 699(22.14) 324(27.09)
2+ 554(6.25) 431(5.62) 123(10.28)
3+ 97(1.09) 61(0.79) 36(3.01)
尿白细胞[例(%)] -1.653 0.098
- 7 028(79.24) 6 096(79.45) 932(77.93)
+ 687(7.75) 606(7.90) 81(6.77)
2+ 556(6.27) 486(6.33) 70(5.85)
3+ 598(6.74) 485(6.32) 113(9.45)
尿糖[例(%)] -14.494 <0.001
- 8 556(96.47) 7 488(97.59) 1 068(89.30)
± 1(0.01) 0(0) 1(0.08)
+ 93(1.05) 60(0.78) 33(2.76)
2+ 81(0.91) 48(0.63) 33(2.76)
3+ 58(0.65) 35(0.46) 23(1.92)
4+ 43(0.48) 25(0.33) 18(1.51)
5+ 37(0.42) 17(0.22) 20(1.67)
尿酮体[例(%)] -2.289 0.022
- 8 759(98.76) 7 586(98.87) 1 173(98.08)
± 99(1.12) 77(1.00) 22(1.84)
+ 8(0.09) 7(0.09) 1(0.08)
2+ 3(0.03) 3(0.04) 0(0)
尿胆原[例(%)] -0.088 0.930
- 8 855(99.84) 7 661(99.84) 1 194(99.83)
+ 8(0.09) 7(0.09) 1(0.08)
2+ 3(0.03) 2(0.03) 1(0.08)
3+ 2(0.02) 2(0.03) 0(0)
4+ 1(0.01) 1(0.01) 0(0)
尿红细胞数≥5个/μl[例(%)] 416(4.69) 326(4.25) 90(7.53) 24.847 <0.001
尿白细胞数≥10个/μl[例(%)] 471(5.31) 375(4.89) 96(8.03) 20.281 <0.001
尿α1微球蛋白(mg/L) 10.5(5.8,16.9) 10.0(5.6,15.7) 15.3(9.1,26.6) -18.375 <0.001
注:1 mmHg=0.133 kPa;数据形式除已注明外,正态分布的计量资料用 x¯±s形式表示,非正态分布的计量资料用MP 25P 75)形式表示
2. 山西省各城市农村地区蛋白尿的发生情况: 8个城市的农村地区中,阳泉市蛋白尿发生率最高[17.62%(221/1 254)],忻州市蛋白尿发生率最低[9.87%(23/233)],见图3
图3 山西省8个地级市农村地区蛋白尿的发生率

Full size|PPT slide

3. ML模型构建和评估: 评估LR、SVM、DT、RF、XGBoost及SE-LR模型的分类性能,SE-LR模型的AUC(0.736,95% CI 0.719~0.746)略低于LR模型(0.745,95% CI 0.680~0.762),精准率(0.844)、召回率(0.621)及F1加权值(0.801)最高,见表2。受试者工作特征曲线见图4
表2 机器学习模型的分类性能评估
模型 AUC 95% CI 精准率 召回率 F1加权值
LR 0.745 0.680~0.762 0.842 0.612 0.742
SVM 0.733 0.690~0.751 0.838 0.571 0.712
DT 0.654 0.634~0.675 0.829 0.531 0.694
RF 0.756 0.697~0.800 0.839 0.094 0.365
XGBoost 0.712 0.680~0.730 0.834 0.308 0.560
SE-LR 0.736 0.719~0.746 0.844 0.621 0.801
注:LR:Logistic回归;SVM:支持向量机;DT:决策树;RF:随机森林;XGBoost:极端梯度提升;SE-LR:基于堆叠法构建的Logistic回归集成算法模型;AUC:受试者工作特征曲线下面积
图4 机器学习模型的ROC曲线
注:LR:Logistic回归;SVM:支持向量机;XGBoost:极端梯度提升;RF:随机森林;DT:决策树;SE-LR:基于堆叠法构建的Logistic回归集成算法模型;AUC:受试者工作特征(ROC)曲线下面积

Full size|PPT slide

4. 特征重要性排序: 基于综合性能最优的SE-LR模型评估预测特征的重要性,前10个特征的重要性排序分别为尿α1-MG、尿潜血、尿糖、尿酸碱度、吸烟、超重或肥胖、体重指数、总胆固醇、糖化血红蛋白及高血压。见图5
图5 基于堆叠法构建的Logistic回归集成算法模型中特征重要性排序
注:直方图描述模型中不同预测特征的重要性比例,通过给每个特征分配0~100的权重来量化相对重要性

Full size|PPT slide

讨论

本研究对2019年山西省8个地级市农村地区≥30岁居民的蛋白尿发生情况进行横断面调查分析,首先计算了各地级市农村地区蛋白尿的发生率,随后利用SE-LR模型预测蛋白尿的发生情况。综合评估,SE-LR模型的综合分类性能优于LR、SVM、DT、RF及XGBoost模型。最后对SE-LR模型中预测特征进行了重要性排序。SE-LR模型可用于评估山西省农村地区蛋白尿的发生风险及探讨蛋白尿的风险因素,为蛋白尿的早期筛查和风险评估提供了新思路。
本研究结果显示,阳泉市农村地区的蛋白尿发生率最高,其次分别是临汾、运城、吕梁、太原、晋中、晋城和忻州,发生率不同可能与空气污染、生活方式等有关。研究发现,大气颗粒物水平较高可能会增加蛋白尿的发生风险11-12。Song等13的研究表明,山西省空气污染较重的城市主要为太原、阳泉、晋城、晋中和临汾,而高水平大气颗粒物是引起空气污染的主要原因。阳泉、吕梁、临汾等地属于产煤区,大气颗粒物水平较高,可能增加蛋白尿的发生风险。此外,山西省地处中国中部,南北生活方式、饮食结构和气候等差异较大。Wakasugi等14的回顾性队列研究显示,生活方式和饮食结构差异影响蛋白尿的发生率,这也可能是不同地区蛋白尿发生率不同的原因。
蛋白尿检测对心血管疾病和CKD的风险分层非常重要,是CKD诊断、分期和管理的核心4。但蛋白尿发生隐匿且知晓率低,因此,早期识别发生蛋白尿的风险因素,对CKD的早期发现和早期管理至关重要。本研究结果显示,SE-LR模型中,前10个特征的重要性排序依次为尿α1-MG、尿潜血、尿糖、尿酸碱度、吸烟、超重或肥胖、体重指数、总胆固醇、糖化血红蛋白及高血压。尿α1-MG作为肾小管性蛋白尿的标志,广泛用于评估近端肾小管损伤。目前,尿α1-MG已被用作肾小管功能障碍的标志物。Jotwani等15发现尿α1-MG较高与估算肾小球滤过率下降和CKD发生有较强的独立相关性,它在早期肾脏疾病的筛查中具有重要意义。尿酸碱度、尿潜血及尿糖可以在一定程度上反映肾小管功能损害,并影响蛋白尿的发生。而吸烟、高血压、肥胖和体重指数是已知的蛋白尿的重要影响因素16-19。大量研究显示,总胆固醇水平与肾小球滤过率有关20-22,这可能是它影响蛋白尿的原因。而糖化血红蛋白常作为血糖的监测指标,其与蛋白尿的相关性研究较少,这是一个有趣的发现,在蛋白尿的常规筛查中,建议未来可以尝试加入糖化血红蛋白这一指标。
本研究构建的SE-LR模型,通过组合3个基分类器LR模型,将分类变量和连续变量分开处理,从而得到一个表现更好、性能更稳定的强分类器,并且预测所用的数据在常规社区调查和临床实践中容易获得。因此,本研究中提出的SE-LR模型可以作为早期蛋白尿的筛查方法。通过预测蛋白尿风险,提高综合预防水平,以提高山西省农村地区肾脏疾病的早期发现率。
本研究也有其局限性。由于当地医疗条件和样本储备条件的限制,本研究未检测血清肌酐以计算估算肾小球滤过率,无法综合评估肾脏疾病的发病情况。此外,本研究缺乏外部验证,后续研究需进一步完善调查,以提高模型的稳定性和适用性。
综上所述,山西省农村地区蛋白尿的发生率较高。开发易使用的蛋白尿风险预测模型对于肾脏疾病的早期发现具有重要意义,对于农村地区开展蛋白尿的早期筛查非常重要,尤其是对高危人群采取一、二级综合防治措施意义重大。建立ML模型预测蛋白尿的发生风险和识别其风险因素,在一定程度上可以为社区和临床的个体化预防、干预和治疗提供科学依据。

参考文献

1
Foreman KJ, Marquez N, Dolgert A, et al. Forecasting life expectancy, years of life lost, and all-cause and cause-specific mortality for 250 causes of death: reference and alternative scenarios for 2016-40 for 195 countries and territories[J]. Lancet, 2018, 392(10159): 2052-2090. DOI: 10.1016/S0140-6736(18)31694-5 .
2
Webster AC, Nagler EV, Morton RL, et al. Chronic kidney disease[J]. Lancet, 2017, 389(10075): 1238-1252. DOI: 10.1016/s0140-6736(16)32064-5 .
3
Levey AS, Coresh J. Chronic kidney disease[J]. Lancet, 2012, 379(9811): 165-180. DOI: 10.1016/S0140- 6736(11)60178-5 .
4
Eknoyan G, Hostetter T, Bakris GL, et al. Proteinuria and other markers of chronic kidney disease: a position statement of the national kidney foundation (NKF) and the national institute of diabetes and digestive and kidney diseases (NIDDK)[J]. Am J Kidney Dis, 2003, 42(4): 617-622. DOI: 10.1016/s0272-6386(03)00826-6 .
5
Zhang Z, Ho KM, Hong Y. Machine learning for the prediction of volume responsiveness in patients with oliguric acute kidney injury in critical care[J]. Crit Care, 2019, 23(1): 112. DOI: 10.1186/s13054-019-2411-z .
6
Xiao J, Ding R, Xu X, et al. Comparison and development of machine learning tools in the prediction of chronic kidney disease progression[J]. J Transl Med, 2019, 17(1): 119. DOI: 10.1186/s12967-019-1860-0 .
7
Inker LA, Astor BC, Fox CH, et al. KDOQI US commentary on the 2012 KDIGO clinical practice guideline for the evaluation and management of CKD[J]. Am J Kidney Dis, 2014, 63(5): 713-735. DOI: 10.1053/j.ajkd.2014.01.416 .
8
National Kidney Foundation. K/DOQI clinical practice guidelines for chronic kidney disease: evaluation, classification, and stratification[J]. Am J Kidney Dis, 2002, 39(2 ): S1-S266.
Suppl 1
9
Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn: machine learning in python[J]. Journal of Machine Learning Research, 2011, 12: 2825-2830.
10
Fawcett T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2005, 27(8): 861-874. DOI: 10.1016/j.patrec.2005.10.010 .
11
Li G, Huang J, Wang J, et al. Long-term exposure to ambient PM2.5 and increased risk of CKD prevalence in China[J]. J Am Soc Nephrol, 2021, 32(2): 448-458. DOI: 10.1681/ASN.2020040517 .
12
Blum MF, Surapaneni A, Stewart JD, et al. Particulate matter and albuminuria, glomerular filtration rate, and incident CKD[J]. Clin J Am Soc Nephrol, 2020, 15(3): 311-319. DOI: 10.2215/CJN.08350719 .
13
Song H, Zhuo H, Fu S, et al. Air pollution characteristics, health risks, and source analysis in Shanxi province, China[J]. Environ Geochem Health, 2021, 43(1): 391-405. DOI: 10.1007/s10653-020-00723-y .
14
Wakasugi M, Kazama J, Narita I, et al. Association between overall lifestyle changes and the incidence of proteinuria: a population-based, cohort study[J]. Intern Med, 2017, 56(12): 1475-1484. DOI: 10.2169/internalmedicine.56. 8006 .
15
Jotwani V, Scherzer R, Abraham A, et al. Association of urine α1-microglobulin with kidney function decline and mortality in HIV-infected women[J]. Clin J Am Soc Nephrol, 2015, 10(1): 63-73. DOI: 10.2215/CJN. 03220314 .
16
Hörner D, Fliser D, Klimm HP, et al. Albuminuria in normotensive and hypertensive individuals attending offices of general practitioners[J]. J Hypertens, 1996, 14(5): 655-660. DOI: 10.1097/00004872-199605000- 00016 .
17
Tozawa M, Iseki K, Iseki C, et al. Influence of smoking and obesity on the development of proteinuria[J]. Kidney Int, 2002, 62(3): 956-962. DOI: 10.1046/j.1523-1755.2002. 00506.x .
18
Sato Y, Fujimoto S, Konta T, et al. U-shaped association between body mass index and proteinuria in a large Japanese general population sample[J]. Clin Exp Nephrol, 2014, 18(1): 75-86. DOI: 10.1007/s10157-013-0809-5 .
19
Nomura I, Kato J, Kitamura K. Association between body mass index and chronic kidney disease: a population- based, cross-sectional study of a Japanese community[J]. Vasc Health Risk Manag, 2009, 5(1): 315-320. DOI: 10. 2147/vhrm.s5522 .
20
Saland JM, Pierce CB, Mitsnefes MM, et al. Dyslipidemia in children with chronic kidney disease[J]. Kidney Int, 2010, 78(11): 1154-1163. DOI: 10.1038/ki.2010.311 .
21
Saland JM, Kupferman JC, Pierce CB, et al. Change in dyslipidemia with declining glomerular filtration rate and increasing proteinuria in children with CKD[J]. Clin J Am Soc Nephrol, 2019, 14(12): 1711-1718. DOI: 10.2215/CJN.03110319 .
22
Idzerda N, Pena MJ, Parving HH, et al. Proteinuria and cholesterol reduction are independently associated with less renal function decline in statin-treated patients; a post hoc analysis of the PLANET trials[J]. Nephrol Dial Transplant, 2019, 34(10): 1699-1706. DOI: 10.1093/ndt/gfy159 .

脚注

http://journal.yiigle.com/LinkIn.do?linkin_type=cma&DOI=10.3760/cma.j.cn441217-20221028-01041

利益冲突声明

所有作者声明无利益冲突

作者贡献声明

芦园月负责实验设计和论文撰写;李子良负责数据收集;李旺鑫和刘艳琴负责图表制作和数据分析;李荣山负责论文质量控制;周晓霜负责论文质量控制及实验设计指导

版权

版权归中华医学会所有。 未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。 除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
PDF(953 KB)

1018

Accesses

0

Citation

Detail

段落导航
相关文章

/