古再丽努尔·赛来阿吉木null, 邹古明, 齐新新, 牛培元, 黄萱, 刘珍, 李素华, 陆晨
目的 利用机器学习方法中的特征基因选择算法,筛选IgA肾病(IgA nephropathy,IgAN)患者肾组织标本中的胆汁酸相关特征基因,探究IgAN发病的分子生物学机制与生物标志物。 方法 从基因表达综合数据库(Gene Expression Omnibus,GEO)下载GSE93798、GSE116626和GSE35487队列基因表达数据和样本分组信息。从分子签名数据库(Molecular Signatures Database,MSigDB)获得胆汁酸相关基因序列。利用R语言鉴定IgAN和健康对照组样本间的差异表达基因。将差异表达基因与胆汁酸相关基因取交集,获得候选基因。使用机器学习中的最小绝对值收敛和选择算法(least absolute shrinkage and selection operator,LASSO)筛选候选基因中的特征基因作为生物标志物,采用受试者工作特性曲线(receiver operating characteristic curve,ROC)和曲线下面积(area under the curve,AUC)评价特征基因诊断IgAN的价值。基因集富集分析法(gene set enrichment analysis,GSEA)分析特征基因与其他所有基因的Spearman相关性及其相关代谢途径。实时定量PCR方法验证IgAN大鼠模型肾组织中的疾病特征基因表达。 结果 从GEO数据库中共获取20例IgAN和22例健康对照肾组织样本基因表达信息;从MSigDB中获取胆汁酸相关基因204个,包括24条通路。基因差异表达分析结果显示,IgAN患者肾组织中有333个基因与健康人群肾组织存在差异性表达,上调表达基因102个,下调表达基因有231个,其中12个差异表达基因与胆汁酸基因相关,分别为:NR1H4、SLC23A1、ALDH8A1、FABP1、ALB、SLC27A2、DIO1、CYP8B1、BBOX1、PIPOX、AKR1C1和SLC10A2基因。LASSO回归算法筛选出5个特征基因:NR1H4、SLC23A1、FABP1、ALB和AKR1C1。ROC分析结果显示,在GSE93798队列基因中,NR1H4、SLC23A1、FABP1及ALB基因差异性表达诊断IgAN的AUC均>0.95,AKR1C1基因差异性表达诊断IgAN的AUC>0.85。GSE35487队列基因中缺少SLC23A1基因表达的数据,其他4个基因的ROC分析结果显示,ALB基因差异性表达诊断IgAN的AUC>0.95,NR1H4基因的AUC>0.70,FABP1和AKR1C1基因的AUC均>0.60。在GSE116626队列基因中,NR1H4、SLC23A1、FABP1、ALB、AKR1C1等5个疾病特征基因诊断IgAN的AUC均>0.60。提示5个特征基因对IgAN组和对照组样本具有一定的区分能力。GSEA分析结果显示,胆汁酸特征基因与“丁酸代谢”“丙酸代谢”“精氨酸和脯氨酸代谢”“缬氨酸亮氨酸和异亮氨酸降解”“脂肪酸代谢”等相关,提示5种特征基因可能通过上述代谢机制与IgAN发生相关。5种胆汁酸特征基因在IgAN大鼠模型中的验证结果显示,模型组肾组织中NR1H4、SLC23A1、FABP1和ALB等4个基因相对表达量均高于对照组(均P<0.05),两组AKR1C1基因相对表达量的差异无统计学意义。 结论 IgAN患者肾组织中胆汁酸相关特征基因存在表达异常,NR1H4、SLC23A1、FABP1和ALB等4个胆汁酸相关差异表达基因有望成为IgAN非侵入性诊断的生物标志物和治疗靶点。