引言
信息技术和运算速度的快速发展,推动了人工智能等热门技术取得突破。同时,随着医疗行业的信息化,产生的医疗数据越来越多。如何将医学数据和不断发展的人工智能技术应用于疾病预防、检测和医疗保健等问题亟待解决,尤其用于回答医学问题是当前研究的一大热点。
与此同时,医学研究已开始从传统的疾病预防转向细胞和基因方面,寻求疾病消灭的根本原因。机器学习算法已广泛应用于各种应用和医学研究。虽然算法种类繁多,但目前使用的主要算法仍是传统算法,如随机森林、逻辑回归等,以及支持向量机,他们都有一个充分的理论。然而,不存在对所有的疾病都为最优的算法,针对不同的疾病需要使用不同的算法。
巨细胞病毒(Cytomegalovirus, CMV)是一种在人群中感染非常广泛的疱疹病毒,在中国成年人中感染率超过95%。初次感染后,CMV在宿主细胞内处于终生潜伏状态,并在功能性免疫系统调控下处于周期性亚临床再激活状态。当严重免疫功能缺陷的患者发生再激活或原发性感染时,导致CMV复制失控出现发热、骨髓抑制和组织侵袭性疾病的临床表现。因此。诊断患者的CMV暴露史具有较大的研究意义。
在本研究中以CMV感染作为模型,我们提出了一种通过T细胞受体β链(TCRβ)高通量测序结果来检测疾病状态的新方法。
结果
CMV相关TCRs的鉴定
Fisher精确检验:基于训练样本队列1中,每个CMV相关TCRβ在每个阳性、阴性样本中出现的样本数,以及没有该序列数据的样本数,建立每个序列的混淆矩阵,计算Fisher精确检验的p值。因此,Fisher精确检验得到的相关序列仅与队列1的训练数据相关,与队列2的测试数据没有直接相关性。
结果
LDA的p值的最佳截断值为10^-4,LR、SVM和RF的p值的最佳截断值为10^-5
图2描述了四种算法的分类有效性指标的性能,测量了四种分类算法的数据。x轴表示P值的不同阈值,y轴表示对应不同阈值的四种算法的评价指标。如图2a所示,LR logistic回归算法的F1得分随阈值的增加呈现先上升后下降的趋势,在阈值为10^-4、10^-5和10^-6时处于较高水平。当阈值增大时,AUC值先增大后随阈值的增大而减小,在阈值为10^-3、10^-4、10^-5时AUC值较高,在10^-4时AUC值最高。FDR错误发现率随阈值的增大先减小后增大,在10^-5时最低。交叉熵损失函数随时间的增加先缓慢减小后迅速增大,最低点是在10^-4,第二个是10^-5。从图2b中可以看出,SVM算法的F1评分随着阈值的增大先增大后减小,在阈值为10^-4、10^-5、10^-6时处于较高水平。AUC值随阈值的增大先增大后减小,在阈值为10^-4和10^-5时AUC值较高。FDR错误率随阈值的增大先增大后减小再增大,在10^-5时达到最高水平0.0851。SVM的交叉熵损失函数随着阈值的增大先减小后增大,在10^-4时最小,低至0.2609。图2c描述了不同阈值的RF随机森林算法与前两种算法相比的趋势。F1评分和AUC仍在开始时增加,然后随着阈值的增加而下降,在10^-4、10^-5和10^-6的中间阈值处处于较高水平。FDR错误发现率和交叉熵损失函数都随着阈值的增加而波动,在10^-3、10^-4、10^-5和10^-6时均较低。由图2d可知,LDA线性判别分析的F1评分和AUC随阈值的增大先增大后减小,在10^-4、10^-5和10^-6的中间阈值处均处于较高水平,在10^-4处达到最高水平。同样,FDR和损失函数随阈值的增大先减小后增大,且均在10^-5处取最小值。
Figure 2.Evaluation metrics of algorithms. The scores of four algorithms of logistic regression (LR,a), support vector machine (SVM,b), random forest (RF,c), and linear discriminant analysis (LDA,d) were based on four evaluation metrics. The purple, red, orange, and blue curves represent the F1 score, FDR, AUC, and cross-entropy loss, respectively, with the first three indicators on the left Y-axis and the cross-entropy loss on the right Y-axis.
结果
4种算法的决策边界
如图3所示,如果一个点落在粉色区域,则表示算法预测为阳性;在天蓝色区域,则表示为阴性。图3a是logistic回归算法的分类图。分割线表示为向上倾斜的直线。分割效果好,错误分类的测试样本点不易被肉眼看到。图3b为SVM算法的分类图和测试样本点的分布。由于采用了性能更好的多项式核函数,SVM算法分割的区域包含了一定程度的圆形结构,在左上角仍有一些区域被归类为阴性。图3c是随机森林算法的分类图。图像的整体分割似乎过于拟合,容易导致模型在训练样本上表现良好,而在测试样本上表现较差。图3d所示的线性判别分析算法的分类图比LR算法更接近直线。划分更加细致平滑,分类效果更加稳定准确。
Figure 3.Scatter plots and area classification lines of testing samples. The figure depicts a scatter plot of positive and negative decision boundaries obtained by the four classification algorithms trained on cohort1 training samples and cohort2 test samples, where the x-axis represents the total number of TCRβ sequence species per sample and the y-axis donates the number of repeat species with associated TCR sequences. The blue dots represent negative samples in cohort 2, and the red dots represent positive samples in cohort 2. The pink and sky blue regions represent the positive and negative regions obtained by training each algorithm’s cohort1 training data, respectively. Figure (a–d) shows the classification graph algorithms and the distribution of test sample points of the LR, SVM, RF and LDA, respectively.
结果
每种算法的最佳性能
我们认为LDA的p值的最佳截断值为10^-4,LR、SVM和RF的p值的最佳截断值为10^-5。在上述最佳截止点的基础上,图4显示了每种算法根据最佳阈值对应的最佳性能所对应的准确性、灵敏度和特异性。x轴的三个坐标从左到右分别是accuracy, sensitivity, specificity,算法LDA, LR, RF, SVM用不同的颜色标记。在最优阈值下,四种算法的准确性没有显著差异,且准确率几乎都在90%以上。其中LR和LDA准确率最高,达到92.86%,SVM准确率为91.96%,RF准确率最低,为89.29%。在灵敏度方面,LDA表现较好,达到95.83%以上,其他三种算法在85% – 88%之间,说明LDA更倾向于基于较高的分类精度将样本分类为阳性。在特异性方面,LR和SVM算法表现较好,均为96.88%,说明这两种算法更倾向于将样本分类为阴性。
Figure 4.LDA and LR perform better on CMV data. Figure depicts the optimal performance of each algorithm corresponding to the optimal threshold value to obtain the accuracy, sensitivity and specificity of each algorithm.
讨论
算法讨论
灵敏度是检测阳性样本的灵敏度程度,特异性是检测阴性样本的灵敏度程度,准确性是准确度的广义度量。灵敏度和特异性都不能过度强调。过分强调灵敏度的重要性容易使分类器过于敏感,增加实际阴性的假阳性率。反之,过分强调特异性容易使分类器过于保守,可能会错过大量的阳性信息。准确性、灵敏度和特异性都受到判断阈值的影响,因此我们通过AUC选择最佳的判断阈值对模型进行分类,并计算相应的准确率。
讨论
研究评价
如上所述,我们的研究创造性地将这四种二分类算法应用于高通量测序后的二维TCRβ阵列,诊断巨细胞病毒的感染史。事实证明,这种方法在实现这一目标方面非常有效。整体逻辑是可以自洽的。此外,我们尝试了不同的算法和不同的参数调整方法,以及用AUC确定的最佳判断阈值来计算准确率,从而大大提高了结果的准确率,平均准确率达到90%以上。
结论
我们的研究证明了四种二分类算法在用受检者独有的TCRβ和CMV相关TCRβ诊断CMV暴露史中发挥重要作用。从AUC评价维度来看,LDA算法在CMV病毒的二维数组中比其他三种算法表现更好。
参考文献
Zhou, K., Huo, J., Gao, C. et al. Applying T-classifier, binary classifiers, upon high-throughput TCR sequencing output to identify cytomegalovirus exposure history. Sci Rep 13, 5024 (2023). https://doi.org/10.1038/s41598-023-31013-z
关于艾沐蒽
杭州艾沐蒽生物科技有限公司由美国芝加哥大学科研团队回国创办,是一家专注于通过解码适应性免疫系统来改变疾病的诊断和治疗,并致力于推进免疫驱动医学领域发展的国家高新技术企业。
艾沐蒽站在适应性免疫系统研究的前沿,自主研发的免疫医学平台可揭示和翻译适应性免疫系统的遗传密码,并能应用于癌症、自身免疫性疾病、传染性疾病等免疫介导性疾病的诊断、监测和治疗中。
ImmunoDiagnostics | ImmunoMonitoring 免疫诊断 | 免疫监控 专注于免疫组高通量测序 长按关注艾沐蒽生物 ImmuHub | Seq-MRD | Seq-SHM Immun-Traq| Immun-Cheq Web:www.immuquad.com Email:Contact@immuquad.com Tel:0571-81061561 Address:杭州市上城区石桥路196号浙江省农创园 4号楼1层