免疫治疗的新突破：如何利用TCR优化新抗原预测

在癌症免疫治疗领域，个性化治疗方案的选择对提高患者生存率至关重要。新抗原（neoantigens）作为肿瘤特异性抗原，是连接肿瘤细胞与免疫系统的关键桥梁。然而，如何从众多潜在的新抗原中筛选出真正能够激活免疫系统的有效靶点，一直是科研人员面临的挑战。传统上，新抗原的筛选主要依赖于预测肽段与人类白细胞抗原（pHLA）的结合能力。尽管这种方法在一定程度上提高了新抗原识别的准确性，但它忽略了肿瘤细胞与免疫系统之间的动态互动过程。为了克服这一局限性，越南胡志明市医学遗传学研究所的研究团队开发了一种基于机器学习的新算法，通过整合结直肠癌患者的T细胞受体β链（TCRβ）谱型数据，以期实现更精确的新抗原优先级排序。

本文通过结合肿瘤浸润淋巴细胞（TILs）的T细胞受体β链（TCRβ） repertoire与人类白细胞抗原（HLA）和TCR结合的预测模型，提出了一种改进的策略来预测结直肠癌（CRC）中的免疫原性新抗原。研究首先通过对28名CRC患者的分析揭示了肿瘤内部及个体间的TCRβ多样性，并发现MSI-H患者相比MSS患者表现出较低的TCR 克隆数和多样性。接着，利用公开数据库中的免疫相关和非免疫相关的肽片段，通过比较其与HLA和TCR的结合强度，证明了同时考虑这两个因素对于提升新抗原选择准确性的必要性。最后，通过针对四名患者的实验验证，该模型成功识别出更多的免疫反应性新抗原候选分子，显示出比传统基于单一HLA结合预测方法更高的有效性和特异性。这些发现强调了整合TCR和HLA结合信息在提高个性化癌症免疫治疗效果中的潜力。

研究结果

01结直肠癌患者中肿瘤浸润T细胞TCRβ谱型的异质性

通过对28位结直肠癌患者的肿瘤浸润淋巴细胞（TILs）CRD3区进行深度测序，研究发现每个样本平均获得了约2,992,949个有效的TCRβ读数，范围从256,035到10,888,726不等。不同患者的TCRβ克隆型数量差异显著，从433到27,749不等（图1A）。此外研究团队通过计算 28 名患者中重叠的 TCRβ-CDR3 克隆的比例，发现95.1%的TCRβ-CDR3克隆型是唯一的，只在一个患者中找到，而4.9%的克隆型在至少两个患者中重复出现（图2B）。这表明TCRβ克隆型在患者之间和肿瘤内部的显著异质性。尽管大多数TCRβ克隆型为患者特有，但V和J基因段表现出高度重复率，共有59种不同的V段和13种不同的J段，共同分享了185,627个克隆，同时V-J基因组合的多样性显著增加了 TIL TCRβ 库的异质性（图2E）。研究团队观察到MSI-H肿瘤的TCRβ克隆型数量明显低于MSS肿瘤，MSI-H 患者的强新抗原反应具有较低的TCR克隆型数和较低的多样性，这种TCRβ多样性的显著差异暗示着MSI-H 患者中新抗原反应性TCR克隆型的富集。此外，研究还发现克隆多样性与克隆数量呈反比关系，并且约59.5%的克隆型仅有一个独特的条形码读数映射到TCRβ-CDR3序列(图1B)。

总之,研究数据表明CRC患者的TIL TCRβ库在肿瘤内部和患者之间都存在显著的异质性，这种异质性可能是由于V和J段的随机使用以响应新抗原所引起的。

图1

图2

02pHLA和pHLA-TCR相互作用是预测新抗原免疫原性的两个互补决定因素

研究团队从包含免疫原性和非免疫原性 pHLA-TCR 复合物的已建立数据集中收集了 HLA 和 TCRβ 序列，随后，他们使用NetMHCpan和pMTNet等工具来分别预测pHLA和pHLA-TCR结合，并生成了显示预测百分位数排名值的图表，较低的百分位数排名表示更强的结合亲和力。分析结果表明，免疫原性肽的HLA结合百分位排名显著低于非免疫原性肽（<2%），表明强结合亲和力与免疫原性相关（图3A&B）。同时，用pMTNet工具预测pHLA-TCR结合亲和力，发现免疫原性肽的pHLA-TCR结合百分位排名也显著较低（<2%）（图3C&D）。基于NetMHCpan和pMTNet的建议，研究者将预测百分位数排名低于2%的肽段视为结合物。当同时应用pHLA和pHLA-TCR结合的2%阈值时，阳性预测值（PPV）从单独使用时的68.5%和64.3%提高到76.9%（图3F）。这表明结合这两种特征可以提高新抗原预测的准确性。此外，相比于pHLA结合，pHLA-TCR结合具有显著更低的敏感度但更高的特异性（图3G）。

综上所述，尽管pHLA-TCR结合与单独的pHLA结合相比，它表现出较低的敏感性和阳性预测值，但pHLA-T细胞受体结合强度显示出显著的特异性优势（图3G）。这表明将pHLA-T细胞受体结合强度作为筛选标准会降低假阳性的发生率，在新抗原选择背景下这是一个关键因素。

图3

03结合pHLA和pHLA-TCR相互作用改善新抗原预测

为了优化免疫原性新抗原的精度，研究团队使用随机森林（RF）、逻辑回归（LR）和极端梯度提升（XGB）三种机器学习分类器来优化新抗原预测，结果表明XGB模型表现最佳，训练集和验证集的AUC分别为0.82和0.84。结合pHLA和pHLA-TCR特征的模型在敏感性和特异性方面均优于单独使用pHLA或pHLA-TCR特征的模型，特别是在高特异性阈值（>95%和>99%）下，结合模型的敏感性、阴性预测值（NPV）和阳性预测值（PPV）均显著提高。此外，结合模型在验证阶段的排名覆盖率得分（0.37）高于单独使用pHLA-TCR（-0.26）和pHLA（0.25）的方法，表明该模型能够更准确地优先排序免疫原性新抗原。

为验证pHLA-TCR 和 pHLA 联合方法有效性，研究选择了8名患者的外周血单核细胞（PBMCs），并分别使用NetMHCpan和结合模型预测的前3个新抗原候选物进行ELISpot实验，以检测干扰素γ（IFNγ）的释放。结果显示，结合模型预测的7个新抗原候选物中有6个患者至少有一个免疫原性肽，而NetMHCpan方法预测的3个候选物中只有3个被验证为免疫原性。结合模型的排名覆盖率得分（0.04）高于NetMHCpan（-0.37），进一步证明了结合方法的有效性。此外，使用其他公共数据库的数据，结合模型的表现优于NetTCR工具，进一步验证了其在新抗原预测中的优越性。

小结

该研究通过对28位结直肠癌患者的TCRβ谱型分析，揭示了肿瘤内和患者间的高度异质性，发现这种多样性与肿瘤突变密切相关。最后通过实验验证表明，综合模型在识别免疫原性新抗原方面表现出色，尤其在MSI-H患者中显示出更强的相关性和更高的克隆扩增特征。通过整合pHLA结合预测和pHLA-肿瘤浸润淋巴细胞T细胞受体（TIL TCR）结合评估，研究团队开发了一种更精确的新抗原优先级排序方法，显著提高了新抗原预测的准确性，并更好地反映了肿瘤微环境中T细胞的实际活性状态。这一方法有望为个性化新抗原疫苗的设计提供更精准的工具。