西奈山伊坎医学院的科学家开发出一款新型人工智能(AI)工具,该工具不仅能够识别致病基因突变,还可预测这些突变可能引发的疾病类型。这款名为 V2P(即 “变异型 - 表型” 模型)的机器学习模型,旨在加快基因诊断进程,并助力复杂疾病与罕见病新疗法的研发。
在《自然・通讯》新近发表的一篇论文中,共同通讯作者尤瓦尔・伊坦博士、阿夫纳・施莱辛格博士及其团队,详细阐述了 V2P 模型的研发与验证过程。研究证实,V2P 模型的预测算法能够在真实及模拟的患者测序数据中精准识别致病性变异;在初步对比测试中,其性能优于其他同类检测方法。

该研究第一作者戴维・斯坦因博士在伊坦与施莱辛格的实验室完成了博士阶段的研究工作,他表示:“我们的方法能够精准定位与患者病情最相关的基因变异位点,无需在数千种潜在变异中逐一筛选。通过同时判定某一变异是否具有致病性、以及它可能引发的疾病类型,我们能够提升基因解读与诊断的效率和准确性。”
在这篇题为《借助表型特异性模型拓展变异效应预测效用》的研究报告中,作者总结道:“V2P 模型实现了人类基因变异与疾病表型的全面映射,构建了一套具有独特针对性的变异效应特征分析体系。”
现有基因分析工具虽可评估某一突变是否具有危害性,却无法判断其可能引发的疾病类型。作者在论文中指出:“高通量测序技术的普及推动了基因数据的激增,其中涵盖大量已发现的人类基因序列变异。” 尽管科研人员正投入大量精力解读这类数据,但绝大多数基因变异的功能仍未被阐明。“当前的变异效应预测方法无法区分会导致不同疾病结局的致病性变异,且因其仅聚焦于具有单一分子层面影响的变异位点,应用范围受到较大限制。”
尽管过去数十年间,随着基因数据的持续积累与检测技术的日趋先进,相关研究已取得长足进展,但研究人员指出:“仍有若干关键局限性制约着变异评估类计算工具的性能发挥。” 例如,大多数工具无法对不同类型的基因变异 —— 如单核苷酸变异(SNVs)与插入/缺失变异(indels)—— 进行跨类型解读。斯坦因及其团队进一步补充道,现有方法还将所有致病性变异归为同一类别,“因此,这类工具在针对特定基因、或具有特殊分子作用机制/疾病表现形式的变异进行分析时,性能可能会大打折扣。”
V2P 模型的研发正是为了填补这一空白。该模型借助先进的机器学习技术,将基因变异与可能对应的表型结果(即突变可能引发的疾病或性状)关联起来,从而有效预测个体的基因序列如何影响其健康状况。
研究人员指出,迄今为止,绝大多数用于预测致病性基因型与表型关联的方法,均停留在基因或蛋白层面;而那些他们称之为 “靶向特定疾病或表型的致病性预测方法”,往往仅适用于少数几种表型或疾病,应用范围十分有限。
作者将 V2P 定义为一款 “多任务、多输出” 的机器学习模型,该模型可对全基因组范围内的 SNVs 与 indels 进行同步分析,同时预测变异的致病性及其对应的广谱表型效应。他们表示:“与仅能笼统评估致病性的传统工具不同,V2P 模型的输出结果包含 24 项数值,每项数值的取值范围均为 0 到 1。这些数值不仅能反映某一变异致病或良性的概率,还可预测该变异引发人类表型本体论(HPO)中‘表型异常’分支下 23 类一级疾病表型的可能性。”
研究团队基于一个包含大量致病性与良性基因变异的大型数据库对该工具开展训练,并纳入疾病相关信息以提升预测准确性。在采用真实的去标识化患者数据进行测试时,V2P 模型多次将真正的致病变异排在候选变异列表的前 10 位,凸显出其在简化基因诊断流程方面的潜力。科学家们报告称:“在三个评估数据集中,针对所纳入的 23 类表型,V2P 模型的表型特异性评分相较于各表型对应的次优方法,平均精度(AP)值提升了 0.16;与所有对比方法在各表型下的平均精度中位数相比,则提升了 0.38。”
西奈山伊坎医学院人工智能与人类健康学、遗传学与基因组科学副教授,查尔斯・布隆夫曼个性化医学研究所核心成员,以及明迪奇儿童健康与发展研究所成员尤瓦尔・伊坦补充道:“V2P 为我们打开了一扇更清晰的窗口,帮助我们理解基因变异如何转化为疾病,这对于科研与临床诊疗均具有重要意义。通过将特定变异与它们最可能引发的疾病类型关联起来,我们能够更精准地确定哪些基因与信号通路值得深入研究。这有助于我们更高效地从解析生物学机制,过渡到挖掘潜在治疗方案,并最终实现基于个体基因图谱的精准干预。”
研究团队在论文中进一步总结道:“综合以上结果可见,V2P 模型的表型特异性分析方法,在结合表型效应开展致病性变异筛选的应用场景中具有实用价值。针对特定表型或疾病的研究,V2P 模型能够为变异效应分析提供独特的视角。”
西奈山伊坎医学院药理学教授、人工智能小分子药物发现中心主任阿夫纳・施莱辛格评论道:“除诊断领域外,V2P 模型还可协助科研人员与药物研发人员,筛选出与特定疾病关联最紧密的基因及信号通路。这将为疾病机制导向的基因靶向疗法研发提供指导,在罕见病与复杂疾病领域的应用价值尤为突出。”
目前,V2P 模型仅能将基因突变归类到神经系统疾病或癌症等宽泛的疾病类别中。研究人员表示,他们计划进一步优化该工具,使其能够预测更具体的疾病结局,并整合更多数据源,为药物研发工作提供支持。
研究人员指出,这项创新成果是迈向精准医疗的重要一步,助力实现 “治疗方案与患者基因图谱精准匹配” 的目标。通过建立基因变异与潜在疾病效应的关联,V2P 模型既能帮助临床医生提升诊断效率,也能为科研人员发掘新的治疗靶点提供线索。研究团队总结道:“我们期待,V2P 模型所提供的全新研究资源,将在未来的科研工作中,以及遗传学领域对相关数据的深入挖掘过程中,为解析致病性变异与表型结局的关联机制带来新的洞见。”
