首页 >科研 >研究报告
残余等位基因活性可能是人群队列中 predicted LoF 变异疾病外显率较低的潜在原因
发布时间:2025/11/26

摘要

 

功能丧失变异(Loss-of-function variants, LoFs)可导致严重临床表型,包括常染色体隐性和显性遗传的孟德尔疾病。然而,除少数异常常见的变异(unusually common variants)外,其终身疾病表达风险(lifetime risk for disease expression)尚不明确。

 

这一点在与单倍剂量不足驱动的常染色体显性遗传病相关基因中的 LoFs 尤为突出,此类疾病是最常见的单基因遗传病之一。

 

本研究利用来自两个人群规模生物样本库(UK Biobank 和 All of Us)的约 24,000 名 LoFs 杂合子的电子健康记录(EHRs),探究了与 91 种单倍剂量不足疾病相关的 6,000 余个预测 LoFs(pLoFs)的疾病表达率(disease-expression rates)。

 

与先前研究一致,大多数 pLoFs 杂合子未显示疾病表达证据,这一现象在排除变异注释 artifacts、漏诊和临床数据不完整等因素后仍然存在。

 

尽管无法完全消除 EHRs 数据中的所有 artifacts 和 biases,但我们推测许多此类 pLoFs 本身外显率较低甚至无外显率,这可能由残余等位基因活性驱动。

 

为验证这一假设,我们仅利用基因组特征训练机器学习模型,以预测 pLoFs 的疾病表达风险。

 

验证实验表明,该模型可预测多种疾病和变异(包括诊断检测实验室先前注释为致病性的变异)的 pLoFs 疾病表达率。这提示许多 pLoFs 由于残余等位基因活性,本身外显不全甚至无外显率(即良性),这使得无症状个体的预后评估变得复杂。

 

引言

 

外显子组测序(ES)和基因组测序(GS)目前已成为罕见病诊断的一线检测手段 ¹⁻⁶。鉴于其成功应用,将这些技术应用于无症状个体的兴趣日益浓厚⁷⁻¹⁷,包括在常规诊断检测中偶然发现携带推定致病性变异(presumed pathogenic variants)的个体 ¹⁸。

 

然而,测序技术在预后评估中的实用性仍不明确 ¹⁹⁻²¹。通常,检测的预后实用性通过阳性预测值量化。对于基因检测而言,该统计指标既受基因型检测准确性影响,也与外显率相关 —— 外显率定义为携带疾病相关基因型的个体出现症状的(年龄依赖性)概率。

 

尽管存在局限性,基因型检测准确性相对较高 ²²⁻²³。相比之下,大多数基因型的外显率尚不明确,其范围可从 0(疾病风险无相关增加,即 “良性”)到 1(必然出现疾病表型),且可能随年龄变化,并受多基因背景 ²⁴⁻²⁶和环境暴露 ²⁷等其他因素修饰。

 

在诊断应用中,准确的外显率估计并非关键 —— 患者已表现出疾病表型,因此实验室只需确定变异是否具有致病性(causal)(即致病性 pathogenic)或良性 ²⁸。

 

而无症状病例中的变异解读更为复杂,实验室和临床医生需能够说明这些变异未来引发疾病症状的可能性,这一风险显然与外显率密切相关。

 

外显率估计向来具有挑战性 ²⁹。对于少数异常常见的基因型(通常由奠基者效应导致),可实现准确的外显率估计 ³⁰⁻³³。然而,大多数疾病相关基因型极为罕见,因此其外显率大多未知。

 

人们倾向于将单个或少数特征明确的变异的外显率估计推广至同一基因中的其他变异,尤其是那些预测具有相似分子影响(如功能丧失)的变异,但这一强假设缺乏充分证据支持。

 

近年来,结合电子健康记录与 ES/GS 数据的人群规模生物样本库已广泛可用 ³⁴⁻⁴¹。这些数据集已通过 “基因型优先” (“genotype-first” )策略用于估计疾病表达率⁴²:首先利用现有遗传数据识别携带推定致病性基因型的受试者,然后通过电子健康记录数据回顾性确认其疾病表达情况。

 

尽管存在局限性,这些分析表明推定致病性基因型普遍存在外显不全(incomplete penetrance)现象⁴³⁻⁴⁵。这一发现对无症状个体的基因检测解读具有重要意义,提示许多基因型的阳性预测值可能低至无法接受。

 

尽管如此,生物样本库作为外显率估计资源仍存在局限性,例如表型碎片化、临床数据缺失以及变异注释 artifacts 等可能导致估计值偏低⁴²⁻⁴⁶。

 

此外,变异 “外显” 的精确界定未必明确 —— 携带疾病相关基因型的个体可能表现出轻微的亚临床表型(如携带 FBN1 变异的杂合子表现为异常高大身材),此类个体是否被认定为表达目标疾病,取决于表型分析的全面性和检查者采用的诊断标准。

 

本研究利用电子健康记录数据,探究了一类最简单的潜在致病性突变 —— 单倍剂量不足疾病相关基因中的 pLoFs—— 相关的临床表型表达率。

 

为此,我们对来自两个生物样本库(英国生物样本库³⁷和 AoU 研究计划⁴¹;合并样本量> 700,000)的基因组数据进行统一处理,识别出约 24,000 名可能面临 91 种不同疾病风险的 pLoFs 杂合子。随后,我们利用电子健康记录数据确认每位杂合子的疾病表达证据。

 

总体而言,生物样本库中的 pLoFs 与疾病表型表达相关,但与先前研究一致,其表达率普遍较低。

 

我们探究了可能导致低表达率的多种因素,包括注释 artifacts 、漏诊和临床数据不完整。校正这些因素后,表达率有所上升,但大多数 pLoFs 杂合子仍几乎未显示疾病表达证据。

 

残余注释 artifacts 、表型数据缺失和选择偏倚无疑是导致部分表达率降低的原因,但我们推测许多此类变异实际上本身外显率不高甚至无外显率,这由残余或 “渗漏” (“leaky”)等位基因活性驱动。

 

为验证这一假设,我们利用可能与功能不完全丧失(incomplete loss of function)相关的变异特异性基因组特征,训练机器学习模型以预测 pLoFs 的表达风险。这些模型能够根据多种疾病和变异类型(包括诊断检测实验室先前注释为致病性的变异)的表达风险对 pLoFs 进行分层。

 

这提示被归类为 LoF 的变异实际上可能具有不同程度的残余功能⁴⁷,因此其外显率仍不明确。

 

尽管本研究仅限于单倍剂量不足疾病相关基因中的 pLoFs ,但研究结果可能推广至其他类型疾病(如常染色体隐性疾病)、变异(如错义变异)和遗传机制(如功能获得性变异)。准确传达这种不确定性对于预后基因组检测(包括人群规模筛查项目)的成功至关重要。

 

备注:本文在线发表于2025年11月24日,作者来自加州大学旧金山分校人类遗传学研究所。