首页 >科研 >研究报告
李恒:低复杂度区域中结构变异检出的挑战
发布时间:2025/12/18

摘要

 

背景

 

结构变异(SVs)指长度≥50 bp 的基因组序列差异。即便采用长读长测序技术,这类变异的检出仍具有较大挑战性,且导致检测困难的各项诱因尚未得到充分量化分析。

 

结果

 

本研究在人类基因组参考序列 GRCh38 中鉴定出总长为 35.4 Mb 的低复杂度区域(LCRs)。尽管这些区域仅占基因组总长度的 1.2%,但在 HG002 样本的高可信度结构变异中,有 69.1% 的变异位于该区域内。在各类长读长结构变异检出工具的检测结果中,77.3%–91.3% 的错误检出变异均分布于低复杂度区域,且检测错误率随低复杂度区域长度的增加而上升。

 

结论

 

低复杂度区域内的结构变异分布高度富集,且该区域的变异检出难度较大。对这类变异进行检出与分析时,需采取针对性的优化策略。

 

引言

 

结构变异(structural variants, SVs)是指长度≥50 bp 的基因组变异,这类变异可能具有功能层面的影响 [1]。基于高质量长读长测序序列组装结果的近期研究表明,单个人类个体的基因组中普遍存在 25,000~35,000 个结构变异 [2,3]。由基因组标准品联盟(Genome-In-A-Bottle, GIAB)构建的最新结构变异基准数据集 HG002-Q100 v1.1 [4],在 2.76 Gb 的高置信度区域内包含 28,188 个结构变异,这一数量与近期研究的统计结果相符。

 

与之相对,2020 年发布的早期 HG002 结构变异基准数据集 v0.6 [5],仅在 2.66 Gb 的区域内检出 9,705 个结构变异。若假设 v0.6 版本的检测区域完全包含于 Q100 v1.1 版本的区域内,那么两者约 100 Mb 的区域差异中似乎存在约 18,000 个结构变异。这一推论是否准确?

 

本文研究表明,GIAB 两套结构变异基准数据集的差异,主要由存在重复基序的低复杂度区域(low-complexity regions, LCRs)所导致。早期基准数据集因这类区域的变异难以准确检测,故而排除了大部分低复杂度区域。

 

尽管结构变异检测工具的开发者已注意到低复杂度区域周边的变异检测存在难点 [5,6,7],但尚未对低复杂度区域对变异检测的影响进行系统性量化分析。目前,学界对于低复杂度区域内的结构变异数量,以及该区域变异检测的错误率尚未形成统一结论。本研究结合参考基因组与人类泛基因组参考联盟(Human Pangenome Reference Consortium, HPRC)的基因组组装序列 [2],共同鉴定出低复杂度区域,并利用多款检测工具评估了该区域对结构变异检测工作的影响。

 

讨论

 

低复杂度区域结构变异(LCR SVs)是一类具有独特属性的变异类型。在人类参考基因组 GRCh38 中,剔除 α 卫星重复序列与 HSAT2/3 重复序列后,低复杂度区域(LCRs)仅占基因组总量的 1.2%,但该区域却囊括了超过半数的长读长测序结构变异检出结果,且结构变异检测错误的占比更高。此类检测错误主要源于测序序列比对的不一致性,在长片段低复杂度区域周边,这一问题表现得尤为突出。受低复杂度区域序列比对不确定性的影响,短读长测序的结构变异检测所受干扰可能更为显著。

 

另一方面,研究发现低复杂度区域可能与具有功能效应的基因编码外显子存在重叠 [29],同时还可能参与调控基因的表达过程 [30, 31]。基于此,我们不应将所有与低复杂度区域重叠的结构变异均过滤剔除。

 

针对数据分析人员,我们建议按照低复杂度区域对结构变异进行分层分析 —— 原因在于低复杂度区域的结构变异不仅检测错误率更高,且其形成机制也源于不同的生物学过程。针对检测工具开发者,我们希望强调序列重新比对或局部序列组装在实现精准结构变异检测中的关键作用。采用性能优良的算法,仍可对低复杂度区域内的大部分结构变异实现较高准确度的检出。若能获取高覆盖度的精准长读长测序数据,还可利用单倍型解析组装工具 [32, 33] 对测序序列进行组装,并通过组装序列与参考基因组的比对来识别变异位点 [34]。这类组装工具可在单倍型水平上完成分型与序列比对,其检测效能优于多数结构变异检测工具。事实上,HG002-Q100 基准数据集的变异结果正是通过该方法获得。

 

本研究仅对一份人类样本展开分析。目前主流的结构变异检测工具在应对长片段低复杂度区域时已存在较大挑战,若要整合不同样本间的检测结果,其难度将进一步增加。当单倍型解析组装技术具备可行性时,基于泛基因组的分析方法 [10, 35, 36] 将成为跨样本结构变异检测的优选方案。这类方法通过对多样本序列进行比对分析,能够生成一致性更强的结构变异检测结果。尽管在面对高度变异的低复杂度区域时,该方法仍存在局限性,但在多数情况下,其检测效果优于传统的跨样本变异结果整合策略。