序列比对、变异检测与过滤是生成可靠变异集、开展人类疾病基因组分析的关键步骤。目前,针对常染色体已形成最佳实践与分析流程,但性染色体尚无相应规范。
性染色体不完全符合常染色体分析的部分假设,在基因组分析层面的存在独特的挑战(如序列同源性会影响测序片段的定位;X 染色体在 XX 样本中为二倍体,而在 XY 样本中,X 与 Y 染色体大部分区域为单倍体),然而在基因组学研究中却常常未被单独处理。
来自亚利桑那州立大学的研究人员,在美国人类遗传学杂志(The American Journal of Human Genetics)发表最新文章《优化人类性染色体序列比对与变异检测的最佳实践》,针对此前她们提出的可根据样本的性染色体构成(SCC,即判断是否存在 Y 染色体)进行序列比对的 XYalign 流程,验证了新检出的变异的可靠性,并建议在进行变异检测与过滤阈值设置时,应根据样本 SCC 选择对应版本的人类参考基因组,并采用与核型一致的准确倍性参数。
本文通讯作者梅利莎・威尔逊(Melissa Wilson)是一名计算进化生物学家,主要研究方向为性别偏向性生物学。她的研究内容包括性染色体(哺乳动物中的 X 与 Y 染色体)的进化、雌雄个体间突变率存在差异的原因,以及群体演化历史对性染色体与常染色体造成的不同影响。
本方法有助于将性染色体更好地纳入人类疾病遗传学研究,可帮助研究者找到与癌症、心血管疾病、衰老与免疫功能以及阿尔茨海默病等疾病与性染色体变异之间的关联。
以下是本文摘要:
性染色体构成是人类中最常见的核型变异。X、Y 染色体曾是一对同源常染色体。尽管二者已发生分化,但在部分区域仍具有高度序列相似性,例如拟常染色体区(PAR)和 X 染色体转座区(XTR)。
性染色体不完全符合常染色体分析的部分假设,但在基因组学研究中却常常未被单独处理。
本研究通过模拟实验,评估了常规常染色体流程与考虑性染色体构成(sex chromosome complement, SCC)的比对、变异检测及过滤策略,对性染色体上变异检出结果的影响。
研究发现:
依据样本性染色体构成选择对应参考基因组进行序列比对,能够提升拟常染色体区(PAR)的真阳性变异检出数量;仅在 XX 型样本中,X 染色体转座区(XTR)的真阳性变异数也会增加。
与之相反,在 XY 型样本中,比对时对 XTR 区域进行屏蔽会导致假阳性(FP)率升高 10 倍。
对 XY 样本的性染色体采用单倍体变异检测,相比二倍体检测可减少假阳性数量,但不会降低假阴性数量。
提升变异检测准确性有助于发现与健康和疾病研究相关的变异,包括我们在与心肌病、免疫缺陷及阿尔茨海默病相关基因中重新检出的变异。
我们建议未来基因组分析在变异检测时采用以下最佳实践:根据样本的性染色体构成选择对应版本的人类参考基因组进行序列比对,并在变异检测时使用准确的倍性设置。