动态突变疾病的30年:我们已知的和仍待解决的(上)



串联重复序列是人类基因组中数量最多的变异类型之一,天然具有多态性且在长度上高度不稳定。重复长度随世代传递扩增是一个公认的进程,这导致了许多人类疾病,主要累及中枢神经系统。迄今为止,已经发现了至少50种疾病与扩增位点相关,受以前方法学的限制,其中一半是在过去的10年间被发现的。现在广泛使用的分子学诊断方法(外显子或基因panel)仍旧存在限制,从而导致漏诊,尤其是对那些非常罕见和(或)临床上无法识别的疾病。大多数这些疾病是通过家系模式发现的,还有一些仍待确认。最近长读长测序技术的发展提供了一个独特的机会来系统性研究串联重复序列和动态突变在人类遗传疾病中的组成。在这篇综述中,作者总结了已有的和最新的关于动态突变疾病的遗传学知识以及这些疾病在病理生理机制的多样性,并概述了个性化治疗的前景。


人类基因组中正常和致病的串联重复序列

人类基因组中包含超过100万个注释的串联重复序列(tandem repeats,TRs)。由于其重复性,TRs在基因组中有最高的突变率,通常是多态性和多等位基因,其中最长的等位基因是最不稳定的。TRs主要分布在非编码区,但在编码区也能发现三核苷酸重复,这种情况通常长度有限。编码区的TRs偶尔可能成为有害移码突变的热点。
TRs通常分为微卫星序列(1-9bp重复;也被称为短串联重复序列(shorttandem repeats, STRs))和小卫星序列(10-99bp),它们共同构成数量可变的串联重复序列(variable number of tandem repeats,VNTRs)和卫星序列(≥100bp重复序列),主要由异染色质和着丝粒组成。STRs已经被广泛用作遗传连锁分析和法医学研究的标记物,但是这类变异仍旧有许多谜团有待研究。人类基因组中的STRs在进化中是新近出现的,人类特有或仅在非常接近的灵长类中出现。大多数STRs是由其它重复元件产生的,例如长散布核元件(long interspersed nuclear element,LINE)和短散布核元件(shortinterspersed nuclear element,SINE),包括Alu元件。这些动态且快速进化的变异如何影响人类基因组的形成在很大程度上仍是未知的,尽管最近的证据表明它们可能在基因表达调控中发挥重要作用。



重复长度随世代传递扩增是一个公认的进程,导致了至少50种已知疾病。最早发现的两个动态突变都位于chrX,于1991年被发现,分别为FMR1基因5`UTR区的CGG重复(导致脆性X综合征)和AR基因1号外显子的CAG重复(导致脊髓延髓肌肉萎缩症)。在接下来的10年出现了一股动态突变的发现浪潮,揭示了超过25种遗传性疾病的发病基础,其中大部分主要影响中枢神经系统。
如最初的发现所示,STR扩增主要有两种:影响编码区的扩增,主要导致蛋白质内异常的聚谷氨酰胺(ployQ,主要由CAG密码子编码)或聚丙氨酸(ployA,由GCN密码子编码),和影响基因非编码区的扩增。CAG三核苷酸重复扩增,包括亨廷顿舞蹈病,脊髓小脑共济失调1型(spinocerebellarataxias type 1,SCA1),SCA2,SCA3,SCA6,SCA7,SCA17和齿状核红核苍白球路易体萎缩症(dentatorubral-pallidoluysianatrophy,DRPLA)通常与含有该蛋白(或部分)的神经元核内蛋白包涵体相关,突变的蛋白(或部分)表现出polyQ延伸。这些包涵体的形成原因是异常的polyQ易于形成β片状结构导致分子间交叉β寡聚并形成不溶性纤维聚集体,这一机制通常被描述为蛋白水平的毒性功能获得。PolyA多肽也能形成β片状结构,但是polyA扩增通常比polyQ小,具有可变效应,可能导致功能获得或缺失,取决于发生突变的基因和蛋白质。
非编码区的动态突变更加多样化,其影响很大程度上取决于基因内重复的类型,长度和位置。它们可能出现在基因的5`UTR,内含子和3`UTR中。位于5`UTR,启动子或其它调节区域的动态突变通常富含GC,如FMR1中的三核苷酸重复(CGG),CSTB中的十二核苷酸重复(CCCCGCCCCGCG)和C9ORF72中的六核苷酸重复(GGGGCC)。大型且通常GC丰富的5`端调控区的动态突变通常(但不是全部)与相应等位基因的高甲基化和基因沉默相关,例如引起脆性X综合征的全突变(>200个拷贝)。内含子区的动态突变大多数是最近才被描述与疾病相关的,涉及不同的长度模体(主要是三,四,五或六核苷酸重复)和GC含量。与疾病相关的3`UTR的动态突变只有2个,分别是强直性肌营养不良1型(DM1)(DMPK 3`UTR区的CTG重复)和SCA8(ATXN8OS 3`UTR区的CTG/CAG重复)。值得注意的是,非编码区,尤其是内含子区的动态突变通过各种不同的机制发挥作用,其中大多数为显性遗传,尽管在一些情况下是隐性的,通常是由于扩增导致基因功能丧失。


遗传早现

显性遗传的动态突变的一个特征是遗传早现,临床表现为随着疾病从一代遗传给下一代而出现发病年龄更早和/或更严重。对于许多动态突变性疾病,包括所有的polyQ和许多非编码区动态突变,重复的数量和发病年龄和/或严重程度呈强相关。重复数越多,发病年龄越早,表型越严重。此外,扩增的重复序列,特别是三核苷酸重复,在减数分裂的过程中倾向于进一步动态扩增。因此,遗传了致病等位基因的受累携带者的后代出现更严重表型或早期发病的风险更高。在一些极端情况下,包括强直性肌营养不良1型(DM1),亨廷顿舞蹈病和某些类型的脊髓小脑共济失调,这些疾病可以在婴儿期或儿童期发病,并且在几年后就会致死,而受累的亲代则表现出一种较为温和的成年发病形式。减数分裂期的重复数增加风险通常随着拷贝数的增加而增加。也有减数分裂期的拷贝数减少的报道,但是与拷贝数增加相比更少见。减数分裂过程中动态突变的不稳定性以及拷贝数较大的等位基因向后代传递受多种因素的影响,包括重复的大小,结构以及亲代的性别和年龄。不连续的重复(例如CGG重复中插入AGG,或CAG重复中插入CAA)比纯粹的重复稳定得多。拷贝数减少可能在男性生殖系细胞中出现的频率更高,因为先天性强直性肌营养不良1型(DM1)是由母亲遗传的,还有FMR1全突变来自母源前突变而不是父源前突变。脆性X综合征男性患者的精子携带前突变,提示在精子发生过程中携带非常长的重复序列可能会通过影响复制完成而受到负性选择。与之相反,青少年型亨廷顿舞蹈病的CAG重复只会由父亲遗传,扩增携带者的精子中可以观察到体细胞变异。
 

体细胞不稳定性

动态突变在有丝分裂中同样不稳定,在每一次细胞分裂的DNA复制期均有出现错误的风险。这一现象最初归因于DNA聚合酶在复制DNA时的滑动,并通过一些重复序列形成稳定折叠结构(如发夹、茎环、十字形和/或四联结构)进一步扩增,这些结构有利于DNA聚合酶暂停。然而,对非分裂细胞的动态突变拷贝数增加和减少的观察表明,其它机制也在发挥作用。来自小鼠模型和受累病人的证据表明,动态突变的体细胞稳定性或不稳定性在很大程度上取决于DNA错配修复过程,并可能影响疾病的进展。这样许多动态突变与体细胞嵌合有关,嵌合的程度通常与动态突变的拷贝数和年龄相关,但是在不同的组织中表现出了很大的差异,在不同的动态突变疾病中表现出不同的模式。被其它重复模式打断通常会使动态突变趋于稳定,使得它们在DNA复制或修复过程中不易发生改变。此外,与不间断的纯粹重复相比,不连续的重复与更温和的表型和/或其它表型相关,如在强直性肌营养不良1型(DM1),脊髓小脑共济失调2型(spinocerebellar ataxias type 2,SCA2)或SCA10中表现出的。
 

奠基者效应

许多动态突变,尤其是拷贝数多的动态突变,与奠基者效应相关,其中扩增的等位基因与一个或显性单倍型相关,并导致相应的疾病出现地理性聚集或在不同人群中患病率差异巨大。例如,DM1在非洲非常罕见,Friedreich共济失调在日本非常罕见。这表明没有扩增的等位基因相对稳定。此外,风险单倍型与同源重复位点的大的正常等位基因连锁不平衡,提示这是一个多步骤的进化过程,最初的历史事件是产生一个大的正常等位基因(前突变),然后作为进一步扩增的储蓄库最终产生致病性等位基因。另一种可能的罕见奠基者效应事件是正常重复中的稳定性插入丢失(例如脆性X位点CGG重复中AGG插入的丢失)。已经证实的奠基者效应动态突变例子包括DM1,Friedreich共济失调,脆性X综合征,脊髓小脑共济失调3型(spinocerebellar ataxias type 3,SCA3),SCA10,C9ORF72相关的额颞叶痴呆和/或肌萎缩侧索硬化症以及Unverricht 和Lundborg肌阵挛癫痫(myoclonic epilepsy of Unverricht and Lundborg,EPM1)。
 

发现策略:仍存的挑战


尽管在1991-2003年,动态突变被认为是人类疾病的一个重要来源,在接下来的5年中没有更多动态突变疾病被发现。在2011年,一个显性遗传的C9ORF72基因中的六核苷酸重复被发现重新引起了一些寻找动态突变疾病的兴趣,这个位点是在2006年于一个大家系中通过连锁分析定位的。但是外显子测序作为最流行的疾病基因检定策略,仍旧限制了动态突变的发现。


事实上,由于串联重复序列(tandem repeats,TRs)的重复性和在人类基因组中大量存在,在全基因组范围内研究TRs非常困难,在很长一段时间内都被RepeatMasker等生物信息学工具所掩盖。包含重复序列的短读长通常被定位到基因组的多个区域,因此被裁剪或丢弃。此外,精确的调用由相同重复序列的多个拷贝组成的多态等位基因的基因型是一个计算上的挑战。因此通常的二代测序流程中不包含TRs的分析,在检测SNP/indel和结构/拷贝数变异之外,还需要特定的工具。现在已经开发了一些专门评估基因组(或外显子组)数据中的拷贝数的生物信息学工具,包括 LobSTR, HipSTR,TREDPARSE,ExpansionHunter,STRetch,GangSTR和exSTRa。但是,到最近为止,这些工具中的大多数只能在特定的基因座上调用特定模式的基因型。最近TRhist和 ExpansionHunter DeNovo的开发改变了这一状况,它们可以在全基因组范围内评估动态突变的存在。但是,没有连锁分析数据或先验假设的基于短读长测序分析动态突变模式仍旧是一个挑战,因为动态突变有诸多可能出现的模式,在人类基因组中数量巨大,并且很难明确区分致病性动态突变和正常的多态性等位基因。因此TRs扩增很可能构成了一个巨大的未开发的致病性变异库。最近的一项研究分析了17231名自闭症谱系障碍患者的串联重复,结果表明,超过2500个基因座的重复扩增总和可能贡献了自闭症风险的2.6%,但统计分析无法区分潜在的高外显率动态突变和多基因低外显率风险因素。



文章来源网络

Contact us

The national hotline

  • Mobile phone:020-8413 8131
  • address:Room 1118, Guangzhou International Sourcing Centre, No. 8 Pazhou
  • E-mail:zhenghe@expozh.com

The organizer

Support unit

Pay attention to our

Scan, pay close attention to us

Scan, focus on weibo

Guangdong ICP for 14058608-5 with Copyright @ 2023 guangzhou exhibition service co., LTD. All rights reserved


Technical support:联享品牌网站建设