完全人类基因组首 完整人类基因组首次被破译( 二 )


实际上 , 核心的挑战在于 , 基因组的某些区域反复重复相同的碱基 。重复的区域包括着丝粒和核糖体DNA等 , 过去无法按照正确的顺序组装一些被切碎的片段 。这就像拥有相同的拼图碎片一样 , 科学家们不知道哪块碎片在哪里 , 因此基因组图中留下了很大的空白 。
而且大多数细胞包含两个基因组--一个来自父亲 , 一个来自母亲 。当研究人员试图组装所有的片段时 , 来自父母双方的序列可能混合在一起 , 掩盖了个体基因组内的实际变异 。
如今 , 研究人员通过新的纳米机器设备与核心技术 , 实现了新的无间隙版本T2T-CHM13 , 由30.55亿个碱基对和19969个蛋白质编码基因组成 。增加了近2亿个碱基对的新DNA序列 , 包括99个可能编码蛋白质的基因和其中近2000个需要进一步研究的候选基因 。
这些候选基因大多数是失活的 , 但其中115个仍然可能表达 。团队还在人类基因组中发现了大约200万个额外的变异 , 其中622个出现在与医学相关的基因中 。此外 , 新序列还纠正了GRCh38中的数千个结构错误 。
具体而言 , 新序列填补的空白包括人类5条染色体的整个短臂 , 并覆盖了基因组中一些最复杂的区域 。其中包括在重要的染色体结构中及其周围发现的高度重复的DNA序列 , 如染色体末端的端粒和在细胞分裂过程中协调复制染色体分离的着丝粒 。
此外 , 新序列还揭示了以前未被发现的节段重复 , 即在基因组中复制的长DNA片段 , 并揭示了关于着丝粒周围区域的前所未见的细节 。这一区域内的变异性可能为人类祖先如何进化提供新证据 。
值得一提的是 , 本研究成果的关键进展 , 其实是利用了新的技术设备——英国牛津纳米孔技术公司和太平洋生物科学公司制造的快速迭代的基因测序机器 。
早在2017年 , 国家人类基因组研究中心(NHGRI)负责人Adam Phillippy(亚当·菲利皮) , 以及加州大学圣克鲁兹分校(UCSC)的凯伦·米加意识到 , 新的纳米孔机器实现了一次准确读取100万个DNA碱基的能力 , 可以为最终解决基因组难点打开了大门 。
大约在同一时间 , 华盛顿大学霍华德-休斯医学研究所(HHMI)Evan Eichler(艾希勒)领导的科研团队已经证明 , 使用太平洋生物科学公司的设备技术 , 可以解决更复杂形式的遗传变异技术 。
因此 , 三人一起创办了端粒到端粒(T2T)联盟 , 利用全球约100名科学家团队资源 , 使其加快了研究佳偶 。
随后 , 该团队连续六个月不间断地利用快速迭代的纳米孔基因测序机器 , 并请来几十位科学家来组装这些基因片段并分析结果 。最终利用设备、技术等 , 实现了长读数测序读数 , 并将长读测序与牛津纳米孔的数据相结合 , 准确率超过了99% , 填补了全球基因学研究的空白 。
一直到2020年夏天 , 该团队已经拼上了两条染色体 。在新冠疫情爆发的期间 , 团队通过Slack等通讯工具进行远程工作 , 获得了另外21条染色体 , 将每个染色体从一端或端粒排序到另一端 。而且 , 科研人员人员还试图组装基因组中最难的区域 , 即着丝粒中高度重复的DNA序列 。
最终 , 通过长时间的研究与团队合作 , 该团队成功实现了对每个染色体进行了测序 , 包含了编码用于制造核糖体的RNA的基因的多个拷贝 , 总共400个 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。