科学家们终于填补了人类基因组中8%的空白

由:加布里埃尔·哈特利|
人类基因组"width=
超过一半的人类基因组包含重复的DNA序列,其功能仍未完全了解。亚当·高尔特/盖蒂图片社

人类基因组计划他们在2003年宣布他们已经完成了第一个人类基因组,这是一个重大的成就——这是第一次DNA人类生活的蓝图被打开。但这也有一个问题——他们实际上无法把所有的遗传18luck手机登录基因组中的信息。有一些空白:未填充的、经常重复的区域,它们太令人困惑而无法拼凑起来。

随着技术的进步,科学家们终于可以处理这些重复的序列填补了2021年5月的空白第一个端到端的人类基因组是2022年3月31日正式出版

广告

我是一个基因组生物学家他研究重复的DNA序列,以及它们在进化史上如何塑造基因组。18新利最新登入我是帮忙团队的一员描述重复序列从基因组中缺失。现在,有了一个真正完整的人类基因组,这些被发现的重复区域终于第一次被完全探索。

缺失的拼图

德国植物学家汉斯·温克勒创造了“基因组,将“基因”一词与后缀“ome”结合在一起,意思是“完整的集合”,以描述每个细胞中包含的完整DNA序列。一个世纪后,研究人员仍在使用这个词来指代组成有机体的遗传物质。

描述基因组的一种方法是将其与参考书进行比较。在这个类比中,基因组是一本包含生命DNA指令的选集。它由大量的核苷酸(字母)组成,这些核苷酸被包装成染色体(章节)。每条染色体都包含基因(段落),这些基因是DNA区域,编码特定的蛋白质,使生物体发挥作用。

广告

虽然每个生物体都有基因组,但基因组的大小因物种而异。大象使用的遗传信息与它吃的草和肠道中的细菌相同。18luck手机登录但是没有两个基因组看起来一模一样。有些很短,比如昆虫寄生细菌的基因组Nasuia deltocephalinicola在11.2万个核苷酸中只有137个基因。有些,比如开花植物的1490亿核苷酸巴黎粳稻它们太长了,以至于很难知道其中包含了多少基因。18新利最新登入

但传统意义上的基因——为蛋白质编码的DNA片段——只是生物体基因组的一小部分。事实上,他们相互弥补不到人类DNA的2%

人类基因组大约包含30亿个核苷酸和不到2万个蛋白质编码基因——估计占基因组总长度的1%。剩下的99%是不产生蛋白质的非编码DNA序列。有些是调节组件,作为一个总机来控制其他基因的工作方式。18新利最新登入其他人则假基因或失去功能能力的基因组遗迹。

超过一半人类基因组的一部分是重复的,有多个几乎相同的序列副本。

广告

什么是重复DNA?

重复DNA最简单的形式是连续重复的DNA块,称为卫星.而18新利最新登入多少卫星DNA一个特定的基因组因人而异,它们通常聚集在染色体末端称为端粒.这些区域在DNA复制过程中保护染色体不被降解。它们也存在于着丝粒在染色体中,当细胞分裂时,该区域有助于保持遗传信息的完整性。18luck手机登录

研究人员仍然对卫星DNA的所有功能缺乏清晰的了解。但由于卫星DNA在每个人身上形成独特的模式,法医生物学家和系谱学家使用这种模式基因组“指纹”匹配犯罪现场样本,追踪祖先。超过50种遗传疾病与卫星DNA变异有关,包括亨廷顿氏舞蹈症

广告

人类基因组"width=
卫星DNA倾向于聚集在染色体端粒的末端。这里,46条人类染色体是蓝色的,端粒是白色的。

另一种丰富的重复DNA类型是转座的元素或者可以在基因组中移动的序列。

一些科学家将它们描述为自私的DNA,因为它们可以将自己插入基因组的任何地方,而不考虑后果。随着人类基因组的进化,许多转座序列收集突变压抑他们移动以避免有害干扰的能力。但有些人可能仍然可以四处走动。例如,转位元素插入被链接到一些血友病A例这是一种遗传性出血疾病。

但是转座元素不仅仅是破坏性的。他们可以有监管职能帮助控制其他DNA序列的表达。当他们集中在着丝粒中在美国,它们也可能有助于维持对细胞生存至关重要的基因的完整性。

它们还可以促进进化。研究人员最近发现,将一个转座因子插入到一个对发育很重要的基因中,可能就是为什么一些灵长类动物,包括人类,不再有尾巴.由转座因子引起的染色体重排甚至与新物种的形成有关东南亚的长臂猿澳大利亚的小袋鼠

广告

完成基因组之谜

直到最近,这些复杂的区域中的许多都可以与月球的远端相比:已知存在,但不可见。

人类基因组计划这项技术于1990年首次推出,由于技术限制,无法完全揭示基因组中的重复区域。可用的测序技术一次只能读取大约500个核苷酸,这些短片段必须相互重叠才能重建完整的序列。研究人员利用这些重叠的片段来识别序列中的下一个核苷酸,一次一个片段地逐步扩展基因组组装。

广告

这些重复的空隙区域就像把乌云密布的天空中1000块拼图拼在一起:当每一块看起来都一样的时候,你怎么知道一朵云从哪里开始,另一朵云从哪里结束?18新利最新登入由于在许多位点上几乎完全相同的重叠部分,通过零碎的方式对基因组进行完全测序变得不可行。数百万个核苷酸一直隐藏在人类基因组的第一次迭代中。

从那时起,序列补丁逐渐填补了人类基因组的空白。在2021年,端粒-端粒(T2T)联盟这是一个由科学家组成的国际联盟,致力于完成人类基因组从头到尾的组装最后了

这是通过改进的测序技术得以实现的读取更长的序列数千个核苷酸长度。随着更多的信息在更大18luck手机登录的图景中定位重复序列,更容易确定它们在基因组中的适当位置。就像将1000块拼图简化为100块拼图一样,长读序列也做到了这一点组装的可能性第一次出现大面积重复区域。

随着长读取DNA测序技术的日益强大,遗传学家有能力探索基因组学的新时代,首次解开跨越种群和物种的复杂重复序列。一个完整的、无间隙的人类基因组为研究人员研究形成遗传结构和变异、物种进化和人类健康的重复区域提供了宝贵的资源。新利国际网站品牌官网

但一个完整的基因组并不能捕捉全部。继续努力创造多样化的基因组参考,充分代表人口数量而且地球生命.随着更完整的“端粒到端粒”基因组引用,科学家对DNA重复暗物质的理解将变得更加清晰。

加布里埃尔·哈特利是康涅狄格大学分子与细胞生物学的博士候选人。她得到了国家科学基金会的资助。

本文转载自谈话在创作共用许可下你可以在原文在这里。

广告

特色

广告

加载……
Baidu