自测序技术问世以来,利用DNA序列的片段来组装人类、动植物或微生物的基因组就一直是难题。许多参考基因组都存在缺陷,如组装错误或存在缺口。人类参考基因组GRCh38就有数百个缺口,缺失了大约Mb的序列。
随着高精度长读长测序技术的出现,这种状态正在改变。《NatureMethods》杂志上近日发表了一篇题为“Longroadtolong-readassembly”的文章,介绍了基因组组装项目如何受益于这种技术。
NatureMethods:让长读长测序来拯救基填补缺口
文章作者VivienMarx指出,填补基因组上的缺口可以帮助人们比较基因组之间的差异。这些方法不仅适用于人类基因组,也适用于其他生物,比如微生物和脊椎动物。去年,“端粒到端粒联盟(T2T)”成员公布了激动人心的新进展。他们利用CHM13hTERT细胞系,组装了X染色体和8号染色体的完整序列。
CHM13细胞来源于葡萄胎,具有单倍体人类基因组。联盟负责人之一AdamPhillippy表示:“当我们只需要组装一个基因组而不是两个基因组时,问题就大大简化了。”如今,他们已经几乎完成了整个CHM13基因组的组装,只剩下五个缺口。下一步打算完成二倍体人类基因组的从端粒到端粒组装。“从单倍体到二倍体,听起来并不困难,但实际上要复杂得多,”他说。
对付着丝粒
着丝粒一直是极具挑战性的区域。在X染色体上,着丝粒的基本重复单元的长度为bp,而其串联重复序列正是12个单元的组合,长度约为2kb。因为不容易克隆,这些卫星DNA的序列很难获得。T2T联盟另一名负责人KarenMiga表示,一些新的测序技术可以帮助他们实现目标,比如OxfordNanopore和PacificBiosciences。
测序之后还需要组装。将着丝粒及其重复序列组装起来,有点像在玩一块蓝天的拼图,简直让人无从下手。丹纳法伯癌症研究所HengLi实验室开发出了基因组组装工具hifiasm,能够对付着丝粒。同时,加州大学圣地亚哥分校的PavelPevzner实验室最近也开发出了组装着丝粒的算法centroFlye。他表示,centroFlye是“通过在蓝天中寻找一小片白云来进行组装”。
长长长读长
PacificBiosciences和OxfordNanopore都推出了长读长测序技术,读长超过了10kb。以往的数据显示,这些技术很容易出错,但Phillippy认为,现在的情况已经大不相同。PacBio在年推出了基于环状共有序列(CCS)的测序模式,生成了高度准确的HiFireads。他表示,这种技术在检测单个分子上的准确性高达99.9%。同时,与五年前相比,纳米孔测序的准确度也大大提高。
Pevzner认为,这两种技术都可以达到90%以上的准确度。“HiFireads的错误率是每一千个核苷酸有几个错误。纳米孔的超长测序虽然没那么准确,但成本也较低。这种情况正在动态变化。”生物学家目前主要使用短读长技术,但他认为完整组装的未来属于长读长。
组装工具
文章也提到了一些常用的组装工具,如Falcon、Canu、wtdbg2等。不过在HiFireads出现后,人们则主要采用HiCanu和hifiasm工具来进行基因组组装。此外,PacBio的IPA也是专为HiFireads而优化的组装工具。
hifiasm的开发者HengLi也是T2T联盟的成员之一。他认为,准确的长度长技术正在帮助人们解析单倍型。“没多少人意识到我们今天产生的hifiasm/HiCanu组装的质量比一年前高多了,简直就是白天和黑夜的区别。”他表示:“组装领域的目标是实现二倍体样本的从端粒到端粒组装,然后是多倍体基因组和宏基因组,它们更难组装。”
泛基因组和宏基因组
如今,人们已经不再满足于个人基因组研究,而是转向了人类泛基因组(pangenome)研究,即人类群体基因序列的总和。研究人员认为,高度精确的从端粒到端粒组装可更好地了解人类的多样性以及对当地环境的适应。最近涌现出的许多软件工具可帮助人们从组装结果中找到基因组差异。
对于宏基因组分析,研究人员往往将Illumina短片段与OxfordNanopore长片段结合起来,并采用metaSPAdes和metaFlye等工具进行组装。利用这种方法,人们发现的细菌和古细菌数量增加了一倍以上,且数据表现出更大的系统发育多样性。
总的来说,作者认为,高精度的长读长测序正在大大促进基因组组装项目。(生物通薄荷)
来源:生物
进口德国MB品牌,支原体PCR检测试剂盒,细胞培养检测、临床项目申报适用(如CAR-T,细胞治疗等项目).符合欧洲药典放行检测,方法学验证的要求.
本文所用图片及内容均来源于网络收集整理,仅供学习交流,版权归原作者所有,并不代表我站观点。本站将不承担任何法律责任,
如果有侵犯到您的权利,请及时联系我们删除。