k-mer具体是指什么?

发布网友 发布时间:2024-10-23 22:50

我来回答

1个回答

热心网友 时间:2024-10-30 08:42

在基因组/宏基因组测序中,受测序技术读长的,需要将样品总DNA使用鸟法打断成小片段进行测序,拿到测序数据后再利用这些短序列来构建基因组图谱/宏基因组序列。基因组图谱可分为框架图(草图,draft)、精细图、完成图(全图),具体如下所示:框架图:指经生物信息学分析后,拼接得到的基因组覆盖度大于95%,基因区覆盖度达到98%以上,contig N50达到5Kb,scaffold N50达到20Kb,单碱基错误率在十万分之一以下,一般采用小片段文库使用二代测序Hiseq完成。
  精细图:指经生物信息学分析后,拼接得到的基因组覆盖度大于98%,基因区覆盖度达到99%以上,contig N50达到20Kb,scaffold N50达到300Kb,单碱基错误率低于十万分之一,gap数不超过100个,一般采用大片段加小片段文库,使用二代测序Hiseq、Miseq完成。
  完成图:指经生物信息学分析后,拼接得到完整的基因组序列(1个Scaffold,≤5gaps),单碱基错误率低于十万分之一,使用二代、三代测序共同完成。测序数据组装中常见的概念及其含义如下所示:k-mer:是指将一条序列分成包含k个碱基的子字符串,如果reads长度为L,k-mer长度设为k,则产生的k-mers数目为:L-k+1,例如序列AACTGACT,设置k为3,则可以将其分割为AAC ACT CTG TGA GAC ACT共6个k-mers。
  其中k一定是奇数,如果是偶数遇到回文序列可能会产生完全相同的k-mers。Contig:即片段重叠群,指拼接软件基于短序列之间的重叠区(overlap),拼接获得的较长序列。Scaffold:本意即片段框架,由先后顺序已知的Contigs组成的序列,中间有Gap。
  基因组de novo测序中,通过reads拼接获得Contigs后,往往还需要构建454 Paired end库或Illumina Matepair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
  N50:Reads拼接后会获得一些不同长度的Contigs。将所有的Contigs长度相加,获得Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig1,Contig2,Contig3…Contig25。将Contigs按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50,可以作为基因组拼接的结果好坏的一个判断标准。
  此概念很容易被误认为所有Contigs长度排名第50的序列长度,与之类似的有N90,N50与N90同样适用于Scaffolds。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com