三代微生物多样性是基于?PacBio 测序平台,利用单分子实时测序(SMRT Cell)的方法对 marker 基因进行测序,之后通过对 CCS(Circular Consensus Sequencing)序列过滤,得到 Optimization-CCS 进行 OTUs(Operational Taxonomic Units)聚类,并进行物种注释及丰度分析,可以揭示样品的物种构成; 进一步进行α多样性分析(Alpha Diversity)、β多样性分析(Beta Diversity)和显著物种差异分析等等,可以挖掘?样品之间的差异。
目前,微生物多样性研究主要是于编码核糖体RNA的核酸序列保守区进行的。细菌主要是基于16S区,真菌主要基于18S区或ITS区(内转录间区),16S rDNA 是编码原核生物核糖体小亚基rRNA(16S rRNA)的DNA序列,18S rDNA是编码真核生物核糖体小亚基rRNA(18S rRNA)的DNA序列,ITS是编码真核生物核糖体小亚基rRNA的DNA内转录间隔区序列。这些序列中既有保守区又有可变区,保守序列区域反映了生物物种间的亲缘关系,而高变序列区域则能体现物种间的差异。由于18S rDNA在进化速率上比较保守,在系统发育研究中较适用于种级以上阶元的分类。常用作微生物分类研究的ITS分为ITS1和ITS2两种。ITS1位于真核生物核糖体rDNA序列的18S和5.8S之间,ITS2位于真核生物核糖体rDNA序列5.8S和28S之间。由于ITS区在核糖体RNA加工过程中被剪切掉,不发挥功能作用,在进化过程中选择压力较小,进化速率约为18S rDNA的10倍,属于中度保守的区域,利用它可研究种及种以下的分类阶元。另外,也可通过选择引物同时扩增18S rDNA和ITS,通过分析18S rDNA序列,先在较高级别上确定样品的归属,然后根据ITS 序列,将真菌归类到种或亚种水平。
我们对不同类型的样品如:土壤、粪便、肠道、水体等,随机挑选了30个项目对其进行物种注释率进行研发优化,目前采用优化数据库及注释方法的策略,将其种水平平均注释率提升到60%+。二代注释到属和种的平均比例为78%和6%,相同样品采用三代进行注释时,属和种水平平均注释率为95%和60%,注释结果提升非常明显。
测序数据量饱和度
三代微生物多样性是基于PacBio测序平台,利用单分子实时测序(SMRT Cell)的方法对marker基因进行测序。PacBio的CCS模式minPasses≥5,自我矫正,超高准确性。通过对校正后的CCS(Circular Consensus Sequencing)进行OTUs(Operational Taxonomic Units)聚类,并进行物种注释及丰度分析。可以揭示环境样品中物种构成,进一步进行Alpha Diversity、Beta Diversity和组间显著物种差异分析等,可以挖掘样品之间种类和丰度的差异。
统计数据结果显示:单样本5000条CCS即可达到饱和。
建库测序:
提取样品总 DNA 后,根据 16S 全长引物 27F 和 1492R(及其他全长引物),合成带有 Barcode 的特异引物,进行 PCR 扩增并对其产物进行纯化、定量和均一化形成测序文库(SMRT Bell),建好的文库先进行文库质检,质检合格的文库用 PacBio Sequel 进行测序。PacBio Sequel下机数据为 bam 格式,通过 smrtlink 分析软件导出 CCS 文件, 根据 Barcode 序列识别不同样品的数据并转化为 fastq 格式数据。
生信流程:
数据预处理:将 PacBio 下机数据导出为 CCS 文件( CCS 序列使用 Pacbio 提供的 smrtlink 工具获取)后,主要有如下3个步骤:
1)CCS识别:使用?lima v1.7.0软件,通过barcode对CCS进行识别,得到的Barcode-CCS序列数据;
2)CCS长度过滤:使用gd视讯公司自主研发的软件,对Barcode-CCS进行过滤,得到有效序列;
3)去除嵌合体:使用?UCHIME v4.2软件,鉴定并去除嵌合体序列,得到 Optimization-CCS 序 列。
信息分析内容:划分OTU、多样性及差异性分析(具体见分析结果)。
土壤:每管土壤含量大概0.25~0.5g,需保证送样量在1~2g,若土壤含微生物较少,需增加送样量
淤泥:4小时内常温带回实验室中分装至2mL EP管或冻存管中;或用PBS进行清洗,8000g离心10min收集沉淀,分装于2 mL离心管中;每个样品至少2g。
水体:2ml-5ml水体,取样后4小时内(期间4 ℃避光保存)真空抽滤、富集菌体(平行重复 样本可用同一滤膜过滤0.22μm或0.45μm)带有富集菌体的干燥滤膜剪碎或折叠后保存在 2mL或5mL 无菌EP管中。
肠道内容物:在实验对象死亡后,无菌条件下,取出整个肠道,用无菌解剖刀切取所需肠段的内容物。用无菌手术刀挖取内容物,并立即放在冰上进行分装及标记。将已取的样品分装至2mL EP管(无菌)或冻存管(无菌)中,每管组织量为0.5~2g,每个样品分装2~3管备份。
粪便:带上手套收集新鲜的粪便样品,无菌牙签或粪便取样器截取样品中段内部(避免表层中的肠道膜脱落细胞),外部容易污染且细菌DNA由于接触空气可能有降解,将已取的粪便样品分装至2mL EP管(无菌)或冻存管(无菌)中,每管粪便量为0.5~2g,每个样品分装2~3管备份。
所有样本,液氮速冻,-80℃保存,干冰运输
生物学重复≥3
项目类型 |
浓度 |
总量 |
纯度 |
完整性 |
微生物多样性 |
≥10ng/μL(Qubit) |
≥500ng |
扩增条带正常 |
主带清晰,无降解或轻度降解 |
内容 | 项目 | 引物名称 | 序列 | 扩增产物长度 |
全长 | 16S 全长 | 27F | 5′-AGAGTTTGATCCTGGCTCAG-3′ | 1.5K |
1492R | 5′-GGTTACCTTGTTACGACTT-3′ | 1.5K | ||
18S全长 | EukA | 5′-AACCTGGTTGATCCTGCCAGT-3′ | 1.8K | |
EukB | 5′-TGATCCTTCTGCAGGTTCACCTAC-3′ | 1.8K | ||
ITS 全长 | ITS1 | 5′- CTTGGTCATTTAGAGGAAGTAA-3′ | 0.6-0.7K | |
ITS4 | 5′- TCCTCCGCTTATTGATATGC-3′ | 0.6-0.7K |
案例一:水体16S全长
2019年7月,德国的莱布尼茨动物园和野生动物研究所在Scientific Reports上发表运用16S全长的方法研究污水厂流入与流出水体的菌群特性的文章。
废水处理对城市环境中的环境卫生至关重要。然而,废水处理厂(WWTP)收集化学物质,有机物和微生物,包括来自各种来源的病原体和多重抗性细菌,这些细菌可能通过污水处理厂的污水释放到环境中。为了更好地了解污水处理厂的微生物动态,我们使用全长16S rRNA基因序列对德国柏林污水处理厂2月、4月、7月和10月的污水厂流入与流出水体的细菌群落进行了研究和比较。通过污水处理厂处理过程,疾病相关细菌群体的相对丰度从有效性降低,只有军团菌和钩端螺旋体从流入物到流出物的相对比例增加。这表明污水处理厂虽然对肠道细菌有效,但可以富集并释放其他潜在致病菌进入环境中。
案例二:硅藻18S全长多样性
2017年美国的北卡罗来纳大学通过对从西南极半岛分离出的9种硅藻通过形态学表征性状及18S测序鉴定硅藻种类。
研究表明铁氧还蛋白,favodoxin,铁蛋白,视紫红质,质体蓝素,替代线粒体氧化酶,细胞色素c6和ISIP基因存在于大多数(但不是全部)硅藻分支中。最终,通过研究基因库及生理属性,我们可以开始发现影响硅藻分布和丰度的其他细胞机制。
案例三:ITS全长多样性
2019年,高通量测序技术的发展极大地有益于我们对微生物生态学的理解,但产生短读取的方法受到物种水平分辨率和不确定性的影响。在这里,我们优化基于太平洋生物科学的元条码编码协议,涵盖内部转录间隔区(ITS区域)和rRNA基因的部分小亚基,用于物种水平鉴定所有真核生物的阳离子,特别关注真菌(包括Glomeromycota)和Stramenopila(特别是Oomycota)。
基于对爱沙尼亚复合土壤样品和模拟群落的测试,我们提出了最适合的简并引物,ITS9munngs + ITS4ngsUni用于真核生物及其中的选定组,并讨论了基于长读取的真核生物鉴定的利弊。
Beta?多样性分析主要采用?binary jaccard、?bray curtis、?unweighted Unifrac(限细菌)、weighted Unifrac?(限细菌)等4种算法计算样品间的距离,那么这四种算法都有什么差别呢?
非加权的计算方法,主要考虑的是物种的有无,即如果两个群体的物种类型都一致,表示两个群体的样本距离最小;加权方法,则同时考虑物种有无和物种丰度两个问题。比如如样品A由3个物种a和2个物种b组成,样品B由2个物种a和3个物种b组成,则通过非加权方法计算,因为样品A与样品B的物种组成完全一致,都只由物种a和b组成,因此它们之间的样本距离为0。但通过加权方法计算,虽然样品A与样品B的物种组成一致,但物种a和b的数目却不同,因此两个群体的β多样性则并非一致。
基于独立OUT的方法认为OTU之间不存在进化上的联系,每个OTU间的关系平等;基于系统发生树计算的方法,会根据16s的序列信息对OTU进行进化树分类, 因此不同OTU之间的距离实际上有“远近”之分。
OTU(Operational Taxonomic Unit )即分类操作单元,是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。在微生物多样性分析中,根据不?同的相似度水平,对所有序列进行OTU划分,一般情况下,如果序列之间的相似性高于97%?(种水平)就可以把它定义为一个OTU,每个OTU代表一个物种。
主成分分析(Principal Component Analysis,PCA)是一种分析和简化数据集的技术,通过将方差进行分解,将多组数据的差异反映在二维坐标图上;主坐标分析法(Principal coordinates analysis,PCoA)是一种与?PCA?类似的降维排序方法。PCoA与PCA的区别在于PCA是基于原始的物种组成矩阵所做的分析,使用的是欧式距离,仅仅比较的是物种丰度的不同,而PCoA首先根据不同的距离算法计算样品之间的距离,然后对距离矩阵进行处理,使图中点间的距离正好等于原来的差异数据,实现定性数据的定量转换。