快捷搜索:

该丰度表是做菌群研究最为基本的数据,qiime2-

qiime2-2019.1已经发布,程序稳定性越来越好,鉴于官方已经停止支持qiime1,有必要把qiime2的所有细节都理清,学好,这样才能对自己的数据进行实战分析,并将结果运用于实验和生产过程中。发现文档更新也相当快,感谢公众号宏基因组翻译的文档,让我在看许多专业术语方面扫清不少障碍,但是你介于翻译过来的命令却已经过时,还是对照着看最新版的,基本上很少改动,当然,专业英语好的除外。发现需要学习的有几个内容,数据的过滤(嵌合体,非细菌序列,注释级别太少的等),还有就是训练一个适合自己的分类参考数据集,另外就是对于一个样本多个时间采样的结果的分析等,下面一个一个来学习。

Miseq 16S amplicon V3V4 PE300测序是目前菌群结构谱研究最为常用的测序手段。本文将以此类测序的下机数据为例展示“如何从Miseq测序数据中快速提取出可以用来统计分析的菌属相对丰度表”的工作流程。该丰度表是做菌群研究最为基本的数据,要想发文章还必须做大量的统计分析。在以后的文章中我们会继续推出一些统计分析方法,敬请期待!

1.数据的过滤

在分析过程中发现用自己的数据跑出来许多序列只能注释到细菌界,后面不能细分,像这种要过滤掉,刚好发现官方提供了相关的教程和命令,于是直接执行得到结果。教程里面是过滤后保留至少到门的结果,刚好是符合我的需要的,于是参数也不动了。

#过滤没注释到门的序列qiimetaxafilter-table--i-tabletable.qza--i-taxonomytaxonomy.qza--p-includep__--o-filtered-tabletable-with-phyla.qza

软件地址:

2.训练一个适合自己的分类参考数据集

对于一般的科研项目,扩增使用的多是V3V4通用引物341F和806R,但是不少项目使用的是单独V4的引物515F和806R,而且,就是相同位置的引物,还有简并多少的区别,以及覆盖度的多少。因此,如果不是和官方同样的引物,就有必要训练一个适合项目的参考数据集。下面开始我的步骤:

  1. Cutadapt

1)下载并导入参考序列

#greengenes_13_8wget-cftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gzunzipgg_13_8_otus.tar.gz#或者SILVAwget-c

软件地址:

序列拼接、质控、比对、注释

软件版本:QIIME2 2018.4或QIIME2 2018.8

软件地址:

  1. Filezilla

下载Linux环境中的数据或上传数据到Linux环境

软件地址:

  1. QIIME2 view

查看QIIME2输出的以.qzv为后缀的文件

网页地址:

  1. Miseq 16S amplicon V3V4测序下机数据

*R1.fastq,*R2.fastq

p1 -> CCTACGGGNGGCWGCAG

p2 -> GACTACHVGGGTATCTAATCC

  1. 表型文件metadata.txt

准备存放样本信息的表型文件,以tab键为分隔符。可以先在Excel中做表,然后保存为tsv文件。

图片 1

  1. Greengenes细菌16S全长序列数据库

下载地址:

下载得到gg_13_8_otus.tar.gz(最新版,大小为305M)后将其解压得到99_otus.fasta和99_otu_taxonomy.txt两个文件,文件获取如下:

图片 2

图片 3

  1. FastQC质检

1.1. 合并R1、R2

cat *R1.fastq > merge.R1.fastq

cat *R2.fastq > merge.R2.fastq

1.2. FastQC质检

可以使用-t:指定线程数和-o:指定输出位置

fastq -t 8 merge.R1.fastq

fastq -t 8 merge.R2.fastq

1.3. 使用Filezilla下载结果文件并打开

图片 4

  1. Cutadapt切引物

2.1. 检查引物的位置和序列

序列:p1 -> CCTACGGGNGGCWGCAG; p2 -> GACTACHVGGGTATCTAATCC

图片 5

cutadapt -g CCTACGGGNGGCWGCAG -G GACTACHVGGGTATCTAATCC -o *R1.fastq -p *R2.fastq *r1.fastq *r2.fastq --core=2

由下图可见99%以上的Reads都包含引物

图片 6

Reads起始端质量明显提高,末端的低质量碱基可利用下面的DADA2来处理

图片 7

  1. QIIME2数据导入

3.1. 制作manifest.txt列表文件,存放每一个样本的信息,格式如下:

sample-id,absolute-filepath,direction

sample-1,/filepath/sample1_r1.fastq,forward

sample-1,/filepath/sample1_r2.fastq,reverse

sample-2,/filepath/sample2_r1.fastq,forward

sample-2,/filepath/sample2_r2.fastq,reverse

注意不能有空格、换行符、制表符等

qiime tools import

--type 'SampleData[PairedEndSequencesWithQuality]'

--input-path manifest.txt

--output-path manifest.qza

--source-format PairedEndFastqManifestPhred33

qiime demux summarize

--i-data manifest.qza

--o-visualization manifest.qzv

manifest.qzv文件需要从Linux中下载后再拖拽到qiime2 view网页中才能打开。此处可以得到质检矢量图,通过放大观察可以清楚的判断碱基质量明显下降的位置,从而辅助确定下一步中的reads1_cutpoint和reads2_cutpoint。

图片 8

  1. 用DADA2进行切割、去嵌合体、拼接等

4.1. 使用10个线程运行DADA2

为保证碱基质量这里再次要对Reads进行切割。Reads起始端质量很高时N1 N2设为0即可;观察manifest.qzv确定reads1_cutpoint和reads2_cutpoint,这里我将其分别设为275和250。

qiime dada2 denoise-paired

--i-demultiplexed-seqs manifest.qza

--p-trim-left-f N1

--p-trim-left-r N2

--p-trunc-len-f reads1_cutpoint

--p-trunc-len-r reads2_cutpoint

--o-table table.qza

--o-representative-sequences rep-seqs.qza

--o-denoising-stats denoising-stats.qza

--p-n-threads 10

此步骤会生成三个新文件:

denoising-stats.qza是质检统计,如下表;

table.qza是细菌特征丰度表;

rep-seqs.qza是细菌特征代表性序列

4.2. DADA2统计结果可视化

qiime metadata tabulate

--m-input-file denoising-stats.qza

--o-visualization denoising-stats.qzv

最后一列是Clean data,它将被用于下游分析

图片 9

  1. 引物特异性菌群比对数据库

将99_otus.fasta和99_otu_taxonomy.txt两个文件的格式转换QIIME2能识别和利用的格式

qiime tools import

--type 'FeatureData[Sequence]'

--input-path 99_otus.fasta

--output-path 99_otus.qza

qiime tools import

--type 'FeatureData[Taxonomy]'

--input-format HeaderlessTSVTaxonomyFormat

--input-path 99_otu_taxonomy.txt

--output-path 99-taxonomy.qza

5.2. 抽提V3V4模板序列

用测序引物序列从Greengenes数据库中的16S全长序列99_otus.qza中抽提出引物特异性的细菌参考序列,就会得到本研究特异性的参考序列

qiime feature-classifier extract-reads

--i-sequences 99_otus.qza

--p-f-primer CCTACGGGNGGCWGCAG

--p-r-primer GACTACHVGGGTATCTAATCC

--o-reads 99-v3v4-seqs.qza

5.3. 训练V3V4分类器

qiime feature-classifier fit-classifier-naive-bayes

--i-reference-reads 99-v3v4-seqs.qza

--i-reference-taxonomy 99-taxonomy.qza

--o-classifier gg-13-8-99-v3v4-classifier.qza

把DADA2分析得到的细菌特征代表性序列rep-seqs.qza和训练好的分类器gg-13-8-99-v3v4-classifier.qza进行比对,获得具体的细菌分类信息taxonomy.qza

qiime feature-classifier classify-sklearn

--i-classifier gg-13-8-99-v3v4-classifier.qza

--i-reads rep-seqs.qza

--o-classification taxonomy.qza

将细菌特征丰度表table.qza和细菌分类信息taxonomy.qza进行整合获得完整的细菌分类丰度表,包含界、门、纲、目、科、属、种多水平的细菌丰度信息

qiime taxa barplot

--i-table table.qza

--i-taxonomy taxonomy.qza

--m-metadata-file metadata.tsv

--o-visualization taxa-bar-plots.qzv

7.1. 获取属水平菌丰度表

QIIME2 view网页中打开taxa-bar-plots.qzv,下载level6的CSV文件,如下:

图片 10

7.2. 标准化菌属丰度表

把CSV文件导入到Excel中进行标准化,即每个菌属的原始丰度除以该菌所在样本的总菌属丰度得到标准相对菌属相对丰度

图片 11

以上就是我个人总结的“从Miseq测序数据中快速提取出可以用来统计分析的菌属相对丰度表”全部工作流程,如有问题可以留言交流,以后会继续推出“如何利用该菌属相对丰度表进行统计分析”的文章,如有兴趣可以关注。

转自生信草堂公众号,已授权

测序数据请在公众号获取~

本文由银河国际平台网址发布于银河国际最新网址,转载请注明出处:该丰度表是做菌群研究最为基本的数据,qiime2-

相关阅读