毕业论文
您现在的位置: 在线软件 >> 在线软件资源 >> 正文 >> 正文

微生物组测序数据如何分析

来源:在线软件 时间:2022/8/11

你知道吗?居住在我们肠道内的细菌数量,是人体细胞总数的10倍之多!我们每天排出的粪便中,50%以上的干重量是由这些细菌及其“尸体”构成的。

因此有人打趣的说,从数量上来看,我们人类并不应该被称为人类,而应被称作细菌。如此庞大的细菌群体驻扎在肠道内,构成了一个极为复杂的群体,被称作肠道菌群。肠道菌群被认为与人类健康息息相关,据估计,每个人的肠道菌群可包括~种细菌。

近年来,随着高通量测序技术的发展,16SrRNA基因测序技术在细菌的鉴定与分类研究中发挥着越来越重要的作用。

16SrRNA基因普遍存在于细菌细胞,在细菌基因组中位于核糖体小亚基(约bp),该区域兼顾保守性和高变性,含有10个保守区域(ConservedRegions)和9个高变区域(variableRegions),保守区可用于设计引物进行目的片段的扩增,而通过对高变区的分析可以辨别细菌种类。因此,16SrRNA基因被认为是最适于细菌系统发育学研究和物种分类鉴定。目前用于16SrRNA基因深度测序的区域主要有V4区,V3-V4区、和V4-V5区等。

16S分析流程

16S分析流程主要包括:Hiseq/Miseq测序获得的Paired-end(PE)reads拼接成一条序列,对目标序列进行质控过滤,过滤后的序列与参考数据库作比对,去除嵌合体序列得到最终得优化序列。基于优化序列进行OTU聚类分析和物种分类注释,基于OTU聚类结果进行多样性指数分析等等。

数据质控与优化

数据质量评估

根据Fastq文件对测序样品进行数据质量评估(可以参考生信入门:Fasta与Fastq格式文件详解详细了解fastq文件)。单个样品的碱基质量分布如下图所示:

注:横坐标为reads的碱基位置,纵坐标为单碱基平均Phred值。前bp为双端测序序列的Read1的碱基质量值分布情况,后bp为read2的碱基质量值分布情况。

也可以使用一文搞定细菌基因组DeNovo测序分析中提到的fastqc和fastp进行质控。

如果想确定拿到手里的序列fastq序列就是16S的一部分,而不是其他的神马鬼,可以在NCBI的blast上比一比(可参考生信入门:序列比对之blast在线和本地使用)。

序列拼接

根据PEreads之间的overlap采用Flash软件对数据进行拼接。

#注意参数-M,--max-overlap=NUM的设置,根据测序策略和PCR产物的长短决定。

flash-oextendedFragstest_1.fastqtest_2.fastq-M-t8

数据过滤

由于测序过程中会引入错误或者不可靠碱基,严重影响后续分析结果准确性。因此,采用fastx-toolkit工具过滤数据,只保留高质量(Q值=25)的碱基比例大于等于90%的reads。

fastq_quality_filter-h

usage:fastq_quality_filter[-h][-v][-qN][-pN][-z][-iINFILE][-oOUTFILE]

PartofFASTXToolkit0.0.13.2byA.Gordon(gordon

cshl.edu)

[-h]=Thishelpfulhelpscreen.

[-qN]=Minimumqualityscoretokeep.

[-pN]=Minimumpercentofbasesthatmusthave[-q]quality.

[-z]=CompressoutputwithGZIP.

[-iINFILE]=FASTA/Qinputfile.defaultisSTDIN.

[-oOUTFILE]=FASTA/Qoutputfile.defaultisSTDOUT.

[-v]=Verbose-reportnumberofsequences.

If[-o]isspecified,reportwillbeprintedtoSTDOUT.

If[-o]isnotspecified(andoutputgoestoSTDOUT),

reportwillbeprintedtoSTDERR.

fastq_quality_filter-iextendedFrags.fastq-p90-q25-Q33

嵌合体序列检测

嵌合体在遗传学上用以指不同遗传性状嵌合或混杂表现的个体。嵌合体序列的出现会导致测序结果中产生一些实际并不存在的核酸序列,影响结果的可靠性。

因此,可以用usearch64-bit软件进行嵌合体序列的检测及过滤。

usearch64-bit是收费的,主要优势是支持大内存处理海量数据,它是超快的序列分析软件,在序列比对、聚类、操作等多领域广泛应用。

usearch8.0-uchime_refinput.fasta-dbgold.fasta-strandplus-nonchimerasgood.fasta

#-db推荐的数据为"Gold"database(

转载请注明:http://www.0431gb208.com/sjslczl/1257.html