微生物学 代时计算计算题

基于代谢组学和皮肤微生物学的皮肤状态研究采购项目招标公告

以下内容仅对会员开放。如需查看详细内容请先

微生物学 代时计算陈向东 第 1 章 绪論 三、微生物与我们 微生物无处不在我们无时不生活在“微生物的海洋” 中。 ? 细菌数亿/g 土壤土壤中的细菌总重量估计为:10034 × 10 12 吨; ? 烸张纸币带细菌:900 万个; ? 人体体表及体内存在大量的微生物: 皮肤表面:平均 10 万个细菌/平方厘米; 口腔:细菌种类超过 500 种; 肠道:微生粅总量达 100 万亿, 粪便干重的 1/3 是细菌每克粪便的细菌总数为:1000 亿个; ? 每个喷嚏的飞沫含 个细菌,重感冒患者为 8500 万; 时时刻刻与微生物 “囲舞” 是 祸是 福? 微生物既是人类的敌人更是人类的朋友 ! 微生物是人类的朋友 ! ? 微生物是自然界物质循环的关键环节; ? 体内的囸常菌群是人及动物健康的基本保证; 帮助消化、提供必需的营养物质、组成生理屏障 ? 微生物可以为我们提供很多有用的物质; 有机酸、酶、各种药物、疫苗、面包、奶酪、啤酒、酱油等等 ? 基因工程为代表的现代生物技术; 少数微生物也是人类的敌人 ! 鼠疫; 天花; 艾滋病; 疯牛病; 埃博拉病毒; 可以说,微生物与人类关系的重要性你 怎么强调都不过分,微生物是一把十分锋利的 双刃剑它们在给人類带来巨大利益的同时也 带来“残忍”的破坏。它给人类带来的利益不仅 是享受而且实际上涉及到人类的生存。 “在近代科学中对人類福利最大的一门科学, 要算是微生物学了” —— 日本学者尾形学在“家畜微生物学” (1977 ) 1 四、微生物的发现和微生物学的建立与发展 (一)微生物的发现 ? 我国 8000 年前就开始出现了曲蘖酿酒; ? 4000 年前埃及人已学会烘制面包和酿制果酒; ? 2500 年前发明酿酱、醋,用曲治消化道疾病; ? 公元六世纪(北魏时期)贾思勰的巨著“齐民要术” ; ? 公元 2 世纪张仲景:禁食病死兽类的肉和不清洁食物; ? 公元前 112 年-2 12 年间,华佗:“割腐肉以防传染” ; ? 公元九世纪痘浆法、痘衣法预防天花; ? 1346 年克里米亚半岛上的法卡城之战(靼坦人-罗马人) ; ? 16 世纪,古罗巴醫生 G.Fracastoro :疾病是由肉眼看不见的生物(living creatures) 引起 的; ? 164 1 年明末医生吴又可也提出“戾气”学说; ? 1664 年,英国人虎克 (Robert Hooke )曾用原始的显微镜对 生长茬皮革表面及蔷薇枯叶上的霉菌进行观察 ? 1676 年,微生物学的先驱荷兰人列文虎克 (Antonyvan leeuwenhoek )首次观察到了 细菌他没有上过大学是一个只会荷蘭语的小商人,但却在 1680 年被选为英国皇家 学会的会员列文虎克利用业余时间制造过 400 多架单式显微镜和放大镜,放大率 一般为 50~200 倍 (二)微生物学的奠基 1.巴斯德 (1) 发现并证实发酵是由微生物引起的; 化学家出生的巴斯德涉足微生物学是为了治疗“酒病”和“蚕病” (2) 彻底否定了“ 自然发生”学说; 著名的曲颈瓶试验无可辩驳地证实,空气内确实含有微生物 是它们引起有机质的腐败。 (3) 免疫学——预防接种 首次制荿狂犬疫苗 (4)其他贡献 巴斯德消毒法:60~65℃作短时间加热处理杀死有害微生物 2.柯赫 (1)微生物学基本操作技术方面的贡献 a )细菌纯培养方法的建立 土豆切面 → 营养明胶 → 营养琼脂 (平皿)

微生物组学研究主要涉及两方面技术:测序技术和数据分析技术近年来,这两方面技术都在不断进步如何为自己的研究选择恰当的技术方法,同时提高研究的规范性鉯增加结果的可重复性在本综述中,作者基于当前技术进展对实验方法选择和流程标准化给出了全面的建议

译名:微生物组学分析的朂佳策略

近年来,DNA测序技术和数据分析技术飞速发展例如,分类分辨率不断提高错误发生率不断降低。整合宏基因组和代谢组数据的方法、成分数据分析的方法和机器学习的应用也都取得较大进步研究结果表明,基于精确序列变异体(exact sequence variants)的分类方法较传统基于操作分類单元(OTU)的方法具有明显优势虽然技术进步极大地提升了研究人员数据分析的能力,但前期实验设计依然应该给予足够重视常见的實验设计缺陷对研究的可重复性影响较大。因此在应用微生物组学新方法的同时,不应忽略科学研究普遍要求

典型的科学问题,例如疒例控制研究和纵向干预研究都可以采用微生物组学方法进行分析;且基本不受样本来源如何的影响。但要注意根据要回答的科学问题選择恰当的方法另外,不同方法的分析效能也有所不同比如,16S rRNA扩增子测序与宏基因组测序的在某些样本上获得结果并不一致实验过程本身也在一些干扰因素,需要在研究前充分考虑并选择恰当的分组方法和设置对照以降低其对实验结果的干扰。严谨的实验设计对结果的准确性有决定性作用

首先,针对课题选择合适的研究类型:(1)横断面研究可用于研究不同人群之间微生物群落的差异例如,健康人群和患病人群或者生活在不同地域的个体。但在实验设计中应排除饮食差异、用药与否和生理学差异的影响(2)纵向研究,特别昰前瞻性纵向研究通过比较用药前后的微生物群落的变化能够阐明药物的影响。此类研究应仔细规划样品采集时间比如不同的受试者采样时间应一致。(3)介入性研究包括随机双盲对照研究,可用于评价治疗对微生物组和疾病的影响

其次,提前确定数据分析方法和偠回答的具体问题有助于明确实验所需的样本量例如,测试新的广谱抗生素对小鼠肠道微生物群的影响比确定肠道微生物群变化,需偠更大的样本量同时,应采用适当的方法评估统计效能以降低实验过程中干扰信号对结果的影响。目前微生物组研究中统计效能和效應量化分析仍存在不少问题目前使用的相关分析方法主要基于PERMANOVA、Dirichlet Multinomial或者随机森林分析(random forest analysis)。这些分析方法的改进不仅对研究设计和样本量选择有指导作用,对整合宏基因组、宏转录组、宏蛋白质组和宏代谢组数据集也有很有帮助

最后,对于某些尚无成型规范的特殊实验設计建议参考具有相似样本类型和预期成果的成功研究范例。

在病例对照研究中必须适当选择和设置对照。年龄和性别是常见的对照洇素尽管性别对微生物组的影响相对较弱。药物治疗和饮食也必须严格控制环境研究也需要考虑类似的因素。文献表明不同地块的差异是常见的干扰因素,应该通过嵌套统计检验加以排除通过设置对照获得全面数据,并在此基础上排除干扰因素对结果的影响是研究成功的关键。

定义明确的入组和排除标准能够最大限度地限制协变量的干扰例如,研究表明抗生素干预后个体微生物群恢复需要6个朤。因此应排除过去6个月内接受抗生素治疗的个体。同样洗手后皮肤微生物组的恢复需要约2小时。

用于微生物组学研究的动物模型主偠是啮齿类动物如小鼠。其他模式生物如短尾鱿鱼、昆虫和斑马鱼,主要用于研究宿主和微生物之间的特定相互作用(例如微生物組与宿主遗传特性之间的相互影响)。啮齿动物因与人类的生理相似性和样本可及性,是微生物组学研究的最优选择

啮齿动物中的微苼物组学研究中需要注意以下三个方面:(1)笼养效应。吃食粪便的习惯导致同笼啮齿动物的粪便微生物组随时间推移会逐渐接近因此,必须在多个笼子中重复实验以控制笼养效应(2)早期微生物暴露和父母的影响。单个研究应选择生产和早期生活环境都类似的小鼠哃窝仔需要在不同笼之间随机。(3)环境因素饮食、垫料、供应商、运输条件和饲养设备等都会对小鼠微生物组有影响。

类似的因素也適合其他模式生物如斑马鱼。

微生物组研究的每个步骤都有多种技术和试剂盒可供选择但单个研究内部统一步骤应具有操作一致性。茬DNA提取、PCR和测序过程中可加入空白对照以避免该步骤发生污染。可能的情况下尽量将样本保存在-80°C。这样能够有效降低污染微生物的增殖而导致污染数据的比例升高、避免运输过程中微生物增殖导致的结果偏差如果冷冻无法实现,可采用95%乙醇或者商品化试剂(如RNAlater、OMNIgene Gut)進行保存不同测序批次间用模拟菌落(菌落组成已知的参考样本)进行数据标准化。


图1微生物组学实验设计需要考虑的因素

测序方法主偠分为三种:标记基因测序、宏基因组测序和宏转录组测序标记基因测序可获得高深度但低分辨率的数据;宏基因组测序提供的DNA信息更為广泛,能够实现菌株分辨、生物功能预测;依靠总RNA进行的宏转录组测序主要用于表征微生物群的基因表达应根据所研究的问题、假设、样本类型和分析目标选择恰当的测序方法。下面我们主要从成本、稳健性、分辨率和难度等方面对上述三种方法进行比较


表1不同基因組测序方法研究微生物群落的优劣


图2 16S rRNA、宏基因组测序、宏转录组测序的最佳流程

标记基因测序测定目标基因的特定区域,进而确定样品中微生物群中微生物的种类和丰度所选的特定区域通常包含高可变区(用于进行种属鉴定)和高度保守的侧翼区域(PCR引物的结合位置)。瑺见的区域是细菌和古细菌的16S rRNA以及真菌的内部转录间隔区(ITS)。标记基因测序是获得微生物群落结构低分辨视图快速经济的办法该方法的适用范围极广,尤其对于受宿主DNA污染的样本(如组织和低生物量样本)具有较好的适用性这种方法的主要问题是PCR扩增期间的诱导偏倚,即不同基因并非完全等比例扩增造成这种偏倚的因素包括可变区本身、扩增子大小、PCR循环数、引物设计、样品含量过低。虽然优化引物可以减少偏倚但即是最优秀的引物一般也只能获得属级别的分类学分辨率。

宏基因组测序对样品中所有微生物基因进行测序与标記基因测序相比,宏基因组测序获得基因组信息更详细、分类学分辨率也更高但样本制备、测序和数据分析的成本也更高。如果给定足夠的测序深度宏基因组测序能够准确分别出物种或者菌株信息,还能够从短片段DNA拼接出整个微生物的基因组全序列 但从头基因注释难鉯实现。宏基因组测序能够从基因水平描述整个微生物群落的生物功能相较于标记基因过程中的偏差,研究人员对宏基因组测序在文库構件、组装和注释过程中引入的偏差目前了解较少随着技术的发展,基因注释的能力将逐步提高

宏转录组通过RNA测序来分析微生物中的轉录情况,从而提供有关基因表达和微生物功能的信息标记基因测序和宏基因组测序测定样本中的DNA,因此它们不受细胞活力和活性的影響而宏转录组测序一般主要用来分析具有活性的细胞,且对高转录活性的生物体具有偏向性当然,宏转录组测序对去除DNA的死细胞的RNA进荇分析高丰度的宿主rRNA是常见的污染源,因此应将其去除RNA较容易降解,应小心保存某些样本的RNA提取需要采用特殊的纯化方法。例如汢壤样品需要去除具有酶抑制活性的腐殖物质。在标记基因测序和宏基因组测序之外宏转录组测序为了解微生物群的特征提供了另外的視角。不同个体之间宏转录组的变异比宏基因组要大。

同时使用以上三种测序方法对样品进行测序分析是最理想的情况但有些样本可能不适合其中某一种方法,这时就需要根据研究目的进行选择如果预算有限,我们建议进行宏基因组测序而不是标记基因测序不过,通常的做法是先通过标记基因测序获得微生物群落的低分辨率分类学数据;然后在此基础上,对某些样本采用宏基因组测序进

标记基洇扩增子测序数据分析的第一步是去除测序错误:尽管测序错误率非常低(例如,在Illumina测序中每个核苷酸的错误率大约是0.1%),但大多数的序列多样性仍然是来自测序错误传统的分析方法是将相似序列聚类(通常以97%相似性作为阈值),称为操作分类单元OTU这种方法将真正的SNP囷测序错误都暂时忽略,在进一步分析OTU内部差异时才会进行考察Oligotyping通过以下两种方法提高了OTU分组的精准度:(1)包含16S rRNA测序的位置信息以确萣核苷酸变异;(2)区分相似但不一致的分类。Deblur和DADA2等算法利用核苷酸差异信息将DNA序列分到完全一致的组里称为subOTU。获得的分析结果是DNA序列囷序列计数而不是OTU及其计数。我们建议用新方法替代传统的OTU法当然,某些特殊情况除外比如,同时处理不同技术、不同引物产生的數据时

另一个关键的步骤是将分类名称分配给数据中的微生物序列。分类通常是由机器学习方法完成如RDP分类器(在属水平上的准确率夶约为80%)。流行的微生物组学分析包如QIIME和Mothur等,都提供这一工具原则上,与参考数据库进行精确比对能够得到更为准确的分类信息但昰,由于存在大量无法分类的序列比对结果的灵敏度较差。基于较短的标记基因序列从头构建的系统发育树准确度也较差将测序结果插入到基于全长序列构建的系统发育树相对更为客观。在进行序列分析前应先去除细胞器(线粒体或叶绿体)的基因组。

功能预测是根據获得的标记基因序列对微生物群的宏基因组和生物功能进行预测首先通过与参考数据库比对产生OTU表;对每个OUT基于进化模型给出预测的置信区间:离参考序列较远的分支,置信区间较宽;离参考序列近的则较窄。因此参考序列的全面与否直接影响分析结果的精确度。叧外一个影响因素是某些细菌的16S rRNA可变区非常相似尽管他们存在明显的形态学和遗传学差异。

宏基因组和宏转录组数据分析

基于read的分析方法将未拼接的read与数据库比较,从而进行分类和注释Kraken等采用k-mers的策略,将分类学信息分配给长度为k的片段;Bowtie2和Centrifuge等利用Burrows-Wheeler转换将相似序列合並后再进行分类;MetaPhlAn2和TIPP等采用标记基因策略,利用特异的基因组区域(普遍存在的单拷贝序列)进行分类HUMAnN2等工具能够对标注基因和代谢途徑信息。而MEGAN等包含以上两种功能(片段分类以及基因和代谢途径标注)基于read的方法是单独分析每一个read,因此能够方便地扩展到大型的复雜数据例如,土壤微生物组数据因为要将每一个read和数据库比较,数据库的选择就显得尤为重要对于人类肠道等特征明显的数据,应選择有针对性的数据库(如基因数据库RefSeq蛋白质数据库Pfam或UniRef)以提高结果的准确性并降低计算成本。对于特征不清晰的样本应考虑NCBI nr和nt以及IMG/M等大型数据库。因为数据库较大计算的复杂性增加,但分析结果的特异性却较低某些特定种类或者功能分析,需要借助专门的数据库:噬菌体采用PHASTER抗生素耐药基因采用Resfams,环境样本采用FOAM很多样本类型都有对应的宏基因组数据库目录:如Tara针对海洋样本,BGI针对小鼠肠道样夲MetaHit针对人类肠道样本。

另外一种分析宏基因组和宏转录组数据的方法是将短read拼接成长序列这些长序列可以进行分类,或者进一步拼接嘚到部分甚至全部微生物基因组这样不仅能够获得分类学信息或者基因信息,甚至能够获得通路信息、构建代谢通路(此类工具有antiSMASH)這种方法并不是普遍适用的。当样品的生物多样性较高、样品中存在多个相似菌株或者覆盖率较低等将会导致拼接结果的碎片化从而使丅游分类学信息不够准确。例如由于高生物多样性和分布不均匀,土壤样本通常难以组装如果不存在以上问题,宏基因组的拼接结果將为宏转录组的read策略分析和拼接策略分析提供极好的参考数据库甚至能够找到之前数据库中不存在的“微生物暗物质”。基于拼接的分析工具metaSPAdes和MEGAHIT值得推荐在拼接某个微生物部分或者全部基因组的过程中,MaxBin2和CONCOCT通过评价核苷酸组成和样品间的丰度模式将长序列归给某个基洇组。CheckM通过分析普遍存在单拷贝基因对分组和拼接的结果进行评价如序列的完整性和污染是否存在。VizBin等可视化工具在不与参考数据库比對的条件下展示宏基因组序列的聚集形式让研究者能够据此判断分组的合理性。因为基于拼接的分析方法较为复杂建议使用工作流使數据处理自动化。这方面的工具有Anvi’oATLAS和MetAMOS。

对于read数存在差异的数据归一化的方法有每百万中read数(依据reads总数)、每一千个碱基的转录体个數(依据read数和read长度)或者将数据转化成相对丰度。这方面的工具也较多比如,edgeR和DESeq2

微生物群之间的模式差异一般用α多样性和β多样性描述。α多样性对单个样本中的特征多样性进行量化,并且可以进行样本间比较。物种丰度(测定物种的数量或者Chao1丰度估计)和系统发育分析分布(Faith’s系统发育多样性)都对序列数量敏感结合丰度和均匀度的方法(Shannon指数)能克服这一问题。α多样性分析只适用于16S rRNA数据β多样性比较每对样本之间的特征差异,生成所有样本之间距离矩阵。定量矩阵(Bray-CurtisCanberra和加权UniFrac)依据物种丰度值进行计算;而定性矩阵(binary-Jaccard和不加权UniFrac)仅考虑物种存在与否。系统进化分析(UniFrac)能够对数据进行生物学描述这种分析需要构建进化树,对于不存在进化树的组学数据无法进荇此类分析QIIME、Mothur和R package vegan都可以进行α多样性和β多样性分析。非参数置换分析PERMANOVA和ANOSIM可用于评价显著的β多样性聚类;PERMANOVA在组内分散性变化较大的数据仩表现较好控制测序结果的数据量对与获得有意义的α多样性和β多样性至关重要。因为不同样本间数据量的差异经常达到几个数量级UniFrac通过稀释策略解决这一问题。但对于成对的丰度差异比较必须使用全部的测序数据

β多样性数据可以借助主坐标分析(PCoA)或主成分分析(PCA)进行可视化,并通过对样本进行分类着色从而实现自动聚类EMPeror提供了交互式操作PCoA图的平台。

另一种分析方法是考察不同样本间存在丰喥差异的微生物或功能单位(基因或通路)比较微生物的丰度差异是一个具有挑战性的课题。因为每个样本的数据都是高维的(包含数芉个分类)、稀疏的(存在很多0)且混合组成的因总和为1,当一种微生物的比例增加时其他微生物的比例必然减少。这导致传统的比較方法(参数检验法或Spearman秩检验)常出现高于90%的错误率最近,将组成性纳入考虑的新方法很好地解决了这一问题一种方法是在统计检验Φ加入强烈的生物学假设。如Lovell’s的比例矩阵仅关心正相关;其他广泛使用的且针对微生物组数据优化的工具如SparCC何SPEICEASI,假设很少物种相关峩们推荐另一种方法,它不假设物种很少相关而是对微生物群落之间的差异进行等对数比例转换(ilr)。这种方法能够降低假阳性的原因昰它比较的是微生物丰度对数比例的差异也就是平衡。这种平衡可以借助先验的知识进行构建如进化史或者对特定环境因素刺激(如低pH)的反应。用ilr进行数据处理后即可以采用标准的统计方法进行分析,如多变量分析、线性回归和分类等另外一种新方法是结合绝对數据量和细胞数进行分析,同样也能解决组成性问题

机器学习被越来越多地应用于微生物组学数据分析,比如依据现状进行分类或者预測微生物群未来状态例如,可以根据口腔微生物群的状态对牙龈炎的严重性和易感性进行建模分析机器学习技术随机森林回归被用于從回溯身体死亡时间到测定儿童发育过程中微生物群落成熟度。SourceTracker能够对微生物群落的来源进行分析根据样本的来源环境它能够对样本进荇很好地分类。机器学习技术需要大量的样本数据同时还需要交叉验证、独立的测试数据集或者实验证实。

整合多组学数据——包括标記基因测序数据、宏基因组、宏转录组、宏蛋白质组、宏代谢组以及其他组学数据——能够获得特定微生物群的构成和功能的全面信息泹这项工作并不容易。比如基因表达和代谢的时间尺度不同,微生物的很多代谢物是对环境应激的结果另外,和宏蛋白质组相比宏基因组和宏代谢组更加稀疏,这也带来技术上的难题不过,可喜的是用于多组学数据整合的工具越来越多例如,XCMS在线能够整合宏代谢組学与代谢通路、蛋白质组和转录组虽然传统的相关性检验方法(如Pearson和Spearman)能够对成对数据的某些特征进行跨组学相关性检验,但因为组學数据的稀薄性和高维性这些方法易产生假阳性。Procrustes分析采用降维数据能够判断一个数据集中的距离模式(向量空间而非单个特征)是否在另一个数据集中出现。另一些方法在考虑样本间关系的同时整合多组学数据(比如比较健康组和疾病组)。这类方法包含惯性分析(使用降维数据对两个样本组的多个数据集进行整合)、偏最小平方法以及相关的规范相关分析、稳健稀疏规范相关分析(一种处理稀疏組学数据的方法变体)


图3其他组学数据与微生物组学数据整合

先进的集成分析工具通过集成GNPS组件获得分子网络分析功能,从而能够发现玳谢物和代谢通路信息同时还集成通用系统性生物分析工具。这方面比较突出的例子是XCMS在线多组学研究正在从空间模式的发现逐渐扩展到时间模式的研究。工具“ili”提供的空间映射功能让多组学分析结果可视化为研究人员解读数据提供了极大的方便。

多种统计学方法嘟可用于整合分析多组学数据但他们在微生物组学上的表现欠佳。另外找到不同组学数据之间的相关性只是第一步。下一步的工作是建立因果关系、找到多数据集之间的相关性表3列出了整合微生物组学和代谢组学的实例,并给出了进行相关性和因果分析的工具因为組学数据包含成千上万的微生物和代谢物,很多相关性都是随机产生的假象因此,非常有必要对多组学数据中的比较结果进行修正显著性分析的修正方式包括Benjaminl-Hockberg修正提供的错误发现率(false discovery rate)以及更保守的Bonferroni修正的家庭式错误(family-wise error)。充分考虑数据的稀疏性和组成性并用上述方法进行结果修正能够有效避免大规模多组学数据比较中的错误发生率。

本综述中我们讨论了微生物组学研究各个环节对实验结果和生物學解读的影响。其中很多步骤造成的结果偏差远超出真实的差异范畴为对多个研究进行比较和整合,非常必要对研究进行标准化目前這方面的工作已有初步进展。例如国际人类微生物组学和微生物组学质量控制(MBQC)。这些标准化方法采用生物信息学工作流程和对照結合云平台上运行的开源算法,让研究人员不仅可以重复文献的内容也提高了组学研究的一致性和可比性。标准化的工作不仅涉及制定各种实验标准流程还包括建立标准化的真实生物样本。这类样本可用于定量分析微生物组学分析的系统准确性

本文重点介绍的是群落沝平的DNA分析。随着表达分析和单细胞分析的不断发展类似的考虑也适用于这两个领域。借鉴过去失败的教训、采用标准化的操作流程必将极大地加速这些领域的发展。另外随着数据量的急剧增大,充分考虑各种流行病学干扰因素、进行更加仔细的纵向实验设计变得越來越重要随着人体实验、模式动物实验和体外组织实验数据获得和处理技术的进步,干预性研究相对观察性实验的优势也变得更加明显随着技术标准化的建立和优秀方法的广泛传播,微生物组学研究的结果必将走出实验室进入临床应用、现场应用和环境应用。

微生物組学研究需要有效结合实验技术和生物信息学技术尤其生物信息学技术的进展,简直可以用日新月异来形容各种生物学工具“乱花渐欲迷人眼”,希望作者系统的介绍能为大家“昨夜西风凋碧树独上高楼望尽天涯路”。同时作者也指出实验设计才是基本功夫,“基礎不牢地动山摇”。

谢谢大家阅读~欢迎交流

声明: 公众号发布的图文只为交流分享源自网络的图片与文字内容,其版权归原作者及网站所有有疑问敬请联系我们。


我要回帖

更多关于 微生物学 代时计算 的文章

 

随机推荐