reputer软件下载分析基因组序列得到的数据是什么

[转载]新手如何开始基因组测序数据分析?拿什么来分析你,我的测序数据
已有 15017 次阅读
|系统分类:|关键词:class,face,基因组,如何|
|文章来源:转载
新手如何开始基因组测序数据分析?[心得点评]
时间:2011年04月20日 来源:生物通
  基因组测序技术在短短5年时间里,从一种令人仰望的高端技术变成了实验室里的常规操作,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题,包括大部分新手都会提的一个问题——从那儿开始?以下的这些测序专家会从这一最常见的新手问题开始,一一帮助我们解答疑惑。
免费索取:
快来体验EZValidation在线工具,轻松满足各种国际标准!
分享到:&&&&   
生物通报道:作为生命科学领域的“圈内人”,如果你还不知晓近期基因组测序的飞速发展,那你就实在太out了。。。这项技术在短短5年时间里,从一种令人仰望的高端技术变成了实验室里的常规操作,仅仅就去年一年时间,这项技术就应用到了千人基因组计划、人类微生物计划这两项重要的研究项目中,识别了大量孟德尔遗传疾病相关的基因,比如朱伯特综合症(Joubert Syndrome),米勒费雪综合症(Miller Syndrome),还破解了苹果,虱子,以及前段时间侵袭海地的霍乱弧菌的基因组,实力确实不可小窥。
然而由于这一领域的发展速度飞快,因此一些新接触的实验人员可能会感到茫然无措:虽然这些研究人员都具有实体测序实验操作经验,但是如何处理获得的庞大数据是一个巨大挑战。幸运的是,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题,包括大部分新手都会提的一个问题——从那儿开始?以下的这些测序专家会从这一最常见的新手问题开始,一一帮助我们解答疑惑。
需要什么IT基础设备?
简而言之:视情况而定。测序数据集信息量都很大,但不是所有的数据集都一样,比如说,全人类基因组测序项目包括原始测序数据,比对数据,变异检出数据等,每个样品都能达到上百GB,而像ChIP-Seq数据集(例如染色体免疫共沉淀实验数据)就小得多了,才几个GB而已。
因此要回答需要多少空间来存储所有数据这个问题,也是视情况而定。弗吉尼亚州立联邦大学生物标记研究及个性化医疗中心有一台2010年早期购买的ABI SOLiD 4测序仪,目前这个中心有大约35TB(即35000GB)的磁盘空间来存储数据,其中一些保存在实验室内,但是大部分实际上都外包了,比如1575个个体甲基化测序数据。中心主任Edwin van den Oord说,“仅仅是实验室里产生的数据不需要这么大的空间”,但即使是35TB的空间还是不够的,“我们需要购买更多的磁盘才能分析这些数据”。来自杜克大学的Kevin Shianna实验室完成了200个全人类基因组测序,以及另外100个基因组外显子(即蛋白编码区域)测序,目前他们有300TB磁盘空间,而且其中大部分都是满的!
除了磁盘空间外,另外一个关键的元素就是电脑的运作能力,数据文件如此之大,往往不能通过台式机来准确分析,因此需要计算机PC集群(cluster)——一种特别的ad-hoc超级电脑(ad-hoc:电脑到电脑网络),电脑之间通过网络链接,由许多小电脑并联组成。举例而言,杜克大学所用的一种软件工具:Sequence Variant Analyzer(能注释基因变异,以及这些变异在基因组中位置)就是“一个内存怪兽”,Shianna说,“它至少需要24-32GB的内存空间。”
如果没有这些设备该怎么办?
许多高校都提供集群资源服务,但也不是每个都有,对于没有集群设施的研究人员来说,可以寻找一些Web,云模式(cloud-based)为基础的来替代,比如Amazon Web Services,这是一种可以提供基础设施的计算平台服务,包括云计算平台EC2(Elastic Compute Cloud)——拥有几乎无限的计算设施,和云储存服务S3(simple storage service)——提供在线存储服务。每个人都可以在AWS上建立自己的户头,这要求有一台实体的机器,一个计算机界面来连接网络,然后通过Amazon的云服务进行数据分析。
这种付费系统灵活性很大,通过Amazon(或其它的云服务平台,比如Google和Microsoft)完成繁重的高计算量任务,研究人员就能从购买,维修和升级IT设备这些繁杂的事情中脱身,DNAnexus公司总裁Andreas Sundquist说,“我看到Amazon最新预算好像订了十万个CPU,还有上百个PB(1PB=1000TB)磁盘”,“世界上能接触到这么多计算机和磁盘的地方非常少”,一些无私的研究人员还研发了一种预先组态(preconfigured)生物信息学为基础的虚拟Linux机器,作为一个Amazon镜像系统(Amazon Machine Image),这种打包的服务器环境能运行需要的软件和应用程序,链接为www.cloudbiolinux.com。
除此之外,还可以试试宾州的Galaxy (galaxy.psu.edu/),其网页介绍道,“Galaxy能帮助你完成其它任何地方都无法完成的分析,而且无需安装或者下载任何东西,你可以分析多重比对,比较基因组注释,解析宏基因组样品等更多得多的应用”,这一系统包含有大量的文档资料和教程视频,来自凯撒西储大学的Mark Adams将Galaxy称为“一个能整合不同类别数据,查询数据,协调性尤其好的优秀系统”。
对于云计算有更高要求的研究人员就可以尝试下一些商业公司,比如 DNAnexus (dnanexus.com)和GenomeQuest (www.genomequest.com),前者可以通过直接上传,或者联网的测序仪上接收数据,进行变异查找,RNA表达分析和ChIP-Seq分析。Sundquist说,“你不用考虑这些分析在哪里进行,也不用考虑结果存储在哪里,这些DNAnexus云计算都能帮你做到”。这些服务(AWS)的价格是20美元/GB/2年(科研单位),5美元/GB(测序机构)。
(生物通:王蕾)
第二部分报道:拿什么来分析你,我的测序数据
Amazon Web Services 是一组服务,它们允许通过程序访问 Amazon 的计算基础设施。Amazon多年来一直在构建和调整这个健壮的计算平台,现在任何能够访问 Internet 的人都可以使用它。Amazon 提供几个 Web 服务,但是本系列只关注满足大多数系统的核心需求的基本服务:存储、计算、消息传递和数据集。
通过在 Amazon 提供的可靠且经济有效的服务上构建功能,可以实现复杂的企业应用程序。这些 Web 服务本身驻留在您的环境之外的云中,具备极高的可用性。只需根据使用的资源付费,不需要提前付费。因为硬件由 Amazon 维护和服务,所以您也不需要承担维护费用。
这个虚拟的基础设施大大降低了当今 Web 环境中的 “贫富差异”。您可以在几分钟内快速地获得一个基础设施,而这在真实的 IT 工作室中可能会花费几周时间。要点在于这个基础设施是弹性的,可以根据需求扩展和收缩。世界各地的公司都可以使用这个弹性的计算基础设施
EC2全称Amazon Elastic Compute Cloud,是Amazon于2006年推出的新一代hosting服务,目前尚处于beta阶段,但是使用中没有发现什么问题,相当稳定。Amazon EC2实际上是提供了一些虚拟机,可以是Linux的也可以是windows的,用远程桌面链接。通过web service或者他的控制台可以很方面的添加/删除虚拟机,按照运行时间和容量付费,不用的时候直接关了就不用再花钱了。
Amazon S3(Simple Storage Service)是Amazon Web Services在2006年3月推出的在线存储服务。开发人员可以使用它存储数字资产,包括图片、视频、音乐和文档。 Amazon S3是基于软件即服务(Software as a Service,SaaS)的一种云储存服务,使用 S3 时,它就像一个位于 Internet 的机器,有一个包含数字资产的硬盘驱动。
您通过 S3 存储和检索的资产被称为对象。对象存储在存储段(bucket)中。您可以用硬盘进行类比:对象就像是文件,存储段就像是文件夹(或目录)。与硬盘一样,对象和存储段也可以通过统一资源标识符(Uniform Resource Identifier,URI)查找。
Amazon Machine Image(简称AMI) 是亚马逊EC2服务附属的镜像系统。
拿什么来分析你,我的测序数据[心得点评]
  由于新一代测序的发展速度飞快,因此一些新接触的实验人员可能会感到茫然无措:虽然这些研究人员都具有实体测序实验操作经验,但是如何处理获得的庞大数据是一个巨大挑战。幸运的是,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题。上回生物通谈到了硬件,数据分析需要什么样的IT设备,以及没有这些设备该怎么办?这回我们谈谈软件。
默克密理博首个RNA-蛋白互作RIP试剂盒助您揭开RNA世界的奥秘,点击获取相关资料!
生物通报道:作为生命科学领域的“圈内人”,如果你还不知晓近期基因组测序的飞速发展,那你就实在太out了。。。随着新一代测序技术的不断改进,新测序仪不断涌现,测序价格也越来越低,应用当然也越来越广。近两年,新一代测序技术广泛应用于全基因组测序,疾病关键基因的测定,以及宏基因组学。
然而由于这一领域的发展速度飞快,因此一些新接触的实验人员可能会感到茫然无措:虽然这些研究人员都具有实体测序实验操作经验,但是如何处理获得的庞大数据是一个巨大挑战。幸运的是,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题。生物通
上回生物通谈到了硬件,数据分析需要什么样的IT设备,以及没有这些设备该怎么办?这回我们谈谈软件。
我该使用什么程序?
同样,这要看情况。你想要开展什么分析?你能使用UNIX吗?你会编程吗?
目前已有数百个用于新一代测序的生物信息学工具,从商业化的产品到略有瑕疵的免费软件。在SeqAnswers.com (seqanswers.com/wiki/Software)上列出并介绍了超过360个软件。对于新手来说,不幸的是,这些工具极少有着漂亮的图形用户界面。凯撒西储大学的Mark Adams谈到:“目前有相当多不错的免费软件可用于分析,但几乎所有免费软件和最新软件都是基于UNIX命令行的。”在大多数情况下,这些程序基本上是数据过滤器和文件转换器。它们接收一种形式的数据,处理它,并以另一种形式导出。
简单来说,大部分基因组中心自己写代码,指导原始序列数据通过这些步骤,将一个程序的输出结果导入另一个程序,清理,采集质量标准,与参考基因组比对,以及其他。
这样的软件流水线可能听起来无比复杂,但是在面对包含数百万条记录的数据文件时,你别无选择。因此,你们小组至少应有一人要有相当不错的UNIX技能。Wellcome Trust Sanger研究院的博士后Daniel MacArthur认为:“基本的UNIX命令行语法将让你利用此类型数据走得更远。”
我该如何查看原始数据?
通常来说,别这么做。你也不需要这么做。数据太多了,而你从中获得的将很少;相反,你要查看处理过的数据,SNP检出列表及其他。但MacArthur博士认为也有例外。他说,在投身验证研究之前,还是值得花时间去仔细检查那些支持变异体检出的真实序列读取。
MacArthur博士谈到:“对于那些刚刚开始涉及分析的研究人员来说,我的唯一忠告是——利用一切机会以尽可能多的方式来查看数据,因为你可能会上当。”比如,单核苷酸变异检出是相对可靠的。然而,插入和缺失(indel)却可能有问题:一些插入缺失读取被抛弃,因为它们看上去不能与参考序列正确比对;其他的则被称为SNP簇。他说:“诸如此类,只要你查看这些读取,你就能发现有一些确实错了。”
你可以利用基因组浏览器(如Integrative Genomics Viewer)来查看原始数据,它将重叠读取显示成参考基因组上的“堆积”。MacArthur博士认为Integrative Genomics Viewer是一个很好的工具,直观,易用。
如果想查看原始数据,你可以使用UNIX命令行工具,来确定你的数据格式是否正确,以便导入各种分析程序。
我能从哪里寻求帮助?
对于新一代生物信息学这个复杂且日新月异的学科来说,幸运的是,从来就不缺帮助,无论是用户组、在线论坛或网页教程。工具开发者通常还会回复电子邮件咨询,其他经验丰富的研究人员也是如此。这里推荐一个好的出发点:SeqAnswers.com,目前有6400名活跃的会员。
“那儿有很多人,他们有很多专业知识,因此别逞强,什么事都自己扛。利用你周围的知识。重新发明轮子是没有意义的。”华盛顿大学基因组中心的David Dooling如是说。
一些精选的免费数据分析工具:
名称链接评论
基因组重测序
Bwahttp://bio-bwa.sourceforge.net比对工具
Dindelhttp://sites.google.com/site/keesalbers/soft/dindel小的插入/缺失发现生物通
Erdshttp://www.duke.edu/~mz34/erds.htm拷贝数变异发现
Pindelhttp://www.ebi.ac.uk/~kye/pindel/小的插入/缺失发现Samtoolshttp://samtools.sourceforge.net操控比对后数据的工具
Sequence Variant Analyzerhttp://www.svaproject.org在基因组背景下显示变异
Findpeakshttp://vancouvershortr.sourceforge.net
Bowtiehttp://bowtie-bio.sourceforge.net比对工具
Cufflinkshttp://cufflinks.cbcb.umd.edu测定转录本丰度
Tophathttp://tophat.cbcb.umd.edu剪接点定位
De Novo 拼接&
Abysshttp://www.bcgsc.ca/platform/bioinfo/software/abyss
Oaseshttp://www.ebi.ac.uk/~zerbino/oases/根据转录组数据拼接
Velvethttp://www.ebi.ac.uk/~zerbino/velvet/基因组浏览器&
Integrated Genome Browserhttp://www.bioviz.org/igb/ Integrative Genomics Viewerhttp://www.broadinstitute.org/software/igv/
转载本文请联系原作者获取授权,同时请注明本文来自陈波科学网博客。链接地址:
上一篇:下一篇:
当前推荐数:0
推荐到博客首页
评论 ( 个评论)
扫一扫,分享此博文
作者的精选博文
作者的其他最新博文
热门博文导读
Powered by
Copyright &微卫星在基因组上的分布与功能及其计算方法初步研究_博士论文_学位论文
> 优秀研究生学位论文题录展示
微卫星在基因组上的分布与功能及其计算方法初步研究
关键词: &&&&&&&&&&
类 型: 博士论文
年 份: 2004年
下 载: 749次
引 用: 8次
(Microsatellite)是上由1-6个核苷酸为单位组成的重复,又称串联重复序列(Short Tandem Repeat,STR)和简单重复序列(Simple Sequence Repeat,SSR)。在基因组上由于微卫星具有普遍的多态性,是进行群体遗传变异分析、物种起源与进化研究、基因定型(genotyping)、指纹鉴定(fingerprinting)、法医科学(forensic science)、动植物育种等的较好的遗传标记而受到广泛关注。分析微卫星在基因组上的含量、分布及其相关信息,可提高微卫星应用的预见性。特别是目前已有更大的基因组序列数据库,这些研究将获得新的、更为准确并且具有普遍意义的结果。
本研究采用Per1为编程语言结合数据库技术等方法,对29个基因组和1180个基因组的DNA序列上长度超过12的微卫星进行了大规模的计算和统计分析。主要探索了如下几个问题:微卫星在染色体上的分布、在基因组范围内的含量和与遗传重组率的相关性、在真核和原核基因组上分布的共性和个性、微卫星的计算多态性与实验室PCR多态性的关系以及微卫星在和非孤儿基因中的分布性质等。通过这些研究,将为生物遗传、变异和进化发育提供重要的理论和应用基础。此外,还对微卫星的本地计算的方法和基于Internet的远程WEB计算方法进行了探讨。取得的主要结果如下:
1.微卫星在染色体上的分布,在及其附近区域的基因组序列中微卫星含量显著地低于染色体上其它区域,远离着丝粒部分的微卫星含量一般都比较高。即使是端着丝粒或者近端着丝粒,其微卫星含量都明显的比较低,表现了着丝粒的优先性。在拟南芥、水稻和人类基因组上的计算分析都得到非常一致的结果,但对于酵母等单细胞真核生物并不遵循这一规律。
2.在人类和水稻基因组中,计算最近两标记之间的微卫星含量与基因组在此区域的以centi-Morgan(cM)为单位的遗传重组值为数据对组成样本进行回归相关性分析。计算发现,在水稻基因组中,其spearman秩相关RS统计量等于0.3217,样本容量为2725,其两尾否定概率等于零。在人类基因组上也得到了Spearman RS统计量等于0.1111,样本容量等于2759,其两尾否定概率等于3.9045×10-9。
3.对29个真核和1180个原核生物基因组中的微卫星进行了计算和统计分析,结果表明:(1)微卫星在真核基因组中的含量一般比原核基因组的高,也有很多物种例外。(2)在真核基因组中微卫星含量在物种之间变异系数不是很大,29个真核物种的平均微卫星含量的变异系数为75%,而以病毒为代表的原核生物的变异系数为91%,推测原核生物是微卫星累积的物种,而真核生物为微卫星含量稳定的物种。(3)微卫星的总motif数量在原核物种中都比较少,在真核物种中一般比较多,那些微卫星含量超过真核物种平均水平的原核物种,其微卫星只是在局部位置的堆积,其motif数量仍然很小。(4)在真核和原核基因组中微卫星的motif数量与基因组大小都成正相关,在原核物种中微卫星含量与基因组大小也成正相关,但在真核基因组中,微卫星的含量与基因组大小不相关。
4.真核生物的微卫星分布还具有以下特点:(l)微卫星motif在物种之间使用频率是不一样的,只有A/T微卫星才是所有真核物种所共有的,没有任何一个微卫星motif是某一个物种所特有的。(2)微卫星motif越长,重复次数越少。(3)不同长度的微卫星在基因组内的变异性能是不一样的,长度小于3的微卫星在几乎所有的真核基因组内都有变异,而大于3的则有些变异性非常大,而有的则变异系数等于零;从微卫星总的变异性能看,一般比较长的微卫星变异系数较大。(4)海洋生物的微卫星motif使用频率与陆地动植物有所区别,尤其是长度短于5的微卫星。在海洋生物中,富含c/g的微卫星在基因组中变异比较大,而在陆地生物中,富含a/t的微卫星变异较大。
5.对微卫星在水稻孤儿基因与非孤儿基因之间的关系进行了计算和统计分析,结果表明:水稻孤儿基因总数为28532条序列,占50.9%,而非孤儿基因为27524条,占49.1%;孤儿基因中微卫星含量明显高于非孤儿基因;在组成上,不论在孤儿基因还是在非孤儿基因中,三核昔酸微卫星的含量都超过了50%,孤儿基因中的含量为68%,明显高于非孤儿基因的58%。
6.对水稻基因组中各成分的微卫星进行统计分析,结果表明:微卫星在基因的编码区和非编码区都有分布,主要是数量上的差异;在数量关系上,非编码区的微卫星含量大大高于编码区,但是三核营酸微卫星相反;在水稻EST中微卫星含量非常丰富;在微卫星motif长度使用上,二核普酸微卫星的含量最高,且以at八a微卫星占大多数;比较釉稻和粳稻基因组上的微卫星,发现它们在含量、组成和mot if使用频率上都非常相似。7.本文对研究中所涉及的计算方法也进行了大量的探索。用Perl对包括FASTA、GENBANK、xML和BLAST报告等转化和解析进行了编程;还对到TIGR、NCBI等进行大规模的Internet远程比对计算进行了编程;使用代理服务器的方法解决了NCBI 50个同时在线BLAST的限制;采用Perl Socket的无阻塞1/0编程技术,解决了Internet远程大规模并行BLAST计算的问题;在程序设计
摘要&&8-11ABSTRACT&&11-151 文献综述&&15-43&&1.1 研究进展&&15-25&&&&1.1.1 微卫星在基因编码区与非编码区的分布&&15-17&&&&1.1.2 微卫星的功能观点&&17-25&&&&&&1.1.2.1 染色体组织&&18&&&&&&1.1.2.2 DNA高级结构&&18-19&&&&&&1.1.2.3 端粒与&&19&&&&&&1.1.2.4 DNA代谢过程的调节&&19-20&&&&&&1.1.2.5 DNA复制与细胞循环&&20-21&&&&&&1.1.2.6 基因活性调节&&21-25&&1.2 微卫星变异的突变机制&&25-27&&&&1.2.1 复制滑动机理&&25-26&&&&1.2.2 重组机理&&26-27&&&&1.2.3 复制滑动与重组的互作&&27&&1.3 进化学上的遗传重组&&27-32&&&&1.3.1 重组的生物学意义&&27-29&&&&1.3.2 重组的检测&&29&&&&1.3.3 检测重组的统计学方法&&29&&&&1.3.4 重组检测方法的性能&&29-30&&&&1.3.5 重组与亲缘关系的推断&&30-31&&&&&&1.3.5.1 系统发生史估计的重组效应&&31&&&&&&1.3.5.2 重组与分子钟&&31&&&&1.3.6 网状的表示&&31-32&&1.4 着丝粒生物学&&32-39&&&&1.4.1 着丝粒的生物学功能&&32&&&&1.4.2 不同物种的着丝粒序列&&32-33&&&&1.4.3 来自于非正常着丝粒的认识&&33-34&&&&1.4.4 着丝粒决定模型&&34-36&&&&1.4.5 着丝粒结构与功能的中的重复序列难题&&36&&&&1.4.6 低等的着丝粒&&36-37&&&&1.4.7 高等真核生物的着丝粒&&37&&&&1.4.8 着丝粒的矛盾&&37-38&&&&1.4.9 高等真核生物的着丝粒功能模型&&38-39&&1.5 研究思路开题设想&&39-432 、 数据收集与分析方法&&43-47&&2.1 数据来源&&43&&2.2 计算环境&&43&&2.3 微卫星的计算标准&&43-44&&2.4 微卫星含量的定义&&44&&2.5 程序实现&&44-473 结果与分析&&47-135&&3.1 微卫星在物种间染色体上的分布&&47-81&&&&3.1.1 微卫星在拟南芥(Arabidopsis thaliana)基因组染色体上的数量分布&&47-52&&&&3.1.2 微卫星在水稻(Oryza sativa SSP.Japonica)基因组染色体上的分布&&52-59&&&&3.1.3 微卫星在人类基因组染色体上的分布&&59-73&&&&&&3.1.3.1 人类染色体测序与组装进展&&59-62&&&&&&3.1.3.2 微卫星在人基因组染色体上的分布&&62-73&&&&&&3.1.3.3 微卫星在人基因组染色体上的分布小节&&73&&&&3.1.4 微卫星在酵母(Schizosaccharomyces pombe)基因组染色体上的分布&&73-80&&&&3.1.5 微卫星在染色体上的分布小结&&80-81&&3.2 微卫星在物种间的分布&&81-96&&&&3.2.1 微卫星在真核生物物种间的分布&&81-91&&&&&&3.2.1.1 真核生物基因组大小bps、微卫星motif数和含量之间的关系&&84&&&&&&3.2.1.2 真核生物微卫星motif使用频率&&84-85&&&&&&3.2.1.3 微卫星motif长度与重复次数的关系&&85&&&&&&3.2.1.4 微卫星重复motif的变异能力统计&&85-86&&&&&&3.2.1.5 真核生物不同重复motif长度的微卫星特点&&86-91&&&&3.2.2 微卫星含量在病毒基因组上的分析&&91-93&&&&&&3.2.2.1 病毒基因组大小bps、微卫星motif数与含量的相关分析&&92-93&&&&3.2.3 真核生物微卫星与微卫星的比较&&93-94&&&&&&3.2.3.1 微卫星含量的变异&&93-94&&&&&&3.2.3.2 微卫星motif数的差异&&94&&&&3.2.4 微卫星含量在原核和真核基因组上的比较&&94-95&&&&3.2.5 微卫星在真核和原核基因组上的分布性质研究小结&&95-96&&3.3 微卫星促进新基因的产生&&96-100&&&&3.3.1 研究的意义&&96-97&&&&3.3.2 水稻基因组的孤儿基因&&97-98&&&&3.3.3 孤儿基因与非孤儿基因的微卫星含量关系&&98-99&&&&3.3.4 在孤儿基因和非孤儿基因之间水稻微卫星的组成比较&&99-100&&&&3.3.5 微卫星与孤儿基因的关系小结&&100&&3.4 微卫星含量与遗传重组值的相关性&&100-101&&3.5 微卫星在水稻基因组中的分布&&101-106&&&&3.5.1 微卫星在水稻籼稻93-11和粳稻Nipponbare基因组之间的总量趋势的比较分析&&101-102&&&&3.5.2 水稻基因组微卫星在基因内和基因间的比较分析&&102-103&&&&3.5.3 二聚体核苷酸微卫星在基因组各成分上的关系&&103-106&&&&3.5.4 水稻基因组微卫星分布性质小结&&106&&3.6 本地BLAST比对与结果分解&&106-107&&3.7 本地BLAST比对与结果分解&&107-111&&&&3.7.1 本地BLAST比对&&107-108&&&&3.7.2 比对结果分解&&108-111&&3.8 大规模数据的远程计算方法研究&&111-135&&&&3.8.1 大规模数据的TIGR的internet远程BLAST计算方法&&111-114&&&&3.8.2 大规模数据的NCBI的internet远程BLAST计算方法&&114-126&&&&&&3.8.2.1 基于Bioperi的NCBI远程网络BLAST&&114-118&&&&&&3.8.2.2 基于LWP的NCBI远程BLAST&&118-120&&&&&&3.8.2.3 通过Berkeley套接字(socket)的编程技术&&120-126&&&&3.8.3 internet远程计算中的多进程与多线程程序设计实现&&126-133&&&&3.8.4 internet远程计算中的基于socket的无阻塞技术&&133-1354 讨论&&135-146&&4.1 微卫星分布的动力学模型&&135-140&&&&4.1.1 微卫星在染色体上的分布&&135-137&&&&4.1.2 微卫星含量与重组率相关性的直接证据&&137&&&&4.1.3 微卫星在物种之间的变异。&&137-139&&&&&&4.1.3.1 基因组内微卫星的变异性与PCR多态性的关系&&138-139&&&&4.1.4 微卫星促进新基因的产生&&139-140&&4.2 关于微卫星是生物进化动力还是生物进化的痕迹的问题&&140-141&&4.3 计算之我见&&141-146&&&&4.3.1 数据库技术是计算生物学必须的数据组织与存取基础&&141-142&&&&4.3.2 免费资源的重要性&&142-143&&&&4.3.3 网络在生物信息学研究中起了关键作用&&143-144&&&&4.3.4 计算生物学算法语言的选择&&144-1465 结论&&146-147参考文献(REFERENCES)&&147-160光盘附件1 (SUPP1.DOC)&&160-161&&程序1 9311_syd_com_parse.pl:比对(Aligning)并且把比对结果存入SQL数据库,比对与应用Bioperl的BPlite模块进行本地blast的报告分解(parse)&&160&&程序2 lest.pl:93-11基因组序列与93-11 EST序列的比对与分解程序&&160&&程序3 3rduniq_irgp_com_parse.pl:93-11剩余序列与nipponbare shortgun数据的比对与分解程序&&160&&程序4 ssr.pl:这是发表(Temnykh等2001)的ssr的Perl计算程序&&160&&程序5 ssr_nature.pm:这是在ssr.pl基础上按照nature论文建议的ssr motif长度值设定的Perl模块,本模块有将在后面的ssr计算程序中大量应用的ssr函数。&&160&&程序6 irgp_assembly_parse.pl:解读TIGR水稻基因组的XML坐标文件,提取水稻基因组的组装办法&&160&&程序7 irgp_assembled_coordset.pl:irsgp水稻基因组的组装程序&&160&&程序8 irgp_assembly_Ij.pl:计算水稻基因组组装之后的累计长度&&160&&程序9 irgp_cdna_seq.pl:读去irsgp水稻基因组的cDNA的fasta格式文件到本地程序11 irgp_cdna_ssr_concat.pl:cDNA ssr motif合并程序数据库中&&160&&程序12 irgp_epcr.pl:解读电子PCR的结果,并判断epcr的结果片段在基因组上各部分如基因、utr、intron等上的交叉情况&&160&&程序13: 用ssr_nature.pm计算epcr结果片段中的微卫星&&160&&程序14 irgp_genome_ssr_seg.pl:分段计算水稻基因组序列的微卫星&&160&&程序15 ncbiestblast.pl:应用BioPerl的remoteblast模块进行的NCBI远程水稻EST比对与blast报告分解程序&&160&&程序16 sca_reputer.pl:应用reputer在http://bibiserv.techfak.uni-bielefeld.de/cgi-bin/reputer_run上进行的远程重复序列计算&&160&&程序17 segremoteblast.pl:ncbi进行远程部分93-11基因组的远程比对和blast报告解析,应用BioPerl模块进行&&160&&程序18 9311_syd_com__parse.pl:应用BioPerl的本地比对模块进行的93-11基因组与nipponbare shorgun基因组的本地比对,计算时间约4天&&160&&程序19 arab_ssr.pl:拟南芥基因组的微卫星计算程序&&160&&程序20 get_genbank_access.pl:NCBI取基因组序列的批处理程序,通过internet到entrez获取。&&160&&程序21 irgp_pseudo.pl:水稻拟(pseudo)染色体组装计算:&&160&&程序23 eukaryotes.pl:同时读取所有真核生物基因组数据包括genbank和fasta格式到本地数据库,同时对genbank格式采用自己编写的分解程序,没有用Bioperl的SeqIO模块,因为此模块引起内存消耗太大,以至于引起内存溢出。&&160&&程序24 eukaryotes_ssr.pl:从数据库中调出序列一次计算完所有的真核生物基因组的微卫星,计算时间在双CPU电脑上大约2天。&&160&&程序25 eukaryotes_ssr_single.pl:单一化真核生物微卫星motif去掉重复的motif和与存在的motif互补的motif&&160&&程序26 ncbi_send.pl:通过轮换使用多个代理服务器让NCBI认为是多个IP发送来的blast,以突破NCBI的每个IP地址同时50个在线blast任务的限制。&&160-161&&程序27 ncbi_threads_fetch.pl:10个固定线程用于同时10个blast报告获取程序,以加速NCBI的比对&&161&&程序28 virus_ssr.pl:病毒基因组的ssr计算程序&&161&&程序29 virus_genome.pl:病毒基因组的微卫星含量计算程序程序&&161&&程序30 virus_ssr_summary.pl:病毒微卫星含量计算及motif单一化程序&&161光盘附件2 (TABLES.XLS)&&161-162&&光盘附表1 真核生物基因组情况表basic information of the eukaryotic genomes;&&161&&光盘附表2 真核生物微卫星基因组大小与单一motif数、微卫星含量回归计算表computational tables of regression among the genome size,singular motifs and microsatellite content in eukaryotes;&&161&&光盘附表3 真核生物物种微卫星重复数变异能力统计参数表microsatellite repeat number variation statistic in eukaryotes;&&161&&光盘附表4 微卫星在真核生物物种中的重复频率(重复次数)一览表table of repeat frequencies(repeat number) of microsatellites in eukaryotes;&&161&&光盘附表5: 不同长度聚类的各真核物种微卫星变异统计表statistic tables of microsatellites variation with different length in eukaryotes。&&161&&光盘附表6 原核基因组一览表prokaryotic genome table;&&161&&附表7 原核基因组大小、单一motif和微卫星含量的数量关系及回归计算表tables of regression computation and quantitative relation among genome size,singular motif number and microsatellite content in prokaryotes;&&161&&光盘附表8: 真核生物微卫星变异系数与gc含量的相关分析计算表computational table of relation between microsatellite variable coefficient and GC content in eukaryotic genomes。&&161-162本研究的创新点&&162-163致谢&&163-164
湛江北部湾深水海域马氏珠母贝四种壳色选育系F5的生长速度、生长模型及其遗传多样性的SSR分析,S968.31
> 生物科学 >
& 2012 www.xueweilunwen.com

我要回帖

更多关于 上古卷轴5re捏脸数据 的文章

 

随机推荐