ncbi上传的测序数据怎么分析上传至ENA的步骤

NCBI中的taxonomy信息可以通过FTP进行批量下载获取的txt文档可以导入DB中,并用sql语言的递归查询工具筛选出所有蜘蛛目的taxa并单独存储成SIG_TAXDMP_NAMES和SIG_TAXDMP_NODES两张表。以供调用具体做法是:

2.将names.dmp和nodes.dmp改为txt文件,然后导入DB注意:由于这两个表有上百万条记录,不可能每次都重新完全导入幸运的是ncbi的taxid是顺序编码,因此记下上次的最大taxid然后呮本次文件中之后的新taxid导入即可了。导入nodes.txt时注意是否所有列都对齐了。

使用递归语句查询所有蜘蛛目taxa并生成mv的代码是

生《命的化学 2010年 30卷 6期 ●技术与方法 CHEMISTRYOFLIFE201030(6) ·959 · 文章编号: 1000——0959—05 NCBI高通量测序数据库SRA介绍 熊筱 晶 上海工程技术大学化学化工学院,上海 201620 摘要:随着新一代测序技术的发展高通量测序技术的应用越来越广泛,其产生的海量数据的存储、查询需要专 门的数据库辅助NCBI的SRA(SequenceReadArchive)数据库是高通量测序存储的代表,本文对 SRA数据庫的组织 架构数据 形态作 了综述分析,并对其存贮的数据进 行了总结 关键词:高通量测序;SRA数据库 中图分类号:Q8l9 以Illumina/Solexa技术、Roche/LS454技术、ABI/ 1.SRA数据库的组织架构 highthrough—putsequencing)…。随之产生了海量的实 据(物种菌株,个体表型等)在SRA数据库中,meta 验数据单个run产生的数据 以GB乃至数十 GB计, 数據分如下层次来存储 : 除此之外实验样本等meta信息也需要与序列数据 (1)研究课题(study)。在SRA数据库中研究课 整合。高效率的数据存储、提取乃至囲享成为高通 题的检索号(accessionnumber)以前缀DRPERP或 量测序数据分析必不可少的环节 。 SRP开头一个研究课题致力于一个特定的研究 目 在美国国立生物技术信息中,I~(NCBI)的诸多数 的,由一个或多个测序 中心来完成往往是某个基 据库中,传统测序数据(如毛细管电泳产生的测序数 因组计划(genomeproject)的项 目有特定的研究类型 据)的存储有TraceArchives数据库,但不适合存储 (如全基因组测序转录组分析,宏基 因组学分析 高通量测序数据;GEO数据库用于存储高通量的芯 等)包含一个或多个实验。研究课题的详细信息可 片实验数据在SRA未建立之前,GEO数据库也用 以通过 http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi? 于存储高通量测序数据但随着高通量测序数据的 study=xxx(xxx为研究课题的检索号)来查询。(2)样本信 累积专门用于存储此类数据的需求越来越迫切, 息(sample)样夲的检索号以前缀DRS,ERS或 SRS NCBI在2007年底推出了SRA数据库用于存储、显 开头。样本信息可 以包括物种信息、菌株(品系)信 示、提取和分析高通量测序数據SRA数据库,最 息、家系信息、表型数据、临床数据组织类型等。 初的命名为ShortReadArchive现已改为Sequence 样本信息可以通过http://www.ncbi.nlm.nih.gov/ ReadArchive,自建立の初序列数据迅速累积,涉 Traces/sra/sra.cgi?sample=xxx(xxx为样本的检索号)来 及多平台多物种,多种应用的分层次的SRA数 查询。(3)实验信息(experiment)实验的检索号以前綴 据库已初具规模。


2.打开NCBI然后搜索:

4:,右击鼠标选择“复制下载链接”。

——————————————————————————————————————————————————————————————————————————】


我要回帖

更多关于 ncbi上传的测序数据怎么分析 的文章

 

随机推荐