蛋白python 相似性分析低,做不了alignment,怎么分析

实验一利用BLAST的数据库比对分析-五星文库
免费文档下载
实验一利用BLAST的数据库比对分析
导读:实验三利用BLAST的数据库比对分析,一、实验目的,1、学习BLAST序列相似性网络核酸蛋白数据库比对方法2、进行网络核酸蛋白数据库,BLAST?(BasicLocalAlignmentSearchTool)工具是,BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中,BLAST还能发现具有缺口的比对上的序列,BLAST可处理任何数量的序列,包括蛋白序列和核算序列;实验三 利用BLAST的数据库比对分析 郑俊昌 一、实验目的 1、学习BLAST序列相似性网络核酸蛋白数据库比对方法 2、进行网络核酸蛋白数据库基因相似性分析 二、实验内容 1、BLAST工具介绍 BLAST? (Basic Local Alignment Search Tool)工具是用查询的DNA或蛋白质序列与所以可能的序列数据库进行相似性搜索的多个程序。BLAST程序运行速度快,打分合理,容易辨认出真正的匹配与随机背景的不同。BLAST不仅可以进行局部亦可以进行全局搜索,易于发现一些分隔的相似区段。 BLAST的功能: BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的比对上的序列。 BLAST可处理任何数量的序列, 包括蛋白序列和核算序列; 也可选择多个数据库但数据库必须是同一类型的, 即要么都是蛋白数据库要么都是核酸数据库。下面介绍5个BLAST分析的程序: (1) BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 (2) BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白即六框翻译),再对每一条作一对一的蛋白序列比对。 (3) BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 (4) TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 (5) TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白质(六框翻译),这样每次比对会产生36种比对阵列。 2、连接NCBI进行BLAST相似性分析 BLAST可以通过登录NCBI的BLAST服务器进行,也可以下载BLAST程序及相关数据库后进行本地BLAST分析。通常在网络连接正常的情况下,登录NCBI进行BLAST分析是首选。 1)登陆blast主页:http://www.ncbi.nlm.nih.gov/BLAST/ 2)根据数据类型,选择合适的程序 3)填写表单信息 序列的输入、比对搜索区域的选择、数据库的选择 限制调节、打分矩阵及其他参数的设置 各参数的含义: Word size选项: BLAST 程序是通过比对未知序列与数据库序列中的短序列来发现最佳匹配序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短序列(定义为“word”, 即字)的联配得分总和来决定。联配时,“字”的每个碱基均被计分:如果碱基对完全相同(如 A 与 A),得某一正值;如果碱基对不很匹配(W与A或 T),则得某一略小的正值;如果两个碱基不匹配,则得一负值。总的 合计得分便决定了序列间的相似程度。得分高的匹配序列被称为高比值片段对(high-scoring segment pairs, HSP)。BLAST 程序在两个方向扩展 HSP,直至序列结束或联配已变为不显著。替换矩阵在扫描(scanning)和扩展过程被应用。最后在BLAST报告中被列出的序列都是所有得分最高的序列。 以上述及的初始字长便是由Word size值设定。BLAST只对字长为W的“字”进行扩展联配。BLAST 的字长缺省值为 11,即 BLASTN 将扫描数据库,直到发现那些与未知序列的 11个连续碱基完全匹配的11个连续碱基长度片段为止。然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源性和几乎所有随机产生的显著联配。1 P6 F7 L; L( Y: g\“Filter”(过滤器)选项: BLAST 2.0版本的新功能,过滤器将锁定诸如组成低复杂(low compositional complexity)序列区(如Alu序列),用一系列N(NNNNNN)替代这些程序。N 代表任意碱基(IUB-code)。只有未知待检序列被过滤替代,而数据库的序列将不被过滤。过滤对绝大多数序列都是有益的,例如,多A 碱基的尾部和脯氨酸富积的序列,会得到人为的高联配得分而误导分析。这是因为这类序列数量极大,遍布整个基因组,直至整个数据库。 “Matrix”(矩阵)选项: 联配的显著性是由返回的比对分值决定的,该分值反映的是所得到的联配随机产生的概率有多大。矩阵被用于鉴别数据库中的序列,同时又用来预测匹配的显著性大小。一般应接受运行程序推荐的矩阵。BLAST系列程序主要使用两种类型矩阵(PAM和BLOSUM,前面都有介绍)。要准确地选择矩阵,必须了解矩阵和矩阵的具体计分方式。值得注意的是,直接比较使用不同替换矩阵而获得的联配得分是没有意义的。 “EXPECT”选项: 您可以为搜索设定一个期望值阀值(EXPECT),例如缺省值设为10。这一设置则表示联配结果中将有10个匹配序列是由随机产生,如果联配的统计显著性值(E值)小于该值(10),则该联配将被检出。换句话说,比较低的阀值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。 4)提交任务 选择输出格式,提交搜索 5)查看和分析结果 3、BLAST结果综合分析 提交BLAST后NCBI服务器将返回信息告知大约需要进行多久的BLAST,通常只需几秒钟。点击\按钮将会返回BLAST结果(GI=122504,alpha globin的BLAST结果-): “Graphic Summary”-首先显示的是图形界面结果:第一条红杠即查询序列本身,后面的颜色由红变紫绿蓝黑说明目标相似序列与查询序列相似性程度的不断降低。点击条杠即可以看到他们的真实比对结果。
“Descriptions”一栏显示与查询序列显著度较好的BLAST结果,E值小于前面的设置值。
如果输入的序列为没有注释过的但是来自数据库的,一般是可以获得显著相似的BLAST结果的,但如果输入的为随机键盘序列,则不一定能够出来显著相似的结果。从结果中可以作出相应的判断,得到与查询序列显著相似的序列,从而断定输入的查询序列的结构及其功能即获得了其基因注释。 “Alignments”一栏显示的是具体的比对结果:即与查询序列相似的达到显著的比对。 此外,针对BLAST的结果还可以进一步进行基因距离树即发育树构建,也可以进行多序列比对分析。 三、实验结果
包含总结汇报、人文社科、旅游景点、文档下载、外语学习、行业论文、专业文献、经管营销以及实验一利用BLAST的数据库比对分析等内容。
相关内容搜索 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
蛋白质序列相似性分析
下载积分:1000
内容提示:蛋白质序列相似性分析
文档格式:PDF|
浏览次数:102|
上传日期: 13:02:41|
文档星级:
全文阅读已结束,如果下载本文需要使用
 1000 积分
下载此文档
该用户还上传了这些文档
蛋白质序列相似性分析
官方公共微信文档分类:
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,
下载前请先预览,预览内容跟原文是一样的,在线预览图片经过高度压缩,下载原文更清晰。
您的浏览器不支持进度条
下载文档到电脑,查找使用更方便
还剩?页未读,继续阅读
播放器加载中,请稍候...
该用户其他文档
下载所得到的文件列表生物序列的相似性研究及其k词模型的分析.pdf
文档介绍:
分类号:pm密级:公刁∥户蒙单位代码:10422学号:≥一吵2D爿上办番UNIVERSITY博士学位论文DissertationforDoctoralDegree作者姓名培养单位专业名称指导教师合作导师召P牛荔誓爹夕左.盘墨翌至墨墅垫逐丝i寸。塞逸基金丝丝一心年y月6日√欷.m贴彬眦军肌删‰州~枷憎厶的胁^蚋叮口纫0划艮∥踟万方数据AnalysisofBiologicalSequencesSimilarityandResearchon尼.wordModel生物序列的相似性分析及忌词模型研究THESISSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofDOCTORoFPHILOSoPHY(ProbabilityandMathematicalStatistics)attheSHANDoNGUNIVERSITYbyWeiDengSupervisor:Prof.YihuiLUANApril2015万方数据~原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:兰E!坌日期:≥世.丛≯关于学位论文使用授权的声明本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。(保密论文在解密后应遵守此规定)论文作者签名:丑凌导师签名:盘之至日期:≥尘£:竺万方数据山东大学博士学位论文中文摘要英文摘要目录第一章绪论§1.1生物信息学研究背景介绍.........................§1.2生物信息学研究对象............................§1.3生物信息学研究内容............................§1.4本文的主要工作.....................,........第二章生物序列的相似性比较§2.1引言.....................................§2.2生物序列的比较..............................§2.2.1序列比对方法(SequenceAlignment)...............§2.2.2非序列比对方法(FreeSequenceAlignment)...........第三章DNA序列的CGR图形表示模型§3.1引言.....................................§3.2CGR简介................,................§3.2.1混沌游戏(TheChaosGame)介绍................§3.2.2DNA序列的混沌游走表达(ChaosGameRepresentation)...§3.2.3改进的CGR空间.........................§3.2.4CGR游走数值序列........................§3.3DNA序列的数值特征...........................§3.4九个不同物种的p一基因外显子序列的相似性分析...........§3.4.1相似性分析.............................§3.4.2与其他结果对比..........................§3.5总结和讨论....。...........。......。..。...。。.第四章基于DV-Curve表达的蛋白质序列分析和应用§4.1引言....................?...............§4.2蛋白质序列的DV—Curve表达。。。。..。.。。........。....§4.2.1蛋白质序列分类..........................vnn万方数据山东大学博士学位论文§4.2.2蛋白质序列的图形表达......................§4.3蛋白质序列的数值特征..........................§4.4应用.....................................§4.4.1基于蛋白质DV-Curve直观图形的相似性分析..........54.4.2基于冠状病毒的系统发育树分析.................第五章基于k-tuple分布的DNA序列的概率模型§5.1引言.....................................§5.2模型建立..................................55.2.1基本概念和背景介绍........................§5.2.2构建特征向量...........................。§5.2.3度量方法..............................§5.3结果讨论..................................55.3.1进化树构建.............................§5.3.2背景分析..............................§5.4结束语...................................参考文献参考文献致谢攻读博士学位期间完成论文情况盯盯%竹万方数据山东大学博士学位论文生物序列的相似性分析及k词模型研究邓伟(山东大学数学学院,济南,250100)摘要伴随着科学技术的迅猛发展,同时人类基因工程计J;lJ(HumanGenomeProjec,HGP)也已经进行了全面实施,人们所获得的生物序列数据与日俱增,生物学的研究重点也逐步从积累数据过渡到分析解释这些数据.这其中蕴含着丰富的生物信息,能将它们管理好并从中提取尽可能多的信息是一项有意义的工作,因而很多数学家、生物学家和计算机科学家等多个领域的研究者都被吸引到生物信息这个新的交叉学科中来.而生物序列的比较是其中最重要、最基本的内容之一,因为很多其它的研究工作,像分子进化问题、蛋白质结构预测问题和基因识别问题等都是建立在上述工作的基础上.序列比对(sequencealignment)是分析生物序列的传统方法,而限于该分析方法自身存在的一些缺陷,非比对(alignment.free)方法作为其补充和改进而出现,并迅速发展成为计算分子生物学的研究热点之一.在此以DNA序列、蛋白质序列作为本文的研究对象,在图形表示和k词模型的基础上,提出了生物序列的一些新的非比对模型,并进行了相似性分析和进化树的构建.主要1
内容来自淘豆网转载请标明出处.蛋白产生方法及其用途的制作方法
专利名称蛋白产生方法及其用途的制作方法
技术领域本发明涉及具有改进的性质的蛋白,尤其是Rubisco蛋白的产生 方法及其用途。
背景技术核酮糖-l,5-二磷酸(RuBP)羧化酶/氧合酶更常见为缩写Rubisco。 Rubisco是参与卡尔文(Calvin)循环中固碳的酶,通过所述卡尔文循环空 气中的二氧化碳被固定并以高能分子的形式可供生物系统利用。
在植物、藻类、蓝细菌及向光性和化能自养变形菌中,Rubisco包 含大亚基(LSU)链和小亚基(SSU)链。底物结合位点位于所述大链内。 大链形成二聚体,其中来自各条大链的氨基酸造就了结合位点。总共 四个大链二聚体和八条小链组装成约540,000 Da的更大的复合体。
Rubisco催化光合作用中C02同化的第一步(碳还原),还催化产生 在光呼吸碳氧化中回收的废产物的02的竟争性固定。Rubisco是无机 碳进入生物系统的关键化学反应的主要催化剂的事实突出了它的重要 性。此外,Rubisco是非常丰富的蛋白。Parry等(2003)指出Rubisco占 叶绿体中总可溶蛋白的30%~50o/o。
然而,Rubisco的相对丰富可归因于它是非常緩慢作用的酶的事 实,它每秒仅固定若干C02分子,与之相反的是许多酶的特征在于每秒数千化学反应。所述酶作为RuBP羧化的催化剂效率低下且受到02 的竟争性抑制、氨曱酰化损耗的失活以及在所述酶被C02氨曱酰化激 活之前由于RuBP结合的端点抑制。该非最佳行为使Rubisco成为光合 作用中的限速。因此,在大多数情况下和当光照没有限制光合作用时, Rubisco是卡尔文循环的主要限速酶。
由于Rubisco对于植物中的光合作用常常是限速的,Rubisco的改 良形式将对提高农业生产力产生显著影响。已经进行一些尝试以提高 Rubisco介导的反应的效率。此前研究包括将表达Rubisco的构建体从 一个生物体引入另一个生物体、增加Rubisco亚基的表达水平、从叶绿 体DNA表达Rubisco小亚基和通过诱变改变Rubisco基因以便试图增 加对二氧化碳(超过氧气)的特异性或者增加固碳速率。
已经尝试了将外来Rubisco,例如来自具有高0)2/02特异性的诸 如GaWen'a p"W/to的红藻的Rubisco,引入开花绿色植物中。原本期 望这将改善农作物的光合作用效率,但这些尝试由于外来Rubisco在宿 主植物中的产生、组装和调节的问题而失败(Spreitzer and Salvucci, 2002; Parry等,2003)。另一方面,已经成功地用更简单的紫色光合细菌深红 红螺菌(i /zodos^W〃wm n^n/w)的同源大亚基替代了烟草Rubisco的大 亚基,所述深红红螺菌无需小亚基以进行折叠和组装为活性酶 (Andrews和Whitney, 2003)。尽管证实了 Rubisco替代是切实可行的, 但转基因植物表现出深红红螺菌Rubisco的非常差的特异性和催化性 质。
使用定点突变连同来自数个物种的Rubisco复合体的X射线晶体 学结构的认知进行了大量尝试以确定活性位点残基在反应的特定步骤 中的作用或修饰,以及改进Rubisco的催化性质。然而,这些研究没能 提供在整个反应时间过程中活性位点残基的各种作用的详细且前后一 致的定义。这些技术一律未能成功设计出"更好的"Rubisco。尽管通过 这些研究可以推导出Rubisco作用的一种机理,然而该才几理由于对不完 整实验数据的不同的可能解释而不是唯一的,因此它可能并非现实中 存在的机理。例如,在对Rubisco的Cleland共享机理中提出的机理假 设在羧化反应活性复合体形成前从活性位点的镁置换了 一个水分子, 因此反应中的所有后续步骤也在发生了该置换的前提下进行。然而,没有水事实上被置换的实验证据。
与之对比的是许多其它酶的再造(re-engineering)程序,其中已证实 了直接从由实验获得的结构和机理数据导出的单一突变或某些情况下 的多重突变成功地在可预知的所需方向改进了底物特异性或催化效率。
实现Rubisco的理论再造方法的主要困难是,由于上述实验数据的
接证据,也没有提供所有参与的活性位点残基的准确作用。实验方法
于实验探针是"隐形"的。Rubisco活性位点的复杂性和涉及一系列反应 的事实与上述困难叠加在一起。已提出有包括参与不同反应步骤的活 性位点残基的不同组合的多个活性位点"元素",其中所述残基基团常 常被重复使用。
似乎现有Rubisco仅代表最优化酶效率的"部分进化方案",即不能 有效采样LSU序列空间的进化过程,且似乎这些现有解决方案代表了 远非最佳的解决方案。因此,有机会可通过不同途径或途径组合来创 建比生物进化目前为止能提供的方案更理想的解决方案。
通过转化、选择性育种或其它操作在光合生物中更有效的Rubisco 形式的创建或鉴定和? 1入可以允许这些生物包括绿色植物尤其是开花 植物更有效的生长,因为它们将更有效的利用水和氮气,且能在更高 温度下更有效的生长。这反过来为更高产作物、退化或易干旱土地的 植被恢复、固碳的改良选择和生物燃料或生物质能的生产的改善等等 提供了前景。
总之,需要产生具有改进的功能性质的蛋白诸如Rubisco,其中例 如这些蛋白具有改进的效率且特异性地适应于特定环境条件。
本发明人假设了现存Rubisco仅采样了一部分理论上可利用的突 变空间以改善其效率且不同空间可能由不同Rubisco组所采样。因此, 他们提出了通过将来自 一个以上系统发育组或来自 一个以上适应环境 的物种的特征4家接到宿主Rubisco上来将这些部分进化"方案"结合以便获得比在自然上可能的更宽的进化突变采样。他们提出该过程将鉴
定出具有改进的效率或其它功能性质的Rubisco。
才艮据本发明的第一方面,提供了生成具有改进的功能性质的蛋白, 所述方法包括
(a) 鉴定第一蛋白中的至少一个目标氨基酸残基,其中所述目标氨 基酸残基与所述功能性质相关;
(b) 将第一蛋白与来自于第 一蛋白相同或不同的系统发育分支的 至少一个同源第二蛋白比较并鉴定第一蛋白与第二蛋白之间的至少一 个变异氨基酸残基;
(c) 在候选氨基酸残基影响与所述功能性质相关的所述目标氨基 酸残基的基础上从(b)中所鉴定出的变异氨基酸残基中选择至少一个所 述候选氨基酸残基;
(d) 计算机模拟形成至少一个候选突变蛋白或在体外产生至少一 个候选突变蛋白,其中来自第二蛋白的至少一个候选氨基酸残基取代 了第一蛋白中的相应残基;和
(e) 筛选(d)中产生的所述至少一个候选突变蛋白以鉴定具有改进 的功能性质的蛋白。
在一个实施方式中,步骤(a)和步骤(b)可同时进行。 在另一个实施方式中,步骤(b)可在步骤(a)之前进行。 在一个实施方式中,步骤(a)的对第一蛋白中至少一个目标氨基酸
残基的鉴定可减少为来自步骤(b)中鉴定的变异氨基酸残基的候选氨基
酸残基而检验的序列空间量。
在一个实施方式中,步骤(d)包括通过使用来自第二蛋白的至少一
个候选氨基酸残基来取代同源蛋白中和/或不同于第 一蛋白或除第 一蛋
白之外的同源蛋白中的相应残基而形成或生成至少一个候选突变蛋白。
在另 一实施方式中,步骤(d)包括通过使用来自第二蛋白的至少两 个候选氨基酸残基来取代第 一蛋白中和/或不同于第 一蛋白或除第 一蛋 白之外的同源蛋白中的相应残基而形成或生成至少一个候选突变蛋 白。
在一个实施方式中,所述至少一个目标氨基酸残基包含在第一蛋白中或含有第一蛋白的蛋白组中。
在某些实施方式中,所述至少一个目标氨基酸残基为至少2个、 至少3个、至少4个、至少5个、至少10个、至少12个、至少15个、 至少20个、至少30个或至少50个目标氨基酸残基。
在一个实施方式中,所述蛋白是酶并且且所述改进的功能性质选 自以下的一种或多种,即改进的所述酶的动力学效率、改变的所述酶 对一个或多个底物的特异性、改变的所述酶对一个或多个产物的特异 性和改变的酶催化有效温度范围。当所述蛋白是Rubisco时,所述改进 的功能性质可为改进的催化效率或改进的对二氧化碳的特异性。
在一个实施方式中,所述目标氨基酸残基选自直接与底物或反应 中间体相互作用的那些残基,所述残基包括例如在Rubisco中与反应中 心直接配位的那些残基("第一层"残基),或与一个或多个上述残基直接 配位的那些残基(即,"第二层"残基)。当所述蛋白为Rubisco时,Rubisco 第 一层残基可选自Glu60 、 Asn 123 、 Lys 175 、 LYS177、 KCX201 、 Asp203 、 Glu204、 His294和Lys334的任何一个或多个。
在一个实施方式中,所述Rubisco蛋白的目标氨基酸残基是在 Rubisco蛋白大亚基的N端域。所述N端域目标氨基酸残基可参与由 Rubisco酶介导的羧化酶催化的气体加成步骤。在一个具体实施方式
中,参与所述气体加成步骤的N端域目标氨基酸残基选自ASN123、 GLU60和Tyr20。
在一个实施方式中,所述蛋白是酶,并且在适应于具体生长环境 的动力学和功能特性诸如热适应或冷适应或抗干旱的基础上选择所述 第二蛋白。这些特性可以从所述第二蛋白的环境多样性数据中鉴定。
在另外一个实施方式中,所述至少一个候选氨基酸残基被鉴定为 能影响(a)中鉴定的所述至少一个目标氨基酸残基的残基且所述至少一 个候选氨基酸残基调节了所形成蛋白的功能性质。所述候选氨基酸残 基由于该候选氨基酸残基与所述至少一个目标氨基酸残基的临近而可 能影响与所述功能性质有关的所述至少一个目标氨基酸残基。例如, 所述影响可能出于位阻效应、静电效应和疏水效应。
在某些替代性实施方式中,步骤(c)包括从(b)中所鉴定的变异氨基 酸残基中选择至少 一个趋异候选氨基酸残基而非至少 一个候选氨基酸残基。在具体实施方式
中,步骤(c)包括选择至少2个趋异候选氨基酸 残基。
在某些替代性实施方式中,步骤(c)包括从(b)中所鉴定的变异氨基
酸残基中选择至少 一个替代候选氨基酸残基而非至少 一个候选氨基酸
残基。在具体实施方式
中,步骤(c)包括选择至少2个替代候选氨基酸 残基。
在其它具体实施方式
中,步骤(c)包括从(b)中所鉴定的变异氨基酸 残基中选择至少 一个替代候选氨基酸残基和至少 一个趋异候选氨基酸 残基而非至少两个候选氨基酸残基。
在一个实施方式中,鉴定至少一个目标氨基酸残基的步骤(a)包括 基于所述蛋白结构的经验数据的活性位点片段QM计算和/或杂化 QM/QM和/或QM/MM计算的步骤。在一个实施方式中,所述经验数 据是X射线晶体结构或溶液NMR结构。在一个实施方式中,所述经 验数据还包括突变数据、动力学数据、同位素鉴别、量热数据和光谱 数据中的任意一个或多个(Fersht, 1998; Frey和Hegeman, 2007)。在一个 实施方式中,通过用QM/MM可能性分子动力学(MD)模拟对所述 QM/MM计算进行了补充(Gready爭,2006)。
在一个实施方式中,从所述至少一个变异氨基酸残基选择至少一 个候选氨基酸残基的步骤包括评估(a)中鉴定的所述至少一个目标氨基 酸残基与(b)中鉴定的变异氨基酸残基的临近性和/或与二级结构单元 的相对位置。
选择至少 一个候选氨基酸残基的步骤(c)可包括鉴定所述第 一蛋白 和所述第二蛋白之间与静电相互作用和/或疏水相互作用有关的变化, 所述静电相互作用和/或疏水相互作用是(b)中所鉴定的一个或多个变 异氨基酸残基与(a)中所鉴定的至少 一个目标氨基酸残基和/或含有步 骤(a)中所鉴定的至少一个目标残基的二级结构单元之间的相互作用。 所述选择过程还包括鉴定除去由在第一蛋白中引入候选氨基酸残基造 成的位阻效应所必须的补偿突变。
在另一实施方式中,筛选至少一个候选突变蛋白的步骤包括计算 机模拟分析、生化评估和生理学评估中的任何一种或多种。所述生化 评估可包括蛋白的正确折叠和/或组装的评估、蛋白结构的评估、蛋白的催化活性和/或其它结合功能的评估或蛋白在体外的稳定性的评估。 所述生理学评估可包括蛋白的正确表达、正确折叠和/或组装的评估、 蛋白结构的评估、蛋白的催化活性的评估或蛋白在体内的稳定性的评估。
在所述第一方面的另一个实施方式中,所述方法还包括在步骤(C) 之后和步骤(d)之前的额外步骤,该额外步骤对预测为在所述至少一个 目标氨基酸残基上有累积效应的候选氨基酸残基分组。例如所述累积 效应可通过静电效应和/或疏水效应和/或位阻效应中的一种或多种由 例如修饰所述效应的在二级结构单元和环的定位上的协同效应或补偿 效应而发生影响。
在另 一个实施方式中,所述方法包括紧接步骤(d)之后进行的对具 有所述改进的功能性质的候选突变蛋白排序的额外步骤。对所述候选 突变蛋白排序的过程可包括评估它们具有所述改进的功能性质的相似 性。该过程包括评估所述候选突变蛋白中候选氨基酸残基和/或替代候 选氨基酸残基和/或趋异候选氨基酸残基对所述改进的功能性质的相对 可能性贡献。
在一个实施方式中,所述第一方面包括将从步骤(e)中候选突变蛋 白的至少 一 轮筛选导出的信息用于蛋白结构内部的亚区的鉴定,所述 亚区优先影响与所述区域相连的目标氨基酸残基的性质。
在另一个实施方式中,所述亚区可提供鉴定经预测可与由步骤 (a) (e)鉴定的候选残基、替代候选残基和/或趋异候选残基相互作用的 额外候选残基、替代候选残基、共变异残基和/或趋异候选残基的基础。 所述多轮筛选可用于产生一组优选突变位点,及其一组优选的组合。
在所述第一方面的另一个实施方式中,所述方法包括在具有所述 改进的功能性质的蛋白上进行定向进化并筛选其产物的额外步骤。
根据本发明的第二方面,提供了产生具有改进的功能性质的 Rubisco蛋白的方法,所述方法包括
(a) 鉴定第一Rubisco蛋白中的至少一个目标氨基酸残基,其中所 述目标氨基酸残基与所述功能性质相关;
(b) 将第一 Rubisco蛋白与来自于第一 Rubisco蛋白相同或不同的 系统发育分支的至少一个同源第二 Rubisco蛋白进行比较并鉴定第一Rubisco蛋白与第二 Rubisco蛋白之间的至少一个变异氨基酸残基;
(c) 在候选氨基酸残基影响与所述功能性质相关的所述目标氨基 酸残基的基础上从(b)中所鉴定的变异氨基酸残基中选择至少一个所述 候选氨基酸残基;
(d) 通过计算机模拟形成至少一个候选突变Rubisco蛋白或在体外 产生至少一个候选突变Rubisco蛋白,其中来自第二 Rubisco蛋白的所 述至少一个候选氨基酸残基取代了第一 Rubisco蛋白中的相应残基;和
(e) 筛选(d)中产生的所述至少 一个候选突变Rubisco蛋白以鉴定具 有所述改进的功能性质的Rubisco蛋白。
在一个实施方式中,步骤(a)和步骤(b)可同时进行。 在另 一个实施方式中,步骤(b)可在步骤(a)之前进行。 在另一个实施方式中,步骤(a)的对第一蛋白中至少一个目标氨基 酸残基的鉴定减少了为来自步骤(b)中鉴定的变异氨基酸残基的^f夷选氨 基酸残基而枱r验的序列空间量。
在所述第二方面的另一实施方式中,用于与第一Rubisco比较的第 二 Rubisco蛋白的残基包含与Rubisco蛋白活性位点直4妄配位的所有残 基、与Rubisco蛋白的底物或中间体反应物种的反应活性中心相互作用 的所有残基,以及在Rubisco蛋白活性位点的近距离内的其它残基或这 些残基的子集。例如所述接近距离可为离底物或中间体反应物种的任 何原子3A 28A。典型的是,所述接近距离为离底物或中间体反应物 种的任何原子6A 20A。更典型的是,所述接近距离为离底物或中间 体反应物种的任何原子9 A ~15 A。
在所述第二方面的一个实施方式中,所述第一 Rubisco蛋白取自绿 色植物和蓝细菌,而所述第二 Rubisco蛋白取自红藻。在一个具体实施 方式中,所述第一 Rubisco蛋白取自开花植物和蓝细菌,而第二 Rubisco 蛋白取自红藻。
在所述第二方面的一个实施方式中,步骤(c)包括从(b)中所鉴定的 变异氨基酸残基中选择至少一个趋异候选氨基酸残基而非至少一个候 选氨基酸残基。在具体实施方式
中,步骤(c)包括选择至少2个趋异候 选氨基酸残基。
在所述第二方面的某些替代性实施方式中,步骤(c)包括从(b)中所鉴定的变异氨基酸残基中选择至少一个替代候选氨基酸残基而非至少
一个候选氨基酸残基。在具体实施方式
中,步骤(c)包括选择至少2个
替代候选氨基酸残基。
在其它具体实施方式
中,步骤(c)包括从(b)中所鉴定的变异氨基酸 残基中选择至少一个替代候选氨基酸残基和至少一个趋异候选氨基酸 残基而非至少两个候选氨基酸残基。
在所述第二方面的一个实施方式中,提供了纯化Rubisco蛋白的方 法,所述方法包括步骤
(a) 将H6标记的泛素(Ub)序列(H6Ub)融合进第一载体至rbcS基因 的5'端;
(b) 将所述第 一载体与编码Rubisco蛋白的大亚基和小亚基的第二 载体共转化到宿主内;
(c) 诱导所述Rubisco蛋白和载体的表达;
(d) 基于融合到所述Rubisco小亚基的泛素标记的表达来纯化所述 Rubisco蛋白;
(e) 从所述Rubisco中去除Ub片段。
在一个实施方式中,纯化所述蛋白的步骤(d)使用色谱诸如金属亲 和色谱进行。
在一个实施方式中,所述第一和/或第二载体为质粒。 在一个实施方式中,所述宿主为大肠杆菌。 在一个实施方式中,所述大亚基包含一个或多个突变。 在一个实施方式中,所述Ub片段使用Ub特异性蛋白酶除去。 根据本发明的第三方面,提供了由本发明的第一或第二方面的方 法产生的蛋白。
根据本发明的第四方面,提供了由本发明的第一或第二方面的方 法产生的Rubisco蛋白。
根据本发明的第五方面,提供了包含如SEQIDNO:26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 74、 76、 78所示的序列或其功能性等价物的Rubisco 蛋白。
根据本发明的第六方面,提供了由如SEQIDNO: 25、 27、 29、 31、33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 73、 75、 77所示的多核苦酸或其功能性等价物编码 的Rubisco蛋白。
根据本发明的第七方面,提供了包含一个氨基酸残基取代或氨基 酸残基取代组合的Rubisco大亚基多肽,所述氨基酸残基取代或氨基酸 残基取代组合选自(Y25W, D51I)、 (Y25W, D51V)、 (T23G, K81R)、 (G54A, C84A, 187V)、 (G54S, C84A, 187V)、 (T23G, Y25W, D51I, K81R)、 (Y25W, D51I, G54A, C84A, 187V)、 (Y25W, D51I, G54S, C84A, 187V)、 (Y25W, D51V, G54A, C84A, I87V)、 (V121I, M297G, V300T)、 (L36I, 1116L, F140L)、 (L36I, I116L, V121I, F140L, M297G, V300T)、 (K18I, T23G)、 (K21A, L22K,(空隙)M, T23G, Y25W)、 (T23G, K18I, T68V, K81R)、 (T23G, K81R, P104E)、 (T23G, D19P, K81R)、 (T23G, K81R, V121I, M297G, V300T)、 (T23G)、 (K81R)、 (V121I, M297G)、 (M297G)、 (V1211)。
在一个实施方式中,所述Rubisco大亚基存在于Rubisco蛋白中。 在一个实施方式中,所述Rubisco蛋白以保留了 Rubisco的生物活性的 融合蛋白或其片段的形式提供。
本发明还提供了根据所述第七方面编码Rubisco LSU多肽的多核 苷酸。
本发明还提供了包含所述第五方面的多核苷酸序列或第六方面中 定义的多核苷酸序列的载体。
在一个实施方式中,所述载体包含组成型启动子或选择性表达启 动子。在一个实施方式中,所述载体包含选择性标记。
根据本发明的第八方面,提供了用根据如上方面的核酸序列或载 体转化的宿主细胞。
在一个实施方式中,所述宿主细胞为原核细胞或真核细胞。在某 些实施方式中,所述原核宿主细胞为细菌细胞诸如大肠杆菌。
根据本发明的第九方面,提供了用上述方面之一 的核酸序列或载 体转化的光合生物体。在一个实施方式中,所述光合生物体为蓝细菌。
在另一实施方式中,所述生物为聚球藻(S,ec/20COCCW力,诸如聚球
藻PCC7942或聚球藻PCC6301 。在一个实施方式中,所述光合生物为开花植物。所述生物可为野
生型或转基因烟草(普通烟草(iWc^/wa"a to6acwm))。所述转基因烟草可 为其中天然烟草AcL被来自深红红螺菌(W/zo^w; zV77/ww ra6raw)的 AcM所替代的转基因烟草。
在一个实施方式中,所述蛋白在光合作用细胞器中表达。
在另外一个实施方式中,所述细胞器为质体。
在另一个实施方式中,所述细胞器可选自包括叶绿体(含叶绿素的 质体)、黄化质体(未在光下暴露的叶绿体)、有色体(非含叶绿素质体) 或白色体(储存淀粉(淀粉体)、脂(油质体)或蛋白(蛋白质体)的无色质体) 的光合真核生物质体。
根据本发明的第十方面,提供了增加生物的光合作用效率的方法, 所述方法包括在所述生物内引入编码根据上述任一方面的Rubisco蛋 白的核i^f列并表达所述Rubisco蛋白。
根据本发明的第十一方面,提供了增加农作物产量的方法,所述 方法包括在所述农作物植4朱内引入编码根据上述任一方面的Rubisco 蛋白的核酸序列。
根据本发明的第十二方面,提供了增加植物抗旱性的方法,其中 所述方法包括在所述植物中引入编码才艮据上述方面之一的Rubisco蛋 白的核晚字列。
根据本发明的第十三方面,提供了增加一种或多种植物或其它光 合生物的生物量的方法,其中所述方法包括在所述植物或生物中引入 编码才艮据上述方面之一的Rubisco蛋白的核酸序列。
根据本发明的第十四方面,提供了生产包含来自 一种或多种植物 或其它光合生物的材料的生物燃料的方法,其中所述方法包括在所述 植物或生物中引入编码根据上述方面之一的Rubisco蛋白的核酉拼列。
在所述第十至第十四方面的一个实施方式中,所述蛋白的引入可 包括转化、有性繁殖的步骤或其组合。
a"dA 带来对链霉素和大观霉素耐受的质粒基因
ACR 替代候选残基2CABP 2-羧基阿拉伯糖醇-l,5-二磷酸
2C3KABP 2-羧基-3-酮基阿拉伯糖醇-l,5-二磷酸
3-PGA 3-磷-D-甘油酸酯
CM 候选突变体
CPK模型 半径与原子范德华半径成比例的球形原子的
Corey-Pauling-Koltu空间填充分子模型
CR 候选残基
CvR 共变异残基
DCR 趋异候选残基
DFT 密度泛函理论
ESP 静电势
FM 片段模型
H6 6倍体组氨酸亲和标记
《c 0%氧气下C02的Michadis常数(Km)
21°/。(环境)氧气下C02的Michaelis常数(Km)
羧基化转换率
《。或《,。 02的Michaelis常数(《J
LSU 大亚基
MD 分子动力学
PDB号 蛋白数据库(Protein Data Bank)编号
ONIOM 本发明自有n层整合分子轨道+分子力学方法
QM 量子力学
QM/MM 杂化量子力学/分子力学
QM/QM 杂化量子力学/量子力学
AcL 编码Rubisco大亚基的多核苷酸
AcLS 编码聚球藻的Rubisco大亚基的多核苦酸
AcLS- (或/^cL-S)编码聚球藻的Rubisco大亚基和Rubisco小亚
AcSS 基的多核苷酸
AcM 编码来自深红红螺菌的II型Rubisco的多核苷酸
AcS 编码Rubisco小亚基的多核苷酸
AcSS 编码聚球藻的Rubisco小亚基的多核苷酸RuBP 核酮糖-1 ,5-二磷酸
Rubisco 核酮糖-l,5-二磷酸羧化酶/氧合酶
Sc,o 定义为(kccat/ Kc)/ (k°eat/ Ko)的C02相比02的Rubisco特异
SSU 小亚基
SsVR 物种特异性变异残基
TIM桶 首先在磷酸丙糖异构酶中确定的蛋白域结构
TR 目标残基
K皿 外推最大羧化酶活性
VR 变异残基
如本申请中所用,除非上下文明确说明,单数形式"一个,,和"所述 一个"包括复数指代。例如,术语"一个植物细胞"也包括复数个植物细胞。
如本文所用,词语"包含"意指"包括"。词语"包含"的变化形式,诸 如不同人称下使用的"包含",具有相应变化的意思。因此,例如,"包 含"编码蛋白的序列的多核苷酸可以仅由该序列组成或包含一个或多 个其他序列。
"宿主细胞"是指含有引入的核酸构建体并支持所述构建体的复制 和/或表达的细胞。宿主细胞可为原核细胞诸如大肠杆菌,或真核细胞 诸如藻类、真菌、酵母菌、昆虫、两栖动物、线虫、植物或哺乳动物 细胞。所述宿主细胞可为植物细胞,诸如单子叶植物细胞或双子叶植 物细胞。宿主细胞的一个实例为大肠杆菌宿主细胞。
本文所用术语"绿色植物"意欲涵盖包括但不必限于来自蕨类植物 门(户teW^p/^a)(蕨类)、苔藓植物门CSo^/ /^to)(莒藓)、轮藻门 (C77"ra/7/^to)和绿藻门(C7z/orap/^to)(水生绿藻)、木兰门 (Mag"o/z'o/ /^to)(开花植物或被子植物)和松柏门(乃V2op/z少to)(针叶树)的 单细胞或多细胞生物的生物。如本文所用,"同源"蛋白是共享进化起源的蛋白。同源蛋白可共 享相同的主要功能(直系同源蛋白)或可展示明显不同的进化分化的功 能(旁系同源蛋白)。
如本文所用,"核酸"指多核香酸且包括脱氧核糖核苦酸或核糖核 香酸碱基的单链或多链聚合物。核酸还可包括片段和修饰的核苦酸。
如本文所用"可行性连接"指至少两个序列的功能性连接。可行性 连接包括启动子与第二序列之间的连接,其中所述启动子序列启动并
介导对应于所述第二序列的DNA序列的转录。AcL-S是可行性连接序 列的一个实例。
如本文所用,"光合作用"指在绿色植物和某些其它生物中的使用 光作为能量来源从二氧化碳和水合成糖的过程。光合作用的大多数形 式释放氧气作为副产物。
如本文所用,"系统发育分支"指一组线性相连的生物。在本发明 的背景下,系统发育学制定了根据进化关联性程度分类生物组的方法。 一个系统发育分支可包含不同分类学的门、纲、目、科、属或种的生 物。
"系统发育移植"指将来自一个系统发育分支的生物的供体蛋白的 至少一个氨基酸残基引入来自不同系统发育分支的生物的接受蛋白内 的过程,所述过程的目的是改善所述接受蛋白的功能性质。系统发育 移植可通过将至少一个氨基酸残基取代到接受蛋白序列中的给定位置 来执行,所述至少一个氨基酸残基位于在系统发育分析基础上选出的 第二供体蛋白中的相同位置。
如本文所用,"植物"包括了植物以及包括但不限于植物细胞、诸 如叶、茎、根、花和种子的植物组织在内的植物部分。
如本文所用,"启动子"指参与RNA聚合酶和其它蛋白的识别和结 合乂人而启动转录的DNA区域。
如本文所用,"蛋白"指无论天然还是合成产生的通过肽键或修饰 肽键连接的任何氨基酸聚合物。本发明的蛋白可包含非肽成分,诸如 糖基。糖和其它非肽取代基可以由产生所述蛋白的细胞加入,且随细 胞类型变化。本文中根据蛋白的氨基酸主链结构而定义蛋白;诸如糖 基的取代基通常不具体说明,但仍然可能出现。如本文所定义,蛋白的"功能"指所述蛋白在细胞内的正常作用, 或可设计所述蛋白来执行的作用。当蛋白为酶时,所述功能可为至少 一个化学反应的催化。在其它实施方式中,所述功能可为结构性的(例 如充当细胞骨架蛋白)。所述功能可能涉及在细胞内或细胞内部和细胞 外部之间、或细胞内不同隔室之间、或生物的不同区域之间的物质的 主动和被动转运,例如其中蛋白参与通道或膜孔、或蛋白参与将材料
运送到特定细胞隔室或蛋白充当分子伴侣或转运子。所述功能可能与 配体/受体相互作用有关,例如其中蛋白是生长因子、细胞因子、神经
递质或者细胞内或细胞外配体,或蛋白是所述生长因子、细胞因子、 神经递质或者细胞内或细胞外配体的受体。
当蛋白为酶时,该酶可参与分解代谢或新陈代谢。所述酶可参与 至少一种产物的合成。所述酶可参与至少一种底物的化学修饰,例如 在分子内添加或删除一个或多个磷酸基。所述酶可参与至少一种底物 的降解。
因此,蛋白的"功能性质"是有助于蛋白功能的性质。例如当蛋白 为酶时,所述功能性质可为酶对具体底物的特异性、酶的动力学效率、 酶的催化有效温度范围,或酶对催化其正常反应并最小化产生不需要 的和/或可能有毒的副产物的副反应的特异性。
术语"残基"在多肽的背景下是指线性多肽链的氨基酸单元。它是
当在多肽形成中从a-氨基酸即NHrCHR-COOH除去水之后每个^J^ 酸的所剩余的部分,即-NH-CHR-C-。
术语"目标氨基酸残基"或"目标残基"(TR)指被鉴定为和/或预测为 直接对蛋白功能作出贡献的氨基酸残基。当蛋白为酶时,目标残基对 功能性质的贡献可以是所述目标残基在由所述酶执行的催化反应上在 一个或多个所述酶的活性位点通过与所述活性位点直接相互作用或参 与的直接影响。目标残基不会远离酶活性位点。当蛋白为受体时,所 述目标残基将直接参与受体位点。在本文所述方法中,可通过计算和/ 或分子模拟方法来鉴定目标残基,因为这些方法能考虑与酶活性位点 或受体位点内的目标残基相关的水分子、质子、电离状态和氢键,而 这无法由实验明确地定义。在本发明的方法中,期望的是所述目标残 基的突变将通常导致功能的破坏或降低。于是在本发明的方法中,所述目标残基并非通过用另一氨基酸取代直接改变,而是通过对与所述 目标残基相互作用的一个或多个残基的操作来"调节"所述目标残基的 性质诸如其位置和电荷。
术语"变异氨基酸残基"或"变异残基"(VR)指第二蛋白的特定氨基
酸残基或在多个第二蛋白的共有序列中鉴定的特定氨基酸残基,其中 所述残基不同于与所述第二蛋白同源的第一蛋白中发现的对应氨基酸 残基。变异残基可使用例如第一和第二蛋白的氨基酸序列的比对来鉴 定。第一蛋白和/或第二蛋白的序列可为共有序列。所述序列可来自相
同或不同系统发育分支的生物。对于Rubisco大亚基,不同生物的序列 之间很少存在除对Rubisco催化功能无关紧要的N端或C端区域外的 序列添加或删除。然而,出于本发明的目的,在一个实施方式中变异 氨基酸残基可为存在于第一蛋白中但不存在于第二蛋白中的残基,或
不存在于第一蛋白中但存在于第二蛋白中的残基。
术语"候选氨基酸残基"或"候选残基"(CR)指从多个变异残基中选 出的来自第二蛋白的氨基酸残基,所述候选残基疑似能立体地或静电 地影响一个或多个目标残基并从而影响由所述一个或多个目标残基介 导的蛋白功能。候选残基是可选择性移植到宿主的第 一蛋白内以便试 图调节所述第一蛋白的功能活性逼近所述第二蛋白的期望功能活性的 残基。
在某些实施方式中,可在两个以上的系统发育分支之间的氨基酸 残基的共同性和/或差别的基础上选择所述候选残基。在选择Rubisco 的候选残基的背景下,候选残基是疑为能例如通过改变所述目标残基 上的电荷分布和/或改变所述目标残基的空间位置和/或改变所述目标 残基的移动能力而立体地和/或静电地影响一个或多个Rubisco目标残 基的残基。
当蛋白为Rubisco时,所述候选残基可存在于来自红藻的共有序列
中,但在来自开花植物和蓝细菌的共有序列内的对应残基位置中不同,
或可位于其中氨基酸在开花植物和蓝细菌中相同的位置。在具体实施
方式中,所述候选氨基酸残基可选自红藻中存在的残基。
当蛋白为Rubisco时,对疑为影响气体加成步骤的候选残基的鉴定 a i a'兀a残基,所述分支或亚分支可能呈现中性系统发育漂移或可能具有诸如 在折叠、组装中的包括与小亚基的相互作用或稳定性的分支特异性的 生理学作用。
术语"趋异候选氨基酸残基"或"趋异候选残基"(DCR)指疑为能立 体地和/或静电地影响一个或多个目标残基并从而影响由所述一个或多 个目标残基介导的蛋白功能的选自多个变异残基的氨基酸残基。在至 少三个系统发育分支中的蛋白的共有序列内的给定位置上的氨基酸残 基差异的基础上选择所述趋异候选残基。例如,在选择Rubisco的趋异 候选残基的背景下,趋异候选残基是疑为能立体地和/或静电地影响一 个或多个Rubisco目标氨基酸残基的残基,该趋异候选残基可存在于来 自红藻的共有序列中但在来自开花植物的共有序列和蓝细菌的共有序 列的对应残基中不同,且还在来自开花植物的共有序列和蓝细菌的共 有序列的对应残基处不同。所述趋异候选残基可选自来自任何被比较 的系统发育分支之一的蛋白的序列或共有序列。
术语"替代候选氨基酸残基"或"替代候选残基"(ACR)指表达于第 二蛋白中的候选残基的位置上但不是表达于第二蛋白的共有序列中的 氨基酸的替代氨基酸。因此替代候选残基提供了表达于至少 一种第二 蛋白中的给定位置上但不在来自相同系统发育分支的大多数序列中表 达的残基。当蛋白为Rubisco时,ACR可以选自例如展示了明显高于 来自典型红藻物种的Rubisco的催化速率的Gnj^ffe,a wo"o/fs Rubisco 序列。
术语"共变异氨基酸残基"或"共变异残基"(CvR)指在来自特定物种 的第二蛋白序列中鉴定为处于替代候选残基附近且显示出与所述替代 候选残基互补的变化的残基。不存在于第二蛋白的共有序列中的所述 共变异残基的变化似乎反映了替代候选残基和共变异残基的结构和/或 静电性质中的互补变化。共变异残基的鉴定提供了鉴定第一蛋白中可 突变以更好地适应由转移替代候选残基引起的变化的辅助残基位置的 方法。
术语"物种特异性变异氨基酸残基"或"物种特异性变异残 基"(SsVR)指蛋白的近缘物种间变化的残基。连同每种变异蛋白的相关 功能数据,SsVR可用于绘制序列-结构-功能关系图。这些相关性可用于预测哪个可变残基可能对所述蛋白的期望性质的改善贡献最多。该
SsVR信息可连同普通方法用于鉴定CR。对含有残基组的候选突变蛋 白的预测可包括除更直接影响目标残基的CR、 ACR、 DCR或CvR外 的SsVR。
术语"候选突变蛋白"或"候选突变体"(CM)指其中将两个以上CR 和/或ACR和/或DCR中至少之一或多组与可选的额外CvR或SsVR 一起并入单一蛋白的突变蛋白。
术语"区域"指可能在一个或多个特定目标残基与反应中心或结合 位点的特定部分的临近性的基础上形成的围绕目标残基的蛋白结构分 区。区域包含空间性连续体积的蛋白结构,所述蛋白结构含有可能优 选地影响一个或多个特定目标残基与反应中心或结合位点的特定部分 的相互作用的CR、 DCR、 ACR、 CvR和SsVR的子集。区域的边界没 有准确定义。区域可含有蛋白结构的重叠片段。定义区域的目的是通 过对可聚集以形成候选突变体的CR、 DCR、 ACR、 CvR和SsVR的子 集的松散鉴定来协助系统发育嫁接方法的应用。例如,当蛋白为 Rubisco时,包含大多数大亚基N端域和数个来自相邻大亚基的C端 域的小结构片段的标为区域1的区域可鉴定为能影响目标残基 Asnl23、 Glu60和Tyr20,所述目标残基在气体加成步骤中与反应物种 的新生羧酸根基团直接或间接地特异性相互作用。
术语"亚区"指可能在一个或多个特定目标残基与区域的成员部分 的临近性的基础上形成的区域分区。亚区包含空间性连续体积的蛋白 结构,所述蛋白结构含有被预测为优选地影响与所述区域相连的一个 或多个特定目标残基的性质的所述区域的CR、 DCR、 ACR、 CvR和 SsVR的子集。亚区的边界没有准确定义。亚区可含有蛋白结构的重叠 片段。定义亚区可以通过对可优选地聚集以形成候选突变体的所述区 域的CR、 DCR、 ACR、 CvR和SsVR的子集的松散鉴定来协助系统发 育嫁接方法的应用。例如,当蛋白为Rubisco时,可以鉴定出分别被预 测为优选地影响目标残基Tyr20、 Asnl23和Glu60的性质的标为1A、 1B和1C的区域1的成员区域。
术语"序列空间"广泛地指特定长度的聚合物的所有可能残基序列 的组。例如,长度为100个氨基酸残基的蛋白或多肽的完整序列空间为由所述100个氨基酸的所有可能变化组成的所有序列的组。如果仅 考虑单一突变,则长度为100个氨基酸残基的蛋白或多肽的序列空间 为IOO乘以19(对于20氨基酸残基组)。因此,给定长度的蛋白或多肽 的序列空间的减少将减少 一 组蛋白或多肽突变体中的氨基酸残基的可 能序列数量。在本发明背景下,对目标氨基酸残基和变异氨基酸残基 的独立鉴定产生了两个不同的待检验的序列空间的缩减组。当使用目 标氨基酸残基来从变异残基中鉴定候选氨基酸残基时受影响的所述组 的后继交集进一步减少了可供考虑的序列空间。于是,需要考虑用于 突变的蛋白残基及其组合的数目从而极大减少。
如本文所用,术语"定向进化"指针对修饰目标蛋白的功能和/或结 构的方法。 一般而言,定向进化是"修改"蛋白以在不同或现存的天然 或人工化学或生物环境中发挥作用和/或引出新功能和/或增加或降低 给定活性和/或调节给定特性的过程。
现在将参考附图通过实施例的方式对本发明进行说明。 流程图1提供了 Rubisco再造策略的流程图,突出了计算化学和生 物信息学在提供机理、序列、结构和系统发育信息中的作用,所述信 息由系统发育嫁接方法整合以产生对候选突变蛋白的计算机模拟预 测。该整合提供了可以使用目标残基来从变异残基中选出候选残基的 方法,从而极大减少了需要考虑用于趋向功能性质的改进的突变的蛋 白的残基及其组合的数目。如中列所示,候选残基可以可选地包括ACR 和/或DCR。这些过程更详细显示于流程图2中。预测步骤之后是实验 筛选和对功能性质的改进的评价。结果可反馈到预测步骤中以改进对 候选突变蛋白的预测,其后是更多轮的计算和实验筛选以及对功能性 质的改进的评价,以最优化蛋白活性。虚线框表示对核心系统发育嫁 接方法的可选扩展,所述可选扩展以放大形式显示于流程图3中。
流程图2提供了详细说明系统发育嫁接方法的预测策略的流程图, 显示了计算化学与生物信息学分析的整合以产生候选突变蛋白的排序 列表。该过程涉及选择对目标残基的可变残基以产生候选残基(所述候 选残基可选地可包含ACR和/或DCR)、分组并合并候选残基(和/或趋异候选残基或替代候选残基)的组以及对所述组排序并合并所述组以产 生用于可选的计算预筛选和实验筛选的候选突变蛋白排序列表的步骤。
流程图3提供了详细说明系统发育嫁接方法的可选扩展的流程图, 其中评估了 一列候选残基并组装为候选突变体,然后可以基于在目标 残基上的影响补充额外的候选残基、替代候选残基、趋异候选残基、 共变异残基和物种特异性变异残基并分组,然后形成新的改进候选突 变体。
图1提供了参与对将RuBP在Rubisco活性位点处转化为两分子 3-PGA提出的反应机理的分子结构的图示。显示了烯醇化、羧化、水 化、C2-C3键断裂和C2质子化的五步。罗马数字对应于图3和图4中 显示的中间体和产物种类。R基=-CH(OH)-CH2-0-P032-。
图2显示了指定为FM20的Rubisco活性位点的77原子片賴j莫型 的分子结构,所述^^莫型用于反应途径的从头算QM计算化学研究。显 示了用于表示LYS175、 LYS177、 ASP203、 GLU204、 KCX201(氨曱酰 化的LYS201)、 HIS294、和LYS334氨基酸残基、水分子、二氧化碳 分子和底物RuBP的烯二醇形式的4碳片段的分子片段种类。此外, 还显示了成分种类的电荷状态及其相互作用,即与Mg原子配位的六 个原子、氢键和C02与C2之间的范德华相互作用。
图3A 3E提供了使用从头算QM方法为图2中所示FM20片段模 型计算出的一 系列分子结构。这些图显示了沿Rubisco羧化酶反应中从 烯二醇式到最终产物的反应途径的局部最小值的几何构型。用黑色圆 圏突出了 Mg配位水分子的氢原子。通过标记显示了展示出随着反应 进行成员之间变化的相互作用的各个结构的相关距离。某些结构上的 标记可能被隐藏。标记"d,,指RKCX201-H...O2, "i,,指Row…c3, "j,,指 RH20[Mg]-Hwl... O-GLU204 而"k"指RH20[Mg]-Hwl。罗马数字对应于图4中所示的 中间体、过渡态和产物种类。
图4提供了说明羧化酶途径中的羧化和后续反应的势能表面的图, 所述势能表面使用从头算QM计算化学计算在带77个原子的片段模型 (FM20)上计算。所述羧化酶反应进程的不同阶段分布于X轴上。沿所 述反应途径的罗马数字指定了图1所示的羧化酶反应的起始态(I)、中间态(in、 v、 vn)和产物态(ix),和它们的连接过渡态(n、 iv、 vi、 vm)。
所有这些状态的结构显示于图3中。所有状态的能量(kcal/mol)显示为 与起始烯二醇式状态l的相对值,而相对于起始或相关中间态的过渡态 能量由Ea和箭头显示。
图5A 5D使用单字母氨基酸符号提供了来自属于覆盖了红藻、蓝 细菌、灰藻和植物(10门)的十三个不同门的光合生物的RubiscoLSU氨 基酸序列的序列比对。这些序列还以SEQIDNO:l 13提供。当在一门 中有超过一个Rubisco序列可利用时,使用50%共有序列来表示该门。 对于所述共有序列,括号内数字表示其序列用于产生所述共有序列的 属的数目。在表1中给出了在所述比对中使用的所有序列的数据库登 录号。所述图显示了 RubiscoLSU序列高度保守,包括除N端和C端 处的微小差异外几乎完全没有空隙以及475个残基的长多肽链(植物和 蓝细菌)的编码。符号" "表示序列空隙。单字母的大写字母表示氨基酸 残基字母,而小写字母和其它符号显示于其中仅保留了残基类型的共 有序列中的位置上"h",疏水残基(A, C, F, G, H, I, K, L, M, R, T, V, W, Y); "s",小残基(A, C, D, G, N, P, S, T, V); "u",极小残基(A, G, S); "a", 芳香残基(F, H, W, Y); "c",带电荷残基(D, E,H, K,R); "1",脂族残 基(I,L,V); "p",极性残基(C, D, E, H, K, N, Q, R, S, T); "o",醇类残 基(S,T); "t,,,易转角残基(A, C,D,E, G,H,K,N,Q,R,S,T);"-,,,带 负电残基(D, E);和"+,,带正电残基(H, K, R)。使用位于 http:〃coot.embl.de/Alignment//consensus.html的月良务器获4寻了共有序 列。基于菠菜(pdb 8ruc)、聚球藻(pdb lrbl)和(pdb lbwv) 与Mg"及2CABP的复合体的X射线结构之间的结构比较修正了所述 比对。所述结构的SEQ ID NO分别为17、 16和14,如表1中所示。 行末的数字表示序列数。顶部均匀隔开的数字是比对标记,而粗体数 字表示菠菜的序列数。
图6A和6B提供了来自红藻(红藻门;9种)、蓝细菌门(ll种)和开 花植物(木兰门;134种)的RubiscoLSU的50%共有序列。这些序列分 别呈现在列为SEQIDNO:2、 3和11的序列中,如表1所示。浅灰色 阴影表示在开花植物和蓝细菌中相同但在红藻中不同的134个残基, 即变异残基。序列中的空隙由" "显示。大写和小写字母及"-"和"+"符号的定义与图5中相同。行末的数字表示序列数。顶部均匀隔开的数 字是比对标记,而粗体数字表示菠菜的序列数。
图7A和7B提供了来自红藻(红藻门;9种)、蓝细菌门(ll种)和开 花植物(木兰门;134种)的Rubisco LSU的50%共有序列,与图6所示 相同的序列。其中氨基酸残基在所有三个共有序列中得到保留的位置 对于红藻(首行)由单字母符号显示而对于蓝细菌和植物由打点线表示。 其中蓝细菌或植物的氨基酸残基与红藻相同的位置对于红藻(首行)由 单字母符号显示而对蓝细菌或植物由打点线显示。其中在蓝细菌与植
物中相同而在红藻中不同的氨基酸残基,即图6中所示134个变异残 基的位置对于红藻(首行)由单字母符号显示且对蓝细菌(第二行)由单字 母符号显示,而所述残基位置对植物(第三行)为空白位置。反转阴影突 出了选为区域1的候选残基的那些VR位置,如表2所示,及聚集为 所预测的候选突变体的那些VR位置,如表3和表4所示。符号" "表 示序列空隙。大写和小写字母及"-"和"+"符号的定义与图5中相同。行 末的数字表示序列数。顶部均匀隔开的数字是比对标记,而粗体数字 表示菠菜的序列数。
图8提供了 一个LSU多肽的C端TIM筒(残基151~475)和包含了 隐含一个Rubisco活性位点的相邻LSU的N端域(残基1~150)的结构的 侧面图。该图显示了区域l的目标残基E60、 N123及Y20,区域2的 目标残基H294和区域3的目标残基K334。该结构使用来自于Mg"和 2CABP的复合体中的野生型菠菜Rubisco (pdb 8ruc)的完整LsSs十六 聚体的X射线结构的原子坐标绘制。2CABP以CPK模型显示。残基 E60和N123分别位于N端域的螺旋aB内和螺旋aC的C端末端附近。 这两个残基的侧链各位于2CABP的羧酸根基团的一侧。螺旋aB和螺 旋aC与N端域的(3-链具有疏水相互作用。Y20位于卩A的N端末端 附近的单一螺旋结构上。K334和H294都位于含有大多数活性位点的 第 一层残基的C端域。K334在环6中,而H294在05中。
图9提供了以棍式模型模拟的带有用于突变体tf6(T23G、 Y25W、 D51IGp、 K81R)以及成员突变体弁4(T23G、 K81R)和弁la (Y25W、 D51IGp) 的突变残基(G23、 R81、 W25和151)的侧链的Rubisco LSU多肽N端 域结构的图(使用来自菠菜X射线结构8ruc的坐标)。突变体定义参见表3。该图显示了所述残基在所述结构中的相对位置,还显示了残基 25 (W25)与51 (151)之间以及残基23 (G23)与81 (R81)之间的相互作用。 所述突变与野生型Y25和D51相比在残基W25和151之间加入了疏水 相互作用,且去除了残基23和81之间的氢键相互作用(野生型T23, K81 相比突变体G23,R81)。据预测这两个双重突变可分别或一起改变残基 Y20的方向。目标残基Y20、 E60和N123以球棍模型显示作为参考, 而反应中间体模拟物2CABP以线模型形式显示。
图10提供了以棍式模型模拟的带有用于突变体存7a (Y25W、 D51IGp、 G54AGp、 C84A、 187V)以及成员突变体弁la (Y25W、 0511,和 #5a(G54AGp、 C84A、 I87V)的突变残基(W25、 151、 A54、 A84、 V87) 的侧链的Rubisco LSU多肽N端域结构的图0吏用来自菠菜X射线结构 8ruc的坐标)。该图显示了通过在位点54 (G—A)、 84 (C—A)和87 (I—V) 突变的疏水区域的形成。此外,如果将野生型G54突变为S54^而非 A54GP(突变体弁7b、 #5b),则据预测会引入与残基51的骨架之间的额外 氢键。反过来,151具有与残基W25的疏水相互作用。据预测所有这 些变化会影响目标残基Y20的定位,所述残基以球棍形式显示。其它 区域1目标残基E60和N123的位置以球棍模型显示作为参考,而反应 中间体模拟物2CABP以线模型形式显示。作为参考,还显示了突变体 #4(G23、 R81)的突变位置。
图11提供了以棍式模型模拟的带有突变残基(VGP或IGm36、L116,、 1121、 lGp或igm140、 g297、 t300)的侧链的Rubisco lsu多肽的n端 域的图(使用来自菠菜X射线结构8ruc的坐标),所述突变残基用于突 变体弁10a(L36V、 H16L、 V12U、 F140L、 M297G、 V300T)与其它突变 体弁10Gp/Gm变异体(弁10b、 c、 d)以及成员突变体#8 (V1211、 M297G、 V300T)和弁9a (L36V、 1116L、 F140L)和其它突变体#9 Gp/Gm变异体 (#9b、 c、 d)。没有突变的残基A296和V271也以棍式模型显示。为了 帮助理解经预测由所述突变造成的相互作用的变化,RHS嵌入框以棍 式模型显示了野生型聚球藻中的对应残基。该图显示了所预测的野生 型中的残基V300、M297与V121之间的疏水相互作用的破环从而形成 了突变体(#8或弁10a)内A296、 V271与1121之间新的疏水相互作用。 该预测基于菠菜(pdb 8ruc)、聚球藻(pdb lrbl)和Ga/WeW / ar故a (pdblbwv)与Mg"和2CABP的复合体的X射线结构之间的结构比较。还 预测了由L—V、 F—L和I—L产生的残基36、 140与116之间新的疏 水相互作用。据预测由所述突变组介导的这些新的疏水相互作用会分 别或一起影响以球棍模型显示的目标残基N123的位置和方向。其它区 域1目标残基E60和Y20的位置以球棍模型显示作为参考。
图12提供了菠菜Rubisco LSU的N端域的立体图(使用来自菠菜X 射线结构8ruc的坐标)。所有N端残基的侧链以线框^f莫型显示。目标残 基(Y20、 E60和N123)以棍式模型显示。羧化中间体模拟物2CABP和 Mg2+以球棍模型显示。该图显示了所述N端域的所有残基侧链的完整 3-D图示,从所述N端域的所有残基侧链选出了预测会影响所述TR Y20、 E60和N123的CR,如图13所示。作为参考,所述结构的方向 与图15中相同。
图13提供了菠菜Rubisco LSU的N端域的立体图(使用来自菠菜X 射线结构8ruc的坐标),其中表2中所列的20个候选残基和6个趋异 候选残基以棍式模型显示而目标残基标为N123、 E60和Y20。该图显 示了预测会影响所述TR Y20、 E60和N123的N端域内的CR和DCR 侧链,以及来自显示了据预测也会影响所述TR的CR M297和V300 的伴侣LSU的C端域的小片段的完整3-D图示。标为T23和K81的 残基是在突变体糾中突变的残基(T23G、 K81R),而标为Y25和E51 的残基是在突变体#6中额外突变的残基(T23G、Y25W、D51lGP、K81R)。
图14A和14B提供了来自开花植物(木兰门;134种)、蓝细菌门(11 种)和红藻(红藻门;9种)的Rubisco LSU的N端域的50%共有序列, 以及几种植物(菠菜、烟草、水稻、大豆和甘蔗)、聚球藻PCC6301和 特殊兴趣的红藻种类(G3W/en'/ or故a, Gn^^/w/a mcwofc)的氨基酸序列 比对。本图中所示序列也在此前图5~7中所用的SEQ ID NO 2、 3和 11,及SEQ ID NO 14~21中进行说明。它们与数据库登录号一起列于 表l中。全序列对于蓝细菌共有序列以单字母和符号形式显示(符号的 解释参见图5),而其它序列中的氨基酸残基如果被保留的话由点显示 或如果不保留的话由单字母/符号格式显示。行末的数字表示序列数。 顶部均匀隔开的数字是比对标记,而粗体数字表示菠菜的序列数。黑 色反转阴影的垂直条带突出了所述N端域中的17个当前候选残基(即在来自开花植物和蓝细菌的50%共有序列中相同而在红藻中不同的那 些残基)残基18、 19、 23、 25、 51、 54、 59、 64、 68、 81、 84、 87、 88、 104、 114、 118、 121。灰色阴影的垂直条带突出了 6个当前趋异 候选残基(即在绿色植物、蓝细菌和红藻中不同的那些残基)残基36、 86、 116、 117、 138、 140。
图15提供了菠菜Rubisco LSU的N端域和相邻亚基的C端域片段 (使用来自菠菜X射线结构8ruc的坐标)。在(3-酮基反应中间体(2-羧基 -3-酮基阿拉伯糖醇-l,5-二磷酸(2C3KABP); III;参见图l)的底部,在 活性位点的第一层配位的Mg^和来自伴侣LSU的C端域的其它残基 及它们对目标残基Y20、 E60和N123的配置。Y20、 E60和N123与所 述(3-酮基反应中间体以球棍模型显示,而活性位点残基以细棍模型显 示。该图显示了 N端域内的亚区1A以及N端域和相邻亚基的C端域 片段内的亚区1B。亚区1A包含CR 18和新的CR 19、 68和104的位 置,所述新CR 19、 68和104被期望如果以组合或它们的进一步组合 而突变(弁17-1A (#4 + K18I/T68V)、 #18-1A (斜+ P104E(D)), #19 (#4 + D19P))会改善突变体弁4 (T23G/K81R)。亚区1B包含含有DCR 116、 117、 138和140、 CR 121及完全保留的残基135的新候选突变体弁20-lB (VI16L/L117T/V121I/I138M /F140L)。
图16A和16B提供了带有亚区1B内的候选突变体弁20-lB (V116L/L117T/V121I/I138M/F140L)内的相互作用的扩大图的图。A图 显示了完整的N端域、TRN123、E60和Y20以及活性位点中心(2CABP, Mg"和螺旋C和链E作为参考。B图显示了位于螺旋C和链E上的 成员残基116、 117、 120、 121与残基135、 138和140如何相互作用, 和对这些相互作用的改变如何被预测会影响附近的TR N123;另一图 示在图17中。2CABP和Mg"以CPK才莫型显示。N123、 E60和Y20 以粗棍模型显示。
图17提供了作为带状模型的Rubisco LSU的N端域和相邻亚基的 C端域片段,显示出所有三个亚区1A、 1B和1C以及这些亚区内的某 些CR和DCR的相对位置。用于设计区域1候选突变体的某些关键的 预测相互作用由连接CR和DCR的线条显示。
图18提供了在以DFT作为高层而半经验(PM3))作为低层进行的QMONIOM QM/QM计算中使用的结构模型。所述DFT层(以大球棍模 型显示)包含了包括活性位点的第 一配位层中所有残基片段和底物的 93个原子镁原子(Mg2+)、 RuBP的烯二醇式、GLU60、 ASN123 、 LYS175、 LYS177、氨曱酰化LYS201, ASP203、 GLU204、 HIS294、 LYS334。 该核心层还由PM3(半经验QM)层中的711个原子围绕,所述PM3层 包含离Mg"最远约12A的氨基酸残基。起始坐标取自菠菜 Rubisco-2CABP复合体(pdb 8ruc)的X射线结构。整个体系的尺寸为804 个原子。
图19提供了显示Rubisco活性位点的核心结构和围绕目标残基的 结构分为三个空间连续区域的图。区域l包含能影响TRGLU60、 ASN 123和TYR20的氨基酸残基,还包含N端域和相邻亚基的C端域小片 段。区域2和3在C端域内且分别包含能影响TR HIS294和LYS334
的氨基酸残基。
图20提供了显示通过非变性聚丙烯酰胺电泳分离深红红螺菌L2 Rubisco和烟草L8S8 Rubisco的凝胶。用于动力学测量的来自野生型烟 草、烟草突变体#4和烟草突变体#23- 1B株的可溶叶蛋白通过非变性聚 丙烯酰胺电泳分离并由考马斯染色显像。存在于zlaadA烟草-红株(tr) 中和异种组织烟草突变体#4转化抹#4 (即它产生"和突变L8S8 Rubisco)中的L2Rubisco在其它烟草突变^^或野生型烟草转化林中不存 在。带尺寸的标记蛋白以(m)标识。显示了每列加载的可溶叶蛋白量。
具体实施例方式
本发明提供了产生具有改进的功能性质的蛋白的方法。首先,本 发明包括通过使用机理(计算)信息和生物信息学信息和数据库(系统发 育特异性/环境特异性序列变化、动力学数据、3-D结构和模拟)信息来 确定带一个或优选多个突变的突变体从而缩减用于传统突变测试的序 列空间的过程。该过程寻求对所有可利用信息特别是编码于Rubisco 序列内的部分进化改变最大化,从而对于所需功能性质的所述蛋白改 善过程开始于更接近所需功能效率水平的功能水平。
所述方法的第一步包括鉴定第一蛋白内的目标氨基酸残基的过 程。如下文中更详细说明,鉴定目标氨基酸残基的过程可包括活性位点片段QM计算(使用例如DFT方法的步骤(i))和杂化QM/QM或 QM/MM计算(使用例如ONIOM方法的步骤(ii))联合经验数据(例如, 动力学数据和X射线晶体结构)的使用。可以分别使用分子动力学(MD) 模拟(步骤(iii))以及使用qm、 qm/qm或qm/mm和md方法的组合 的计算(步骤(iv)和(v))来评估所预测候选突变蛋白的稳定性,或更详细 理解对所述目标残基在所述酶反应中的作用。这些目标氨基酸残基将 通常为用于与所研究的功能性质有关的蛋白的正确功能化的基础残 基。本发明的一个优选特征是所述改进的功能性质通过修饰这些残基 的化学性质(通过其它残基的突变)以便改进例如它们的动力学活性来 达成。
Rubisco氨基酸残基的编号约定
在本说明书中由始至终,当由数字来鉴定Rubisco LSU的残基时, 残基编号基于来自菠菜Rubisco LSU (SEQ ID NO: 17)的氨基酸序列的 残基编号。该编号约定用于在计算化学中、蛋白结构中和突变中所鉴 定的所有残基。由于这些数字能映射到比对中或来自结构比较的序列 数字,且相应地给定菠菜残基数可完全有信心映射到结构等价的蓝细 菌或红藻残基数字,因此这不会造成混淆。
表1提供了本文讨论的和在计算机可读序列列表中提供的天然存 在Rubisco氨基酸序列和50%共享Rubisco氨基酸序列,SEQ ID NO显 示在"SEQID"栏中。当使用多个序列以产生50%共有序列时,参与所 述共有序列创建的序列的总数列在"说明"栏的括号内。数据库登录号 为所用的各个序列包括在共有序列的创建中考虑的那些序列提供了唯 一标识符。比对使用所述序列的图的编号也在"图号"栏中给出。
表l:图5、 6、 7和14中所用RubiscoLSU序列的数据库登录号。 序列ID号对应于在算计可读序列列表中的ID号。
&table&table see original document page 41&/column&&/row&&table&&table&table see original document page 42&/column&&/row&&table&&table&table see original document page 43&/column&&/row&&table&目标残基的鉴定——计算机理
下文中有关于目标氨基酸残基的鉴定的步骤(i)和(ii)对于从头算 QM和ONIOM计算(Frisch等,2004)使用GAUSSIAN程序包进行,但 也有一些可替代性地使用的其它可用的专有程序或免费使用的程序。 步骤(iii)使用了通常可用的AMBER程序(Case等,2006)以进行蛋白MD 模拟;该能力在许多其它程序中也可利用。步骤(iv)和(v)对酶机理模拟 采用了已发表的理论、协议和程序(Gready等,2006);在程序 MOPS(Cummins, 1996)中实行了核心半经验QM/MM MD模拟方法 (Cummins&Gready, 1997, , 2003, 2005; Cummins等,2007 )。
(i)活性位点片段复合体QM计算
下列说明涉及关于Rubsico LSU的计算,其中活性位点残基在种 类之间完全被保留。这些计算使用高级从头算QM方法 (B3LYP/6-31G(d,p))以确定多步Rubisco反应机理中的反应物种(底物、 过渡态(TS)、中间体和产物复合体)的能量学和结构,如图1所示。使 用Gaussian 03程序组(Frisch等,2004)并用取自菠菜Rubisco-2CABP复 合体(pdb 8ruc)的X射线结构的起始坐标,对从气体加成反应开始的反 应步骤进行了计算。如图2中所示的FM20的活性位点片段模型足够 大到可包含与反应中心和活性位点内的配位Mg原子直接相互作用的所有残基和水分子,且可允许对它们在包括关键气体(C02或02)加成步
骤的不同反应步骤中的作用的确定。羧基化和后继反应步骤的反应物
种结构和反应能量途径分别显示在图3和图4中。 (ii) ONIOM杂化QM/QM和QM/MM计算
这些计算确定了对能量学和反应途径物种的微扰,且主要集中在 来自活性位点残基的次近临近基团及其外基团的气体加成步骤上。这 使用了对系统核心(即如(i)中)使用高阶但计算性昂贵的从头算QM模 型和对扩展区域使用更低廉的QM(半经验QM)或MM模型的方法来完 成。
所述计算(QM/QM和QM/MM)使用GAUSSIAN 03中的ONIOM 模块在数个阶段进行。所述ONIOM QM/QM计算使用93个原子的高 级从头算QM核心层的模型。对所述气体加成步骤的起始点的研究, 所述QM核心层包含镁原子(Mg^)、RuBP的烯二醇式(为计算后继反应 物种的结构和能量使用了相应的RuBP衍生化学物质)、GLU60、 ASN123、 LYS175、 LYS177、氨曱酰化LYS201、 ASP203、 GLU204、 HIS294和LYS334。所述核心层由在PM3(半经验QM)级别计算的外层 中的另外711个原子围绕,所述外层包括了离所述镁原子最远约12A 的氨基酸残基。起始坐标取自菠菜Rubisco-2CABP复合体(pdb 8ruc)的 X射线结构。该模型在图18中显示。这些计算的作用是比较活性位点 附近的嫁接残基与野生型的残基在所述反应途径物种的能量学和结构 上的效果,主要集中于所述气体加成步骤上。这些计算允许了对类似 于用于图3和4中所示QM FM20模型的活性位点片段的所述反应物种 的93原子活性位点片段的结构和能量在环绕酶残基(所述711原子外层) 的环境中重新优化,并因此允许了由于待评估的嫁接残基造成的所述 反应的能量分布的微扰。因此这些计算可以提供对在本情形中的待确 定野生型菠菜Rubisco的基本机理的纟鼓扰,具体而言,所述气体加成步
骤中所结合C02和新生羧酸根基团的结构的细节的宝贵认识。通过这
些方式,可以计算出因候选突变体中的嫁接残基引起的对目标残基与 反应物种的相互作用的静电微扰的数量级和方向。该信息可以用于预 筛选用于实验测试的候选突变体和/或用于对如流程图1左侧列中所示 的实^r测试结果的解读。(iii) 蛋白复合体的分子动力学(MD)模拟
这些模拟评估了嫁接Rubisco候选突变体的蛋白结构是否能容纳 改变的残基,即所述突变蛋白结构是否为构象稳定的或它是否趋向于 解链。MD模拟对多重嫁接突变体特别有用,且提供了全局稳定性筛选 测试以对在来自(ii)的化学机理上的电子测试进行补充。
这些计算用AMBER8或AMBER9程序包进行(Case等,2006),但 也可使用其它蛋白MD模拟包(例如GROMACS)来获得相似结果。
(iv) 复合体的不同抽样构象态的多重ONIOM杂化QM/QM或 QM/MM计算
在该方法中使用取自QM/MM MD才莫拟的轨迹快照的蛋白复合体 的坐标执行了一系列计算(例如对于不同反应步骤),如Gready等所述 (2006)。这些计算允许了对所述催化途径的特征,即蛋白构象的灵活性 在酶复合体几何构型和激活和反应能量上的影响的更详细的4t睑。
(v) 气体加成反应的全反应自由能曲面的产生
在反应步骤的完整过程中的酶状态的完整统计总体(构象平均)可 以从对反应坐标(自由能超曲面)定义的点格的半经验QM/MM MD模 拟产生。然后更精确的自由能曲面可通过ONIOM QM/MM计算在从头 算QM等级产生,所述ONIOM QM/MM计算使用例如多达120的从 半经验QM/MM反应超曲面上的点采样的多个组态(Gready等,2006; Cummins等,2007)。这些酶的自由能曲面提供了可直接与诸如实验测 定的动力学常数的实验数据进行比较的反应和活化自由能,且还可用 于计算野生型和突变体之间的在反应和活化自由能中的差异。
(vi) 反应机理和目标残基的确定
基于这些计算结果,本发明人能推导出在羧化酶催化中的整个反 应序列的机理,并确定活性位点残基各自和协同的确切作用。从所述 QM片段计算中,对各反应步骤鉴定了一对关键氨基酸残基, 一个作为 碱而另一个作为酸。具体而言,对所述气体加成步骤鉴定出了 HIS294 和LYS334对。
对于Rubisco羧化酶反应,起始点是带有结合到活性位点的RuBP 的烯二醇形式的Rubisco复合体和保持在与所述烯二醇式的C2^ 友的范 德华相互作用距离处的C02分子。该状态在图1、 3和4中以I表示。所述反应通过过渡态进行,所述过渡态的特征为C02的碳原子和所述
烯二醇式的C2碳之间的部分共价键伴以所述烯二醇式的C2和C3碳 原子之间以及C3和03原子之间的部分双键的形成。该状态在图3和 4中以II表示。所述反应步骤以气体分子和p-酮基中间体(2C3KABP) 的C2碳之间的共价键的形成而结束。该状态在图1、 3和4中以III表示。
在所述气体加成步骤中,HIS294充当^f威以从03原子完全除去一 个质子;这转移了部分负电荷到C2碳且使其能与C02的碳原子形成共 价键,并且还将所述负电荷转移到新生的羧酸根基团。带正电的 LYS334帮助稳定了在所述新生羧酸根基团上发展的负电荷。这些特征 可见于图3中的I III的详细结构中。因此,HIS294的名威性和LYS334 的酸性(电荷)对所述气体加成步骤是至关重要的。
对这两个残基的性质的修饰可能影响所述气体加成步骤的能量 学,所述修饰可通过例如空间地改变它们与烯二醇式底物或p-酮基中 间体的相互作用的方向/距离或电子地改变与烯二醇式底物或P-酮基中 间体相互作用的原子上的电荷来进行。因此,HIS294和LYS334被鉴 定为"目标残基",所述"目标残基"广泛地定义为经预测为在反应才几理和 能量学上具有显著影响的残基。HIS294和LYS334在C端域内,在空 间上独立,且影响烯二醇式底物或(3-酮基中间体的不同部分。因此, 可能影响它们的性质的氨基酸已划分在不同区域内;对His294为区域 2而对Lys334位区域3,如图19所示。
尽管残基ASN123没有包括在用于QM计算的FM20活性位点片 段模型中,对晶体结构的检验和初步QM/QM计算表明该残基也参与 了稳定在C2加入的新生羧酸根基团上的电荷。此外,对晶体结构的检 验显示E60和Y20被安置来直接改变LYS334上的电荷(即LYS334的 电荷/方向可通过才喿控E60和Y20来改变),和中间体2C3KABP的C2-羧酸根基团。因此,将E60、 Y20和N123也鉴定为目标残基。这三个 残基在所述LSU的N端域内,且因此可能影响它们的性质的氨基酸划 分为属于与HIS294和LYS334的区域(图19)不同的区域(区域1)。这三 个残基在所有催化活性Rubisco LSU中严格保留且据预测会在所述气 体加成步骤中以协同方式起作用。这可以通过对图8、 9、 10、 12和15的观察来估计,所述图提供了 ASN123、 GLU60和Tyr20关于p-酮基 中间体类似物(2C3KABP)的羧酸根基团的相对位置的不同视图。这些 图显示了 ASN123、 GLU60和Tyr20与所述N端域的三个不同二级结 构区连接且它们的侧链以三分式构象延伸进入所述活性位点内。
总之,上述方法包括了在全局或更详细的水平对Rubisco野生型和 任何预测的候选突变体的羧基化和氧合步骤研究机理、能量和稳定性 问题的一整套计算方法。如此,可以鉴定一个或多个目标残基以充当 系统发育嫁接的焦点。
蛋白比较-系统发育,
在最广泛的形式下,本文所述方法还包括至少一个第二蛋白与至 少第一蛋白的比较。所述第二蛋白可能源自与所述第一蛋白相同或不 同的系统发育分支。比较过程需要鉴定至少一个所述第一蛋白与所述 第二蛋白之间的变异氨基酸残基。所述第二蛋白的多个变异残基充当 不同特异性氨基酸残基标识库,所述氨基酸残基可以"嫁接,,到所述第 一蛋白上以试图改善由所述目标残基介导的第 一蛋白的功能性质。
以Rubisco为例,Rubisco氨基酸序列中的系统发育分支特异性变 化,诸如来自不同进化谱系的系统发育组的Rubisco中或表达环境特异 性变化的Rubisco中的变化,代表了所述Rubisco的催化效率的可能性 部分优化。开发了称作"系统发育嫁接,,的策略以鉴定代表这些部分进 化方案的关键残基和将这些残基选择性"移植"到诸如来自聚球藻属的 Rubisco的宿主Rubisco内,所述策略通过将所述具体宿主残基改变为 带一种或多种改善(或优选)动力学特征的供体Rubisco或供体Rubisco 组的残基进行,其意图为产生带这些改进的动力学特征的宿主 Rubisco 。
上述部分进化方案通过将流程图1左栏中所示计算研究的结果(目 标残基)与流程图1右栏中所示系统发育分析的结果(变异残基)合并以 选择如流程图1中间栏中所示的候选残基的过程来确定。这些方案分 布在不同Rubisco系统发育分支之间的LSU的特征性(共享)保留序列变 化中的候选残基当中,或分布在来自相同分支且更加适应于例如干燥/ 湿润或炎热/寒冷的特定环境的Rubisco当中的变化中的候选残基当中。
()对计算研究的结果与系统发育分析的结果进行整合从而鉴定变异残基的特定子集(即候选残基)使之能区分可能影响功能性质(例如气 体加成步骤的效率)的残基与系统发育分支之间的其它特征性(共享)保 守序列变化,所述变化代表了例如中性系统发育漂移或分支特异性生
理学作用()。以Rubisco酶为例,分支特异性生理学作用可以包4舌所述 蛋白的折叠和组装,包括小亚基之间的相互作用,或蛋白稳定性。 (i)系统发育分析对变异残基的鉴定
下面对Rubisco的特异性因子的讨论说明了为了鉴定变异残基而 对鉴定带序列保守的目标残基的计算推导机理与系统发育信息的组合 使用。红藻Rubisco的极高特异性因子可能归因于在蓝细菌和开花植物 Rubisco中相同但在红藻Rubisco中不同的残基。本文中将这些残基定 义为"变异残基"。如果将充当红藻Rubisco中的特异性决定因子的单一 变异残基或多个变异残基鉴定出并选择性结合到开花植物/蓝细菌 Rubisco内,则可以产生在宿主生物内生理学活性的Rubisco,该Rubisco 具有比天然酶更高的对C02的特异性。
第一层残基,即直接与反应中心配位的那些残基(Glu60、 Asnl23、 Lysl75、 LYS177、 KCX201、 Asp203、 Glu204、 His294和Lys334)在 Rubisco中完全保守。该保守如图5中所示,显示了来自属于覆盖了红 藻、蓝细菌、灰藻和植物(10门)的十三个不同门类的光合生物的Rubisco LSU序列的比对。当在一门中有一种以上Rubisco序列可以利用时, 使用 50%共有序列代表该门。所述共有序列使用在 http:〃coot.embl.de/Alignment/7consensus.html的月艮务器获4寻。图5还显 示了 475个残基的Rubisco LSU序列通常高度保守,包括除N端和C 端的细微差异外几乎完全不存在空隙。
然而,在围绕反应中心的第二层和后继层中的残基显示了在开花 植物、红藻和蓝细菌的主要Rubisco分支当中的变化。红藻显示了最大 的对C02的特异性,这由约160的C(V02比相比于绿色植物的约80 和蓝细菌的约40的0)2/02比而确定。在图6中的比对中更清楚的说 明了在开花植物、红藻和蓝细菌当中的序列变化,该图仅包含已在图5 中显示的来自红藻(红藻门;9种)、蓝细菌门(l 1种)和开花植物(木兰门; 134种)的Rubisco LSU的50%共有序列。图6显示出134个残基在开 花植物和蓝细菌中相同但在红藻中不同,即变异残基。图5和6中的比对中所用各个序列的数据库登录号在表1中给出,同时给出的还有
用于计算才几可读序列列表的SEQ ID NO。
在该实例中,从Rubisco LSU鉴定了 134个变异残基,其中分布 了对由红藻Rubisco所展示的增高特异性的部分进化方案起作用的残 基。这些残基在图6的比对中以灰色阴影残基显示。由于所述特异性 决定因子可由数个变异残基的组合编码,可能有上千种这样的组合。 因此,为了具有实际使用性,需要从变异残基列表中选出包含所述特 异性决定因素的子集。
(ii)(a)候选戎基的鉴定
使用如下所述方法,鉴定了具有影响Rubisco所催化的反应的气体 加成步骤的潜力的具体变异残基,并将它们命名为"候选残基"。这允 许了对系统发育分支或亚分支/亚种之间的保守变化的忽略,所述系统 发育分支或亚分支/亚种可能呈现中性系统发育漂移或可能具有在诸如 所述Rubisco LSU的稳定性、折叠或组装中的分支特异性生理学作用。
许多变异残基可能不对Rubisco的改善性质作出贡献且因此可能 不是对本实例中的增加的C02特异性的进化方案的一部分,而是沉默 突变或与诸如细胞内蛋白的折叠和组装或稳定性的其它酶性质相关的 突变。为了鉴定很可能是对所述改进性质即本实例中提高的C02特异 性的进化方案的一部分的变异残基,采用了从QM计算中所获的机理 认识来从多个变异残基中选择候选残基。该过程基于能影响目标残基 的功能性的变异残基形成了进化方案的一部分的假设,所述目标残基 通过计算化学步骤鉴定为参与Rubisco的气体加成步骤中。这是用于从 所述变异残基中选择以获得本文所称"候选残基"的子集的主要标准。
一般而言,所述选择过程基于对所述变异残基与所述目标残基的 空间临近性的评估以及对所述变异残基影响所述目标残基的静电和方 向的能力的估计和排序。选择可以使用诸如Accelrys Discovery Studio v2.0 (Accelrys Software Inc., San Diego, CA, 2007)的分子模拟利用和可 视化程序包来对晶体学结构进行可视化筛选,尽管也可使用其它类似 模拟包。在用于选择的残基的初始扫描中可以使用标准的分子间相互 作用的化学概念,诸如电荷-电荷静电配对、典型范德华距离和氢键距 离及氨基酸侧链的空间填充模型。所述过程也可系统化,例如通过将各个变异残基的所有原子与原子的静电和疏水相互作用与在3A 5A距
离内的所有其它氨基酸残基映射并且排除在第一和第二蛋白序列中等 价的那些相互作用。
主链-主链相互作用。如果例如在一个蛋白序列中的疏水相互作用涉及
变异残基的侧链的a或p脂肪族碳和非变异残基的一个原子,且在第 二蛋白序列中所述氨基酸变异残基尽管不同于所述另 一蛋白序列中的 变异残基,但仍在侧链中含有与第 一蛋白序列中的相同非变异残基相 互作用的a或(3脂肪族碳,则该相互作用也被认为是等价的。
如果仅特定曱基参与与非变异残基的相互作用,则认为诸如缬氨 酸、亮氨酸和异亮氨酸中的氨基酸侧链中的曱基相互作用是等价的。 如果对应氢键距离相似,则认为由天冬氨酸和谷氨酸残基的羧酸根基 团形成的氬键也是等价的。
在第一和第二蛋白序列之间以相互作用模式筛选变异残基后,仅 保留了具有通过改变的相互作用模式来影响所鉴定的目标残基的潜力 的那些变异残基。变异残基影响目标残基的潜力由变异残基与所述目 标残基或与与目标残基相邻的氨基酸残基或与在包含所述目标残基的 二级结构单元中的氨基酸残基的相互作用来确定。即使是环、转角或 无特定结构的链的一部分,但与包含所述目标残基的二级结构单元相 连的变异残基具有通过经改变的相互作用来协助所述二级结构单元重 新定位而改变目标残基的方向的潜力。选出的具有一个或多个改变的 相互作用和影响目标残基的潜力的变异残基构成了"候选残基"组。鉴 定为能够影响区域1中的目标残基即ASN123、 G

我要回帖

更多关于 ip name相似性分析 的文章

 

随机推荐