タイトル: | 公表特許公報(A)_スプリットインテインおよびその使用 |
出願番号: | 2014528720 |
年次: | 2014 |
IPC分類: | C12N 15/09,C07K 14/00,C07K 19/00 |
ロセル、パリッセ、ベルグウェルフ シュテファン、ロベルト、シュミット ディダック、マルコ、フェリウ パトリシア、カリーナ、カルバハル、バリェッホス JP 2014528720 公表特許公報(A) 20141030 2014532409 20120928 スプリットインテインおよびその使用 エラ、ビオテック、ソシエダッド、アノニマ 505003218 ERA BIOTECH, S.A. 勝沼 宏仁 100117787 中村 行孝 100091487 横田 修孝 100107342 大森 未知子 100137497 ロセル、パリッセ、ベルグウェルフ シュテファン、ロベルト、シュミット ディダック、マルコ、フェリウ パトリシア、カリーナ、カルバハル、バリェッホス US 61/540,101 20110928 EP 12171848.0 20120613 C12N 15/09 20060101AFI20141003BHJP C07K 14/00 20060101ALI20141003BHJP C07K 19/00 20060101ALI20141003BHJP JPC12N15/00 AC07K14/00C07K19/00 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IS,JP,KE,KG,KM,KN,KP,KR,KZ,LA,LC,LK,LR,LS,LT,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ,UA,UG,US,UZ,VC EP2012069219 20120928 WO2013045632 20130404 60 20140528 4B024 4H045 4B024AA03 4B024BA80 4B024CA04 4B024DA06 4H045AA10 4H045BA10 4H045BA41 4H045FA74 本発明は一般に、ロバストなスプリットインテイン(robust split inteins)、および、例えば、タンパク質精製および工学におけるその使用に関する。 インテインは、それらの宿主タンパク質から自己切除し、ペプチド結合によるフランキング配列(エクステイン)の連結を触媒する内部タンパク質エレメントである。インテイン切除は、補助酵素または補因子を必要としない翻訳後プロセスである。この自己切除プロセスは、mRNA前駆体からのRNAイントロンのスプライシングなぞらえて、「タンパク質スプライシング」と呼ばれる(Perler F et al., Nucl Acids Res. 22:1125-1127 (1994))。セグメントは、internal protein配列としての「インテイン」と、external protein配列としての「エクステイン」と呼ばれ、上流エクステインは「N−エクステイン」と呼ばれ、下流エクステインは「C−エクステイン」と呼ばれる。タンパク質スプライシングプロセスの産物は、成熟タンパク質とインテインの2つの安定なタンパク質である。ミニインテインおよびラージインテインの構造 インテインは、ラージおよびミニマル(ミニ)の2つの群に分類される(Liu XQ, Ann Rev Genet 34:61-76 (2000))。ラージインテインは、ミニインテインには存在しないホーミングエンドヌクレアーゼドメインを含む。スプライシング有効ミニインテインは、中央エンドヌクレアーゼドメインを削除することによりラージインテインから作製されたものであり、このことはエンドヌクレアーゼドメインがタンパク質スプライシングに関与しないことを示している(Chong S. and Xu M., J Biol Chem. 272:15587-15589 (1997); Derbyshire V. et al., Proc Natl Acad Sci USA. 94:11466-11471 (1997);およびShingledecker K. et al. Gene. 207:187-195 (1998))。 既知のインテインは総て、低い程度の配列類似性を有し、N末端およびC末端にのみ保存された残基を有する。ほとんどのインテインはSerまたはCysで始まり、His−AsnまたはHis−Glnで終わる。C−エクステインの最初のアミノ酸は不変のSer、Thr、またはCysであるが、N−エクステインにおけるインテインの前の残基は保存されていない(Perler F. 2002, Nucl. Acids Res. 30: 383-384)。しかしながら、N末端およびC末端エクステインの両方においてインテインスプライシング接合部に隣接する残基はタンパク質スプライシングを加速化または減弱することが最近見出された(Amitai G et al. 2009, Proc. Natl. Acad. Sci. USA. 106:11005-11010)。インテインのシスおよびトランススプライシング機構 インテインは、それらのスプライシング機構によって分類することができる。最もよく研究されているインテイン群であるクラス1インテインは、4つの保存されたスプライス接合部残基のうちの3つにより媒介される4つの求核攻撃の急速なプロセスを持つ。ステップ1において、このスプライシングプロセスは、N末端スプライシングドメインの第1の位置に位置するセリンまたはシステイン残基のアシルシフトで始まる。これにより、N−エクステイン/インテイン接合部に(チオ)エステル結合が形成される。ステップ2において、この(チオ)エステル結合は、C−エクステインの最初の残基(Cys、Ser、またはThr)のOH基またはSH基によって作用を受ける。これにより、N−エクステインをC−エクステインの最初の残基の側鎖に移動させるトランスエステル化に至る。ステップ3において、C末端スプライシングドメインの最後の位置に存在する保存されているAsnまたはGln残基が環化して、(チオ)エステル結合によりエクステインを連結する。最後に、ステップ4は、自発的なS−NまたはO−Nアシルシフトによる、(チオ)エステル結合のペプチド結合への再配列である。スプライシング反応に直接的または間接的に関与する重要なアミノ酸を図3Aに示す。 クラス1インテインのインテイン−エクステイン接合部の部位特異的切断は、保存されているインテイン残基の突然変異によって達成できる。インテインC末端におけるAsnまたはGln残基の突然変異により、スプライシング反応のステップ3および4が損なわれ、N末端切断のみが起こる。ステップ1はなお起こるので、(チオ)エステル結合は自発的に加水分解して、インテイン/C−エクステイン部分からN−エクステインを分離する。N末端スプライシングドメインの第1の位置にあるセリンまたはシステイン残基は、N末端切断に必要である(図3C参照)。インテインのこの保存されている最初の残基の突然変異によりスプライシング反応のステップ1、2、および4が損なわれ、C末端切断のみが起こる。このような突然変異インテインでは、Asn環化(ステップ3)はなお起こり、N−エクステイン/インテイン部からC−エクステインが分離される。C末端スプライシングドメインのそれぞれ最後(XN)および最後から2番目(XN−1)に位置するAsn(またはGln)、およびHis残基はN末端切断に必要である(図3B参照)。改変されたシス−スプライシングインテインの制御可能な切断は、分子生物学およびバイオテクノロジーにおける広範な有用な適用に採用されている。天然スプリットインテイン インテインは、2つの個別に転写および翻訳された遺伝子によりコードされる2つの断片として存在することもできる。これらのいわゆるスプリットインテインは自己会合し、タンパク質スプライシング活性をトランスで触媒する。 スプリットインテインは、多様なシアノバクテリアおよび古細菌において確認されているが(Caspi et al., Mol Microbiol. 50:1569-1577 (2003); Choi J. et al., J Mol Biol. 356:1093-1106 (2006.); Dassa B. et al., Biochemistry. 46:322-330 (2007.); Liu X. and Yang J., J Biol Chem. 278:26315-26318 (2003); Wu H. et al., Proc Natl Acad Sci USA. 95:9226-9231 (1998.); and Zettler J. et al., FEBS Letters. 583:909-914 (2009))、これまでのところ、真核生物では発見されていない。最近、環境メタゲノムデータのバイオインフォマティック分析により、新規なゲノム構成を有する26の異なる遺伝子座が明らかになった。各遺伝子座において、保存されている酵素コード領域にはスプリットインテインが割り込み、インテインサブドメインをコードするセクション間には自立型のエンドヌクレアーゼ遺伝子が挿入されている。それらのうち、5つの遺伝子座:DNAヘリカーゼ(gp41−1、gp41−8);イノシン−5’−一リン酸デヒドロゲナーゼ(IMPDH−1);およびリボヌクレオチドレダクターゼ触媒サブユニット(NrdA−2およびNrdJ−1)は完全に組み立てられた。この分断された遺伝子構成は、主としてファージ内に存在すると思われる(Dassa et al. Nucleic Acids Research. 37:2560-2573 (2009))。 スプリットインテインNpu DnaEは、タンパク質トランススプライシング反応に関して報告されている最高率を有することを特徴とした。さらにNpu DnaEタンパク質スプライシング反応は、種々のエクステイン配列、6〜37℃の温度、および最大6Mの尿素の存在下について、ロバストで高収量であると考えられる(Zettler J. et al., FEBS Letters. 583:909-914 (2009); Iwai I. et al., FEBS Letters 580:1853-1858 (2006))。予想されたように、これらのインテインのNドメインのCys1 Ala突然変異が導入された場合には、最初のNのS−アシルへのシフト、従って、タンパク質スプライシングが遮断された。残念なことに、C末端切断反応もほぼ完全に阻害された。C末端スプライス接合部におけるアスパラギン環化がN末端の切れやすいペプチド結合におけるアシルシフトに依存していることは、天然スプリットDnaEインテイン対立遺伝子に共通のユニークな特性であると思われる(Zettler J. et al. FEBS Letters. 583:909-914 (2009))。バイオテクノロジーにおけるインテインの適用 インテインは、広範なバイオテクノロジー適用において有益なツールである。インテインの天然スプライシング活性を用いたペプチドおよびタンパク質の連結は、インテイン媒介タンパク質連結(IPL)として知られ、またはタンパク質連結(EPL)と表現され、分子生物学およびバイオテクノロジーの方法において十分に確立されている(Evans T. et al., Biopolymers 51:333-342 (1999); Muir T. et al., Proc Natl Acad Sci USA. 95:6705-6710 (1998); and Severinov K. and Muir T., J Biol Chem. 273:16205-16209 (1998))。さらに、インテインは、インテイン標的タンパク質ボーダーにおいてのみ、部位特異的切断によるタンパク質精製に使用されてきた(Lu W. et al, J Chromatography A. 1218:2553-2560 (2011))。バイオセパレーションにおけるインテイン媒介法の使用は実験室規模では十分に確立され、大規模バイオテクノロジーへのますますの関心が寄せられている。大規模タンパク質生産のためのこれらのタンパク質精製技術の可能性は明らかであるが、工業的スケールアップ条件下でのインテイン媒介タンパク質精製系を開発しなければならない。他の適用としては、NMR分析のためのタンパク質のセグメント標識、タンパク質の環化、毒性タンパク質の発現制御、タンパク質への量子ドットのコンジュゲーションおよび非カノニカルアミノ酸の組み込みがある(Arnold U., Biotechnol Lett. 31:1129-1139 (2009); Charalambous A. et al., J Nanobiotechnology 7:9 (2009); Oeemig J. et al., FEBS Letters 583:1451-1456 (2009); Seyedsayamdost M. et al., Nat Protoc. 2:1225-1235 (2007); Zuger S. and Iwai H., Nat Biotechnol. 23:736-740 (2005);およびEvans T. et al., Annu Rev Plant Biol. 56:375-392 (2005))。基礎研究では、インテインは、in vivoタンパク質−タンパク質相互作用、具体的には、タンパク質の細胞オルガネラへの移行、外因性ポリペプチドの、生細胞上の膜タンパク質への連結またはタンパク質活性の光制御をモニタリングするために使用されてきた(Chong S. and Xu M., Homing endonucleases and inteins. Vol 16. Springer, Berlin Heidelberg, New York, 273-292 (2005); Ozawa T. and Umezawa Y., Homing endonucleases and inteins. Vol 16. Springer, Berlin Heidelberg, New York, 307-323 (2005); Ozawa T. et al., Nat Biotechnol. 21:287-293 (2003); Dhar T. and Mootz H., Chem Commun. 47:3063-3065 (2011);およびBinschik J. et al., Angewandte Chemie International Ed. 50(14):3249-3252 (2011))。バイオテクノロジーにおいて使用されるインテインのほとんどは原核生物に由来するか、またはS.セレビシエ(S. cerevisiae)VMA1−インテインの操作型変異体である(Elleuche & Poggeler 2010 Appl. Microbiol Biotechnol 78:479-489)。 大規模生物学的プロセスにおいてこのような技術を使用するためには、ロバストな特性を有するインテインおよびその使用方法を同定する必要がある。本明細書に記載されているインテインおよびこのようなインテインの使用方法は、このような必要に、大きな温度範囲、塩の存在下、および配列が変動するポリペプチドと融合した場合にも機能する高活性のインテインを提供することによって取り組むものである。発明の概要 本発明は、ロバストなスプリットインテインおよびその使用方法を提供する。本スプリットインテインは、大きな温度範囲、広いpH範囲、およびカオトロピック塩の存在下で活性である。本スプリットインテインはまた、融合した異種ポリペプチドの配列変異性に対して高い耐用性を示す。これらの特徴は、本スプリットインテインをタンパク質精製・工学技術に特に有用なものとする。 特に、(i)配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一であるインテインドメインと、(ii)異種ポリペプチドとを含んでなり、前記異種ポリペプチドが前記インテインドメインのC末端にある融合タンパク質が提供される。いくつかの態様では、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミンである。いくつかの態様では、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸、例えば、アラニンである。いくつかの態様では、インテインドメインの最後から2番目のアミノ酸は、ヒスチジン以外のアミノ酸である。いくつかの態様では、異種ポリペプチドは、インテインドメインに、ペプチド結合によって直接連結されている。いくつかの態様では、異種ポリペプチドの最初のアミノ酸は、セリン、システイン、またはトレオニンである。いくつかの態様では、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸、例えば、アラニンであり、異種ポリペプチドの最初のアミノ酸は、セリン、トレオニンまたはシステイン以外、例えば、アラニンである。いくつかの態様では、融合タンパク質は、異種ポリペプチドとインテインドメインの間にリンカーをさらに含んでなる。いくつかの態様では、リンカーの最初のアミノ酸は、セリン、システイン、またはトレオニンである。いくつかの態様では、リンカーの最初のアミノ酸は、セリン、システイン、またはトレオニン以外のアミノ酸、すなわち、アラニンである。いくつかの態様では、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸、例えば、アラニンであり、リンカーの最初のアミノ酸は、セリン、トレオニンまたはシステイン以外のアミノ酸、例えば、アラニンである。いくつかの態様では、リンカーは、天然エクステイン配列の1〜5個のアミノ酸を含んでなる。配列番号7、16、24、38および65からなる群から選択される配列を有するインテインドメインと、(ii)異種ポリペプチドとを含んでなり、前記異種ポリペプチドが前記インテインドメインのC末端にある融合タンパク質もまた提供される。 さらに、(i)配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一であるインテインドメインと、(ii)異種ポリペプチドとを含んでなり、前記異種ポリペプチドが前記インテインドメインのN末端にある融合タンパク質が提供される。いくつかの態様では、インテインドメインの最初のアミノ酸は、システインである。いくつかの態様では、インテインドメインの最初のアミノ酸は、セリンまたはシステイン以外のアミノ酸、例えば、アラニンである。いくつかの態様では、異種ポリペプチドはインテインドメインに、ペプチド結合によって直接連結されている。いくつかの態様では、融合タンパク質は、異種ポリペプチドとインテインドメインの間にリンカーをさらに含んでなる。いくつかの態様では、リンカーは、天然エクステイン配列の1〜5個のアミノ酸を含んでなる。配列番号3、12、20、34および64からなる群から選択される配列を有するインテインドメインと異種ポリペプチドとを含んでなり、前記異種ポリペプチドが前記インテインドメインのN末端にある融合タンパク質もまた提供される。 さらに、第1のインテインドメインと第2のインテインドメインと異種ポリペプチドとを含んでなる融合タンパク質が提供される。さらに、第1のインテインドメインと第2のインテインドメインと異種ポリペプチドとを含んでなる融合タンパク質が提供され、この場合、前記異種ポリペプチドは前記第1のインテインドメインのN末端にあり、前記異種ポリペプチドは前記第2のインテインドメインのC末端にある。さらに、第1のインテインドメインと第2のインテインドメインと異種ポリペプチドとを含んでなる融合タンパク質が提供され、この場合、前記異種ポリペプチドは前記第1のインテインドメインのN末端にあり(N末端スプライシングドメイン)、前記異種ポリペプチドは前記第2のインテインドメインのC末端にある(C末端スプライシングドメイン)。いくつかの態様では、(a)第1のインテインドメインは配列番号3と少なくとも75%同一であって、第2のインテインドメインは配列番号7と少なくとも75%同一であるか;(b)第1のインテインドメインは配列番号12と少なくとも75%同一であって、第2のインテインドメインは配列番号16と少なくとも75%同一であるか;(c)第1のインテインドメインは配列番号20と少なくとも75%同一であって、第2のインテインドメインは配列番号24と少なくとも75%同一であるか;(d)第1のインテインドメインは配列番号34と少なくとも75%同一であって、第2のインテインドメインは配列番号38と少なくとも75%同一であるか;または(d)第1のインテインドメインは配列番号64と少なくとも75%同一であって、第2のインテインドメインは配列番号65と少なくとも75%同一である。いくつかの態様では、異種ポリペプチドの最初のアミノ酸は、セリン、システイン、またはトレオニンである。いくつかの態様では、融合タンパク質は、異種ポリペプチドと第2のインテインドメインの間にリンカーをさらに含んでなり、リンカーの最初のアミノ酸、セリン、システイン、またはトレオニンである。いくつかの態様では、リンカーの最初のアミノ酸はセリンである。 本発明による融合タンパク質をコードするポリヌクレオチドも本明細書において提供される。 融合タンパク質を含んでなる組成物も提供される。このような組成物は、例えば、C末端切断反応、N末端切断反応、トランススプライシング反応、およびタンパク質環化法に有用である。 本タンパク質、融合タンパク質、ポリヌクレオチドまたは組成物を含んでなる宿主細胞も提供される。 本明細書で提供されるポリペプチドおよび融合タンパク質を、例えば、C末端切断反応、N末端切断反応、トランススプライシング反応、およびタンパク質環化に使用する方法が提供される。このような方法は、約0℃〜約60℃の温度、約6〜約10のpH、および/または約0.5M〜約6M尿素の存在下で起こり得る。 いくつかの態様では、本明細書で提供される反応の反応速度定数は、少なくとも約1×10−1s−1、または少なくとも約2×10−1s−1である。いくつかの態様では、反応速度半減期は約100秒未満、約50秒未満、または約25秒未満または約15秒未満である。 これらの反応は、例えば、温度もしくはpHの変更、またはタンパク質の混合によって開始させることができる。 本発明はまた、配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの下流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも1つのクローニング部位とを含んでなり、これにより、インテインドメインと対象ポリヌクレオチドによりコードされるポリペプチドとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターを提供する。 本発明はまた、配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの上流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも1つのクローニング部位とを含んでなり、これにより、対象ポリヌクレオチドによりコードされるポリペプチドとインテインドメインとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターを提供する。 本発明はまた、配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの下流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも1つのクローニング部位と、前記クローニング部位の下流に、配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一であるインテインドメインをコードするポリヌクレオチドとを含んでなり、これにより、前記対象ポリヌクレオチドによりコードされるポリペプチドと前記2つのインテインドメインとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターを提供し、この場合、 a.第1のインテインドメインが配列番号7と少なくとも75%同一であれば、第2のインテインドメインは配列番号3と少なくとも75%同一であり; b.第1のインテインドメインが配列番号16と少なくとも75%同一であれば、第2のインテインドメインは配列番号12と少なくとも75%同一であり; c.第1のインテインドメインが配列番号24と少なくとも75%同一であれば、第2のインテインドメインは配列番号20と少なくとも75%同一であり; d.第1のインテインドメインが配列番号38と少なくとも75%同一であれば、第2のインテインドメインは配列番号34と少なくとも75%同一である。 本発明はまた、配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一である第1のインテインドメインをコードするポリヌクレオチドと、前記第1のインテインドメインをコードするポリヌクレオチドの下流に、第1のクローニング部位と、配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一である第2のインテインドメインをコードするポリヌクレオチドと、前記第2のインテインドメインをコードするポリヌクレオチドの上流に、第2のクローニング部位とを含んでなり、ここで、前記第1のクローニング部位は第1の対象ポリヌクレオチドのクローニングを可能とし、前記第2のクローニング部位は第2の対象ポリヌクレオチドのクローニングを可能とし、これにより、前記の順に、第2の対象ポリヌクレオチドによりコードされるポリペプチドと、第2のインテインドメインと、第1のインテインドメインと、第2の対象ポリヌクレオチドによりコードされるポリペプチドとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターを提供し、この場合、 a.第1のインテインドメインが配列番号7と少なくとも75%同一であれば、第2のインテインドメインは配列番号3と少なくとも75%同一であり; b.第1のインテインドメインが配列番号16と少なくとも75%同一であれば、第2のインテインドメインは配列番号12と少なくとも75%同一であり; c.第1のインテインドメインが配列番号24と少なくとも75%同一であれば、第2のインテインドメインは配列番号20と少なくとも75%同一であり; d.第1のインテインドメインが配列番号38と少なくとも75%同一であり、第2のインテインドメインは配列番号34と少なくとも75%同一であり;または e.第1のインテインドメインが配列番号65と少なくとも75%同一であれば、第2のインテインドメインは配列番号64と少なくとも75%同一である。(A)トランススプライシング反応の概略図。スプリットインテインの最初のN末端断片(F1)とC末端断片(F2)を上に示す。トランススプライシング反応後に連結される領域をグレーで示す。トランススプライシング反応から生じた3断片を下に示す。F3はスプライシング産物を表し(グレー)、F4およびF5はそれぞれN−スプリットインテイン副産物およびC−スプリットインテイン副産物を表す。StreptagII精製タグ(ST)、ファージタンパク質バクテリオファージλ頭部タンパク質D(gpD)、N末端エクステインに属す5個の天然フランキングアミノ酸(EN)、N末端スプリットインテイン(IN)、ヘキサヒスチジン精製タグ(H6)、C末端スプリットインテイン(IC)、C末端エクステインに属す5個の天然フランキングアミノ酸(EC)、チオレドキシン(Trx)、およびN末端およびC末端エクステインの接合(ENC)。(B)SDS−PAGEゲルのクーマシーブルー染色により分析されたGp41.1(G1)スプリットインテインのトランススプライシング反応の経時的推移。最初のN末端断片とC末端断片(それぞれF1およびF2)をレーン1に示す。25℃で10秒、20秒、30秒、1分、5分、30分、1時間および2時間のインキュベーション後のトランススプライシング反応をレーン2〜9に示す。F1、F2、F3、F4およびF5の位置を矢印で示す。(A)Gp41.1(G1)スプリットインテインのC末端自己切断反応。N末端インテインの最初のアミノ酸(システイン)がアラニンで置換されていた(C1A)。一般的な自己切断反応の概略図を左に示す。スプリットインテインの変異型N末端断片(F1)およびC末端断片(F2)をインキュベートすると、F2の切断が起こり、断片(F3)とC末端スプリットインテイン副産物(F4)を含有する所望のTrxが生じる。自己切断反応において遊離した断片をグレーで示す。SDS−PAGEゲルのクーマシーブルー染色により分析されたGp41.1(G1)スプリットインテインの自己切断反応の経時的推移を右に示す。最初のN末端断片とC末端断片(それぞれF1およびF2)をレーン1に示す。37℃で1分、5分、35分、1時間、2時間および4時間のインキュベーション後の自己切断反応をレーン2〜7に示す。F1、F2、F3、およびF4の位置を矢印で示す。(B)Gp41.1(G1)スプリットインテインのC末端自己切断反応。N末端インテインがC1A置換を含み、ECに相当する5つの天然アミノ酸がF2から除かれている場合の一般的な自己切断反応の概略図を左に示す。SDS−PAGEゲルのクーマシーブルー染色により分析されたGp41.1(G1)スプリットインテインの自己切断反応を右に示す。最初のN末端断片とC末端断片(それぞれF1およびF2)をレーン2に示す。レーン3は、37℃で23時間のインキュベーション後の自己切断反応を示す。F1、F2、F3、およびF4の位置を矢印で示す。StreptagII精製タグ(ST)、ファージタンパク質バクテリオファージλ頭部タンパク質D(gpD)、N末端エクステインに属す5個の天然フランキングアミノ酸(EN)、N末端スプリットインテイン(IN)、ヘキサヒスチジン精製タグ(H6)、C末端スプリットインテイン(IC)、C末端エクステインに属す5個の天然フランキングアミノ酸(EC)およびチオレドキシン(Trx)。(A)トランススプライシング、(B)C末端自己切断、および(C)N末端自己切断構築物を示す概略図。N末端エクステインに属す天然フランキングアミノ酸(EN)、N末端スプリットインテイン(IN)、C末端スプリットインテイン(IC)、C末端エクステインに属す天然フランキングアミノ酸(EC)。対応する反応に直接的または間接的に関与する重要なアミノ酸を示す。発明の具体的説明 いくつかのタンパク質工学適用において有用なスプリットインテインの説明を以下に提供する。スプリットインテインは、異種タンパク質と融合したGp41.1、Gp41.8、NrdA2、NrdJ1またはIMPDH1配列を含有し、例えば、タンパク質合成、切断、精製、連結、環化、および調節ならびに/またはタンパク質活性のモニタリングに使用することができる。 本明細書で使用する見出しは単に構成のためのものであり、記載される対象を何ら限定すると解釈されるものではない。I.定義 そうではないことが明確に定義されない限り、本明細書で使用される用語は、当技術分野における通常の意味に従って理解される。単数で使用されるまたは「1つ("a" or "an")」として言及される用語は、そうではないことが明示されているか文脈により示されない限り、複数形を含み、逆もまたそうである。標準技術および手順は一般に、当技術分野における常法および本明細書を通して示される種々の一般参照文献(引用することにより本明細書の一部とされるSambrook et al. Molecular Cloning: A Laboratory Manual, 2nd ed. (1989) Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y.参照)に従って実施される。 用語「ポリペプチド」、「ペプチド」および「タンパク質」とは、本明細書において、任意の長さのアミノ酸ポリマーを意味して互換的に使用される。このポリマーは直鎖であっても分岐していてもよく、修飾アミノ酸を含んでなることができ、さらに、非アミノ酸が挿入されていてもよい。これらの用語はまた、例えば、ジスルフィド結合の形成、グリコシル化、脂質化、アセチル化、リン酸化、または他の任意の操作もしくは修飾、例えば標識成分とのコンジュゲーションなどにより、天然にまたは介入により修飾されたアミノ酸ポリマーも包含する。また、例えば、1以上のアミノ酸類似体(例えば、非天然アミノ酸などを含む)、ならびに当技術分野で公知の他の修飾を含むポリペプチドもこの定義に含まれる。 「融合ポリペプチド」とは、少なくとも2つのポリペプチドと、場合により、その2つのポリペプチドを1つの連続するポリペプチドに作動可能に連結する架橋配列とから構成されるポリペプチドである。融合ポリペプチドにおいて連結されている2つのポリペプチドは、一般に、2つの独立した供給源に由来し、従って、融合ポリペプチドは、自然界では通常連結された状態では見られない、2つの連結されたポリペプチドを含んでなる。これら2つのポリペプチドは、ペプチド結合により直接的に作動可能に結合されてもよく、または本明細書に記載の、またはそうでなければ当技術分野で公知のリンカーを介して間接的に連結されてもよい。 「核酸」、「ポリヌクレオチド」、または「核酸分子」とは、ヌクレオチドと呼ばれる、共有結合されたサブユニットから構成されるポリマー化合物である。核酸は、ポリリボ核酸(RNA)およびポリデオキシリボ核酸(DNA)を含み、両方とも一本鎖または二本鎖であり得る。DNAは、cDNA、ゲノムDNA、合成DNA、および半合成DNAを含む。 2つ以上の核酸またはポリペプチドに関して「同一」または「同一性」パーセントという用語は、保存的アミノ酸置換を配列同一性の一部と考えずに最大の一致となるように比較およびアラインした際に(必要であればギャップを導入する)、同一であるか、または同一であるヌクレオチドもしくはアミノ酸残基の特定のパーセンテージを有する2つ以上の配列または部分配列を意味する。同一性パーセントは配列比較ソフトウエアもしくはアルゴリズムまたはもしくは目視検査により評価することができる。アミノ酸またはヌクレオチド配列のアラインメントを得るために使用可能な種々のアルゴリズムおよびソフトウエアは当技術分野で公知である。配列アラインメントアルゴリズムのこのような限定されない例の1つが、Karlin et al., 1993, Proc. Natl. Acad. Sci., 90:5873-5877において改変されているKarlin et al, 1990, Proc. Natl. Acad. Sci., 87:2264-2268に記載され、NBLASTおよびXBLASTプログラム(Altschul et al., 1991, Nucleic Acids Res., 25:3389-3402)に組み込まれているアルゴリズムである。特定の態様では、ギャップBLASTをAltschul et al., 1997, Nucleic Acids Res. 25:3389-3402に記載されているように使用することができる。BLAST−2、WU−BLAST−2(Altschul et al., 1996, Methods in Enzymology, 266:460-480)、ALIGN、ALIGN−2(Genentech,サウスサンフランシスコ、カリフォルニア)またはMegalign(DNASTAR)は、配列をアラインするために使用可能な、そのたの公的に利用可能なソフトウエアプログラムである。特定の態様では、2つのヌクレオチド配列間の同一性パーセントは、 GCGソフトウエアのGAPプログラム(例えば、NWSgapdna.CMPマトリックスおよびギャップウェイト40、50、60、70または90、およびレングスウェイト1、2、3、4、5または6を使用)を用いて決定される。特定の別の態様では、Needleman and Wunsch (J. Mol. Biol. 48:444-453 (1970))のアルゴリズムを組み込んだGCGソフトウエアパッケージのGAPプログラムを用いて、2つのアミノ酸配列間の同一性パーセントを決定することができる(例えば、Blossum 62マトリックスまたはPAM250マトリックスのいずれか、およびギャップウェイト16、14、12、10、8、6または4、およびレングスウェイト1、2、3、4、5を使用)。あるいは、特定の態様では、ヌクレオチド配列またはアミノ酸配列間の同一性パーセントは、Myers and Miller (CABIOS, 4:11-17 (1989))のアルゴリズムを用いて決定される。例えば、同一性パーセントは、ALIGNプログラム(バージョン2.0)を使用し、残基表、ギャップレングスペナルティー12およびギャップペナルティー4とともにPAM120を用いて決定することができる。特定のアラインメントソフトウエアによる最大アラインメントのために適当なパラメーターは当業者により決定可能である。特定の態様では、アラインメントソフトウエアのデフォルトパラメーターを使用する。特定の態様では、第1のアミノ酸配列の第2のアミノ酸配列に対する同一性パーセンテージ「X」は、100×(Y/Z)として計算され、式中、Yは、第1の配列と第2の配列のアラインメントにおいて(目視検査または特定の配列アラインメントプログラムによりアラインされた場合に)同一一致としてスコアが入れられたアミノ酸残基の数であり、Zは、第2の配列の残基の総数である。第2の配列が第1の配列よりも長ければ、同一性パーセントは、前記の第1の配列と第2の配列の間の重複領域でのみ決定されてよい。この場合、第1の配列と第2の配列が重複する領域の長さをZ値として使用すること以外は上記と同じ式を使用することができ、前記の領域は第1の配列の長さと実質的に同じ長さを有する。 限定されない例として、任意の特定のポリヌクレオチドが参照配列に対して特定の配列同一性パーセンテージ(例えば、少なくとも80%同一、少なくとも85%同一、少なくとも90%同一、いくつかの態様では、少なくとも95%、96%、97%、98%、または99%同一)を有するかどうかは、特定の態様において、Bestfitプログラム(Wisconsin Sequence Analysis Package, Version 8 for Unix, Genetics Computer Group, University Research Park, 575 Science Drive, Madison, WI 53711)を用いて決定することができる。Bestfitは、Smith and Waterman, Advances in Applied Mathematics 2: 482 489 (1981)のローカルホモロジーアルゴリズムを用いて、2つの配列間に最良の相同性セグメントを見つけ出す。Bestfitまたは任意の他の配列アラインメントプログラムを用いて、特定の配列が本発明による参照配列と例えば95%同一であるかどうかを決定する場合、同一性のパーセンテージが参照ヌクレオチド配列の全長にわたって計算されるように、かつ、参照配列のヌクレオチド総数の5%までの相同性ギャップが許容されるようにパラメーターを設定する。 いくつかの態様では、本発明の2つの核酸またはポリペプチドは、配列比較アルゴリズムを用いて、または目視検査により評価した際、最大一致となるように比較およびアラインした場合に、それらが少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、いくつかの態様では、少なくとも95%、96%、97%、98%、99%のヌクレオチドまたはアミノ酸残基同一性を有することを意味して、実質的に同一であるという。同一性は少なくとも約10、約20、約40〜60残基長またはその間の任意の整数値である配列の領域にわたって存在することもできるし、または60〜80残基、例えば、少なくとも約90〜100残基より長い領域にわたることもでき、いくつかの態様では、配列は例えばヌクレオチド配列のコード領域などの比較される配列の全長にわたって実質的に同一である。 用語「ベクター」とは、宿主細胞に1以上の対象遺伝子または配列を送達し、所望により発現させることができる構築物を意味する。ベクターの例としては、限定されるものではないが、ウイルスベクター、裸のDNAまたはRNA発現ベクター、プラスミド、コスミドまたはファージベクター、陽イオン性縮合剤と会合したDNAまたはRNA発現ベクター、リポソーム中に封入されたDNAまたはRNA発現ベクター、および生産細胞などの特定の真核細胞が含まれる。ベクターは安定であり得、自己複製可能である。「発現ベクター」とは、それが作動可能に会合された遺伝子の発現を指示することができるベクターである。 「プロモーター」とは、コード配列または機能的RNAの発現を制御することができるDNA断片を意味する。一般に、コード領域は、プロモーターの3’側に位置する。プロモーターは、その全体が天然遺伝子に由来してもよいし、または天然に見られるものとは異なるプロモーターに由来する異なるエレメントから構成されてもよく、またはさらには合成DNAセグメントを含んでなってもよい。当業者には、プロモーターが異なれば、異なる組織もしくは細胞種、または異なる発達段階、または異なる環境もしくは生理条件に対する応答での遺伝子の発現を指示し得ることが理解される。ほとんどの細胞種において、ほとんどの時点で遺伝子を発現させるプロモーターは、一般に「構成プロモーター」と呼ばれる。さらに、ほとんどの場合、調節配列の正確な境界は完全に定義されているわけではないので、長さの異なるDNA断片が同じプロモーター活性を持つ場合があると認識される。プロモーターは、一般に、その3’末端で転写開始部位により画定され、バックグラウンドを上回る検出可能なレベルで転写を開始するために必要な最小数の塩基またはエレメントを含んで上流に(5’方向に)延びる。プロモーター内には、転写開始部位(好都合には、例えば、ヌクレアーゼS1を用いたマッピングにより定義される)、ならびにRNAポリメラーゼの結合を担うタンパク質結合ドメイン(コンセンサス配列)が見られる。 本発明において用語「異種」とは、内因性供給源以外の供給源に由来するベクター、プラスミドまたは宿主細胞のエレメントを意味する。よって、例えば、異種配列(例えば、ポリヌクレオチド配列またはポリペプチド配列)は、同じ宿主、異なる宿主細胞株、または異なる分類群(例えば、異なる界、門、綱、目、科、属もしくは種、またはこれらの分類の1つの中の任意の亜群)の生物体からの異なる遺伝子またはプラスミドに由来する配列であり得る。用語「異種」はまた、本明細書では用語「外因性」と同義で用いられる。 DNAまたはRNA「コード領域」とは、適当な調節配列の制御下に置かれた場合にin vitroまたはin vivoで細胞においてポリペプチドへと転写および/または翻訳されるDNAまたはRNA分子である。「好適な調節領域」とは、コード領域の上流(5’非コード配列)、内部、または下流(3’非コード配列)に位置して、転写、RNAのプロセシングもしくは安定性、または関連のコード領域の翻訳に影響を及ぼす核酸領域を意味する。調節領域は、プロモーター、翻訳リーダー配列、RNAプロセシング部位、エフェクター結合部位およびステム−ループ構造を含み得る。コード領域の境界は5’(アミノ)末端では開始コドン、および3’(カルボキシル)末端では翻訳終止コドンによって画定される。コード領域としては、限定されるものではないが、原核生物領域、mRNA由来のcDNA、ゲノムDNA分子、合成DNA分子、またはRNA分子を含み得る。コード領域が真核細胞における発現向けに意図される場合、ポリアデニル化シグナルおよび転写終結配列は通常、コード領域の3’側に位置する。 「オープンリーディングフレーム」とは、ORFと略され、翻訳開始シグナルまたは開始コドン(ATGまたはAUGなど)、および終止コドンを含んでなる、ある長さの核酸、DNA、cDNAまたはRNAのいずれかを意味し、潜在的にポリペプチド配列へと翻訳され得る。 RNAポリメラーゼがコード領域をmRNAへと転写し、その後、トランス−RNAスプライシングされ(コード領域がイントロンを含む場合)、コード領域によりコードされるタンパク質へと翻訳される場合に、そのコード領域は、細胞内で転写および翻訳制御エレメントの「制御下」にある。 「転写および翻訳制御領域」とは、プロモーター、エンハンサー、ターミネーターなどの、宿主細胞内でコード領域の発現を提供するDNA調節領域である。真核細胞では、ポリアデニル化シグナルが制御領域である。 用語「作動可能に会合された」および「作動可能に連結された」とは、一方の機能が他方の影響を受けるような2つの分子の会合を意味する。例えば、プロモーターは、それがコード領域の発現に影響を及ぼし得る(すなわち、コード領域がプロモーターの転写制御下にある)場合に、コード領域と作動可能に会合されている。コード領域は、センス配向またはアンチセンス配向で調節領域と作動可能に会合させることができる。2つの分子は、それらが直接結合されている場合(例えば、融合タンパク質)でもまたは間接的に結合されている場合(例えば、リンカーを介して)でも「作動可能に連結されている」。 本発明において、用語「発現」とは、核酸鋳型からのRNA(例えば、mRNA)の転写および/またはmRNAのポリペプチドへの翻訳を意味する。用語「発現の増強」とは、mRNA生産の増加のレベルおよび/またはポリペプチド発現のレベルでの遺伝子発現の変更を含むことを意図し、一般に、遺伝子産物またはタンパク質の量の増加をもたらす。場合によっては、「発現の増強」は、用語「過剰発現」または「過剰発現された」と互換的に使用される。II.インテイン インテインは、宿主タンパク質から自己切除し、ペプチド結合によるフランキング配列の連結を触媒することができるタンパク質エレメントである。スプリットインテインは、インテインのN末端ドメインとインテインのC末端ドメインがペプチド結合により直接連結されない任意のインテインである。天然スプリットインテインはシアノバクテリアおよび古細菌で確認されているが、スプリットインテインは、インテインの配列を2つに分離することにより人工的に作出することもできる。本明細書に記載のスプリットインテインは、大きな温度範囲および塩の存在下で機能するという点で既知のスプリットインテインを超える利点を提供する。スプリットインテインまた、他の既知のスプリットインテインよりも速い反応でスプライスする。さらに、本明細書に記載のスプリットインテインは、インテイン内とエクステイン内の両方の配列変異および/または異種ポリペプチド配列に耐用性を示す。本明細書に記載のスプリットインテインは、C−エクステインの最初のアミノ酸に依存せずにC末端自己切断を遂行できるという点で既知のスプリットインテインを超える利点を提供する。 本明細書で使用するスプリットインテインは、HINT(Hog/インテイン)ファミリーの6つの保存されているタンパク質スプライシングモチーフを含んでなり得る。このような保存されているモチーフの配列は、インテインドメイン内のどのアミノ酸がより厳格に保存されているか、およびどのアミノ酸があまり厳格に保存されていないかを推定するために使用することができる。厳格に保存されているアミノ酸の突然変異ほど、インテイン切断の有効性を低下させる可能性がある。 「インテインN末端ドメイン」とは、トランススプライシング反応および/またはN末端自己切断反応に機能的なN末端アミノ酸配列を含んでなるインテイン配列を意味する。インテインN末端ドメインは、トランススプライシングが起こった場合にスプライシングで切り出すことができる。インテイン配列がN末端ドメインであるかどうかを決定するための好適なアッセイは、トランススプライシング活性を測定するためのアッセイを提供する本発明の実施例1、またはN末端自己切断を検出するためのアッセイを提供する実施例6に見出すことができる。 インテインN末端ドメインは、HINT(Hog/インテイン)ファミリーのN1、N2、N3、および/またはN4モチーフのうち1以上を含んでなり得る。よって、例えば、インテインN末端ドメインは、N1およびN3モチーフを含んでなり得る。 いくつかの態様では、インテインN末端ドメインは、N1ボックス(Aボックス)配列を含んでなる。N1ボックスは厳格でない保存配列である。N1ボックスは、例えば、配列ChsXcplhXTXXG(配列番号44)を含んでなることができ、ここで、hは疎水性アミノ酸であり、sは小型のアミノ酸であり、cは電荷を有するアミノ酸であり、pは極性アミノ酸であり、lは大型のアミノ酸である。いくつかの態様では、インテインN末端ドメインは、配列X1X2X3X4X5X6X7X8X9X10X11X12X13(配列番号45)を含んでなり、ここで、X1はCであり;X2はL、F、またはVであり;X3はS、T、V、またはAであり;X4はL、P、G、またはYであり;X5はD、E、K、またはGであり;X6はTまたはAであり;X7はE、Q、L、M、K、またはTであり;X8はIまたはVであり;X9はL、Q、V、N、K、D、またはTであり;X10はT、I、またはVであり;X11はV、P、Q、N、E、K、またはLであり;X12はE、Q、G、N、Y、I、またはEであり;かつX13はY、G、K、P、またはDである。いくつかの態様では、インテインN末端ドメインは、配列X1X2X3X4X5X6X7X8X9X10X11X12X13(配列番号46)を含んでなり、ここで、X1はCであり;X2はL、F、またはVであり;X3はS、T、V、またはAであり;X4はL、P、またはGであり;X5はD、K、またはGであり;X6はTまたはAであり;X7はQ、L、M、K、またはTであり;X8はIまたはVであり;X9はQ、V、N、K、D、またはTであり;X10はT、I、またはVであり;X11はP、Q、N、E、K、またはLであり;X12はE、Q、G、N、Y、I、またはEであり、かつX13はG、K、P、またはDである。 アミノ酸の化学特性に基づけば、それらは(i)電荷型(D、E、K、R、H)、(ii)酸性(D、E)、(iii)塩基性(K、R、H)、(iv)小型(V、C、S、T、P、G、D、A)、(v)極性(N,Q、S、T)、(vi)大型(E、Q、R、K、H、Y、W、F、M、L、I)、(vii)疎水性(V、I、L、M、F、Y、W、A)および(viii)求核性(S、T、C)に分類することができる。 いくつかの態様では、インテインN末端ドメインN1ボックスは、配列番号3のアミノ酸1〜13に相当する配列と少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインN末端ドメインN1ボックスは、配列番号12のアミノ酸1〜13に相当する配列と少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインC末端ドメインN1ボックスは、配列番号34のアミノ酸1〜13に相当する配列と少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインN末端ドメインN1ボックスは、配列番号64のアミノ酸1〜13に相当する配列と少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインN末端ドメインN1ボックスは、配列番号20のアミノ酸1〜13に相当する配列と少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインN末端ドメインは、N3ボックス(Bボックス)配列を含んでなる。N3ボックスは、厳格でない保存配列である。N3ボックスは、例えば、配列GXXhXhTXaHXhhTX(配列番号47)を含んでなることができ、ここで、hは疎水性アミノ酸であり、aは酸性アミノ酸である。いくつかの態様では、インテインN末端ドメインは、配列X1X2X3X4X5X6X7X8X9X10X11X12X13X14X15(配列番号48)を含んでなり、ここで、X1はGまたはAであり;X2はS、K、Q、N、またはFであり;X3はL、E、K、またはRであり;X4はI、L、またはVであり;X5はR、I、V、またはNであり;X6はA、C、V、またはEであり;X7はT、S、またはDであり;X8はK、E、A、P、またはNであり;X9はD、E、N、またはIであり;X10はHであり;X11はK、L、Q、またはMであり;X12はF、V、またはIであり;X13はM、P、F、Y、またはAであり;X14はTであり;かつX15はV、Q、K、またはLである。いくつかの態様では、インテインN末端ドメインは、配列X1X2X3X4X5X6X7X8X9X10X11X12X13X14X15(配列番号49)を含んでなり、ここで、X1はGまたはAであり;X2はK、Q、N、またはFであり;X3はE、K、またはRであり;X4はI、L、またはVであり;X5はR、I、V、またはNであり;X6はC、V、またはEであり;X7はT、S、またはDであり;X8はE、A、P、またはNであり;X9はD、E、N、またはIであり;X10はHであり;X11はK、L、Q、またはMであり;X12はF、V、またはIであり;X13はP、F、Y、またはAであり;X14はTであり;かつX15はQ、K、またはLである。 インテインN末端ドメインの最初のアミノ酸は保存性が高く、タンパク質スプライシング反応に重要である。従って、いくつかの態様では、インテインN末端ドメインの最初のアミノ酸は、システインである。いくつかの態様では、インテインN末端ドメインの最初のアミノ酸は、セリンである。他の態様では、インテインN末端ドメインの最初のアミノ酸は、異種ポリペプチドまたはN−エクステインとインテインとの間の切断を防ぐまたは減らすアミノ酸に変異させることができる。よって、いくつかの態様では、インテインN末端ドメインの最初のアミノ酸は、セリンまたはシステイン以外のアミノ酸である。例えば、インテインN末端ドメインの最初のアミノ酸は、アラニンであり得る。 いくつかの態様では、インテインN末端ドメインは、約50〜約150個のアミノ酸である。いくつかの態様では、インテインN末端ドメインは、約60〜約140個のアミノ酸である。いくつかの態様では、インテインN末端ドメインは、約75〜約125個のアミノ酸である。いくつかの態様では、インテインN末端ドメインは、約70〜約80、約80〜約90、約90〜約100、約100〜約110、約110〜約120、または約120〜約130個のアミノ酸である。 いくつかの態様では、インテインN末端ドメインは、配列番号3、12、20、34および64からなる群から選択される配列のアミノ酸を含んでなる。 いくつかの態様では、インテインN末端ドメインは、配列番号3、12、20、34および64からなる群から選択される配列と少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインN末端ドメインは、gp41−1(配列番号79)、gp41−2(配列番号80)、gp41−3(配列番号81)、gp41−4(配列番号82)、gp41−5(配列番号83)、gp41−6(配列番号84)、gp41−7(配列番号85)、gp41−8(配列番号86)、IMPDH−1(配列番号87)、NrdA−1(配列番号88)、NrdA−2(配列番号89)、NrdA−4(配列番号90)、NrdA−5(配列番号91)、NrdA−6(配列番号92)、NrdJ−1(配列番号93)およびNrdJ−2(配列番号94)のN末端ドメインに相当する配列を含んでなる。 いくつかの態様では、インテインN末端ドメインは、配列番号3、12、20、34および64からなる群から選択される配列の少なくとも約10個、少なくとも約20個、少なくとも約30個、少なくとも約40個、または少なくとも約50個のアミノ酸を含む。いくつかの態様では、インテインN末端ドメインは、配列番号3、12、20、34および64からなる群から選択される配列の少なくとも約10個、少なくとも約20個、少なくとも約30個、少なくとも約40個、または少なくとも約50個の連続するアミノ酸を含む。いくつかの態様では、インテインN末端ドメインは、配列番号3、12、20、34および64からなる群から選択される配列の多くて約5個、約10個、約15個、約20個、または約25個のアミノ酸の欠失を含む。いくつかの態様では、インテインN末端ドメインは、配列番号3、12、20、34および64からなる群から選択される配列の多くて約5個、約10個、約15個、約20個、または約25個の連続するアミノ酸の欠失を含む。 いくつかの態様では、インテインN末端ドメインは、配列番号3の配列と少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインN末端ドメインは、配列番号12の配列と少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインN末端ドメインは、配列番号20の配列と少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインN末端ドメインは、配列番号64の配列と少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインN末端ドメインは、配列番号34の配列と少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 「インテインC末端ドメイン」とは、トランススプライシング反応および/またはC末端自己切断反応に機能的なC末端アミノ酸配列を含んでなるインテイン配列を意味する。インテインC末端ドメインは、トランススプライシングが起こった場合にスプライシングで切り出すことができる。所与のポリペプチドのどれがインテインC末端ドメインであるかを決定するための好適なアッセイは、機能的N末端インテインドメインの存在下でトランススプライシング活性を測定するためのアッセイを提供する本発明の実施例1、または最初のシステイン残基に突然変異を有するN末端インテインドメインの存在下で、C末端インテインと異種ポリペプチドとを含んでなる融合タンパク質のC末端自己切断を検出するためのアッセイを提供する実施例5に見出すことができる。 インテインC末端ドメインは、HINT(Hog/インテイン)ファミリーのC1および/またはC2モチーフを含んでなり得る。 いくつかの態様では、インテインC末端ドメインは、C2ボックス(Fボックス)配列を含んでなる。C2ボックスは、厳格でない保存配列である。C2ボックスは、例えば、配列XhhDIpVXXpHXFX(配列番号50)を含んでなることができ、ここで、hは疎水性アミノ酸であり、pは極性アミノ酸である。いくつかの態様では、インテインC末端ドメインは、配列X1X2X3X4X5X6X7X8X9X10X11X12X13X14(配列番号51)を含んでなり、ここで、X1はN、E、L、K、Q、D、P、またはRであり;X2はV、L、またはTであり;X3はY、I、V、H、またはFであり;X4はDであり;X5はIまたはLであり;X6はG、E、T、Q、またはKであり;X7はVまたはTであり;X8はE、S、T、D、N、またはKであり;X9はR、G、D、N、Q、S、またはKであり;X10はD、E、N、T、またはKであり;X11はH、R、S、I、またはNであり;X12はN、L、S、I、またはNであり;X13はF、Y、L、またはIであり;かつX14はA、Y、F、N、C、またはSである。いくつかの態様では、インテインC末端ドメインは、配列X1X2X3X4X5X6X7X8X9X10X11X12X13 X14(配列番号52)を含んでなり、ここで、X1はE、L、K、Q、D、P、またはRであり;X2はV、L、またはTであり;X3はY、I、V、H、またはFであり;X4はDであり;X5はIまたはLであり;X6はG、E、T、Q、またはKであり;X7はVまたはTであり;X8はE、S、T、D、N、またはKであり;X9はG、D、N、Q、S、またはKであり;X10はD、E、N、T、またはKであり;X11はH、R、S、I、またはNであり;X12はN、L、S、I、またはNであり;X13はF、Y、L、またはIであり;かつX14はA、Y、F、N、C、またはSである。 いくつかの態様では、インテインC末端ドメインは、C1ボックス(Gボックス)配列の一部を含んでなる。C1ボックスは、厳格でない保存配列である。C1ボックスは、例えば、配列hNXIhXHNn(配列番号53)を含んでなることができ、ここで、hは疎水性アミノ酸であり、nは求核性アミノ酸である。いくつかの態様では、インテインC末端ドメインは、配列X1X2X3X4X5X6X7X8X9(配列番号54)を含んでなり、ここで、X1はL、A、V、I、またはCであり;X2はNまたはRであり;X3はG、D、A、またはNであり;X4はI、F、またはTであり;X5はL、I、またはVであり;X6はV、I、T、またはAであり;X7はHまたはSであり;X8はNであり;かつX9はS、T、またはCである。いくつかの態様では、インテインC末端ドメインは、配列X1X2X3X4X5X6X7X8X9(配列番号55)を含んでなり、ここで、X1はA、V、I、またはCであり;X2はNまたはRであり;X3はG、D、A、またはNであり;X4はI、F、またはTであり;X5はLまたはVであり;X6はV、I、またはTであり;X7はHであり;X8はNであり;かつX9はS、T、またはCである。C1ボックス配列内で、X1〜X8のアミノ酸はインテイン配列に相当し、X9はエクステインの最初のアミノ酸に相当する。 いくつかの態様では、インテインC末端C1−ボックスドメインは、配列番号7の最後の8個のアミノ酸に相当する配列と少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインC末端C1ボックスドメインは、配列番号16の最後の8個のアミノ酸に相当する配列と少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインC末端C1ボックスドメインは、配列番号38の最後の8個のアミノ酸に相当する配列と少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインC末端C1ボックスドメインは、配列番号65の最後の8個のアミノ酸に相当する配列と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインC末端C1ボックスドメインは、配列番号24の最後の8個のアミノ酸に相当する配列と少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 インテインC末端ドメインの最後の2個のアミノ酸は保存性が高く、タンパク質スプライシング反応に重要である。従って、いくつかの態様では、インテインC末端ドメインの最後のアミノ酸はアスパラギンである。いくつかの態様では、インテインC末端ドメインの最後のアミノ酸はグルタミンである。いくつかの態様では、インテインC末端ドメインの最後から2番目のアミノ酸はヒスチジンである。他の態様では、インテインC末端ドメインの最後のアミノ酸および/または最後から2番目のアミノ酸は、異種ポリペプチドまたはエクステインとインテインとの間の切断を防ぐまたは減らすアミノ酸に変異させることができる。よって、いくつかの態様では、インテインC末端ドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸である。いくつかの態様では、インテインC末端ドメインの最後から2番目のアミノ酸は、ヒスチジン以外のアミノ酸である。いくつかの態様では、インテインC末端ドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸であり、かつ、エクステインC末端ドメインの最初のアミノ酸は、セリン以外のアミノ酸である。例えば、インテインC末端ドメインの最後のアミノ酸および/またはエクステインC末端ドメインの最初のアミノ酸はアラニンであり得る。 いくつかの態様では、インテインC末端ドメインは、約10〜約80個のアミノ酸である。いくつかの態様では、インテインC末端ドメインは、約20〜約70個のアミノ酸である。いくつかの態様では、インテインC末端ドメインは、約30〜約60個のアミノ酸である。いくつかの態様では、インテインC末端ドメインは、約25〜約35個、約30〜約40個、約35〜約45個、約40〜約50個、約45〜約55個、または約55〜約65個のアミノ酸である。 いくつかの態様では、インテインC末端ドメインは、配列番号7、16、24、38および65からなる群から選択される配列のアミノ酸を含んでなる。いくつかの態様では、インテインC末端ドメインは、配列番号7、16、24、38および65からなる群から選択される配列と少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%同一である配列を含んでなる。いくつかの態様では、インテインC末端ドメインは、配列番号7、16、24、38および65からなる群から選択される配列の少なくとも約10個、少なくとも約20個、少なくとも約30個、少なくとも約40個、または少なくとも約50個のアミノ酸を含む。いくつかの態様では、インテインC末端ドメインは、配列番号7、16、24、38および65からなる群から選択される配列の少なくとも約10個、少なくとも約20個、少なくとも約30個、少なくとも約40個、または少なくとも約50個の連続するアミノ酸を含む。いくつかの態様では、インテインC末端ドメインは、配列番号7、16、24、38および65からなる群から選択される配列の多くて約5個、約10個、約15個、約20個、または約25個のアミノ酸の欠失を含む。いくつかの態様では、インテインC末端ドメインは、配列番号7、16、24、38および65からなる群から選択される配列の多くて約5個、約10個、約15個、約20個、または約25個の連続するアミノ酸の欠失を含む。 いくつかの態様では、インテインC末端ドメインは、配列番号7の配列と少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインC末端ドメインは、配列番号16の配列と少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインC末端ドメインは、配列番号38の配列と少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインC末端ドメインは、配列番号65の配列と少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインC末端ドメインは、配列番号24の配列と少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一である配列を含んでなる。 いくつかの態様では、インテインC末端ドメインは、gp41−1(配列番号95)、gp41−2(配列番号96)、gp41−3(配列番号97)、gp41−8(配列番号98)、gp41−8(配列番号99)、IMPDH−1(配列番号100)、IMPDH−2(配列番号101)、IMPDH−3(配列番号102)、NrdA−2(配列番号103)、NrdA−3(配列番号104)、NrdA−5(配列番号105)、NrdA−6(配列番号106)、NrdA−7(配列番号107)、NrdJ−1(配列番号108)のC末端ドメインに相当する配列を含んでなる。 いくつかの態様では、インテインN末端ドメインおよびインテインC末端ドメインは、反対の電荷を有する。よって、いくつかの態様では、インテインN末端ドメインは負電荷を有し、インテインC末端ドメインは正電荷を有する。他の態様では、インテインN末端ドメインは正電荷を有し、インテインC末端ドメインは負電荷を有する。 インテインおよびスプリットインテインにおいて確認されているいくつかのボックス(N1、N2、C1およびC2)タンパク質配列のうち、C1は最も保存性の高いボックスであり、トランススプライシング反応に直接関与している。C1の中枢的役割はスプリットインテインを分類およびグループ分けする上で重要な特徴であると考えられる。 いくつかの態様では、インテインC末端ドメインは、gp−41−1スプリットインテインのC末端ドメインのC1ボックスに相当する配列ANDILTHNS(配列番号78)と少なくとも約60%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%同一であるC1ボックスを含む。 本明細書の残りの部分について、下表のような場合の同一性は、アミノ酸総数に対する同一のアミノ酸のパーセンテージとして計算される。表2:gp41−1 C1ボックス(ANDILTHNS、配列番号78)に対する、数種のスプリットインテイン由来のC1ボックス(Gボックスとしても知られる)の同一性パーセンテージ。本特許出願の残りの部分について、同一性は、アミノ酸総数に対する同一のアミノ酸のパーセンテージとして計算される。分かりやすいように、同一性は同じ長さを有する2つの配列間で計算される。従来技術から既知のDNA−Eインテインは、C1ボックスがgp41−1 C1ボックスと実質的な同一性を示さないという点で他のインテインとは異なる。III.インテイン融合タンパク質 スプリットインテインを含んでなる融合タンパク質もまた本明細書に記載される。インテインN末端ドメインおよび/またはインテインC末端ドメインは、直接的(すなわちペプチド結合を介して)または間接的(すなわちリンカーアミノ酸配列を介して)のいずれかで異種ポリペプチドと融合させることができる。 よって、いくつかの態様では、異種ポリペプチドを、インテインN末端ドメインのN末端に直接的または間接的のいずれかで融合させる。このようなポリペプチドはまた所望により、インテインN末端ドメイン(例えば、発現または精製タグ)のC末端に直接的もしくは間接的に融合された、または異種ポリペプチドのN末端に直接的もしくは間接的に融合された付加的アミノ酸または異種ポリペプチドを含んでなってもよい。 いくつかの態様では、異種ポリペプチドは、インテインC末端ドメインのC末端に直接的または間接的のいずれかで融合させる。このようなポリペプチドはまた所望により、インテインC末端ドメイン(例えば、発現または精製タグ)のN末端に直接的もしくは間接的に融合された、または異種ポリペプチドのC末端に直接的もしくは間接的に融合された付加的アミノ酸または異種ポリペプチドを含んでなってもよい。 いくつかの態様では、インテインC末端ドメインのC末端に融合された異種ポリペプチドを含んでなる融合タンパク質と、インテインN末端ドメインのN末端に融合された異種ポリペプチドを含んでなる融合タンパク質が、2つの別個のポリペプチドとして発現される。 いくつかの態様では、インテインC末端ドメインのC末端に融合された異種ポリペプチドを含んでなる融合タンパク質と、インテインN末端ドメインのN末端に融合された異種ポリペプチドを含んでなる融合タンパク質が、単一のポリペプチドとして発現される。インテインC末端ドメインのC末端に融合された異種ポリペプチドを含んでなる融合タンパク質は、インテインN末端ドメインのN末端に融合された異種ポリペプチドを含んでなる融合タンパク質から約1〜約1000個、約1〜約500個、約1〜約250個、約1〜約200個、約1〜約150個、約1〜約100個、または約1〜約50個のアミノ酸により分離することができる。 いくつかの態様では、融合タンパク質は、異種ポリペプチドのN末端に融合されたインテインC末端ドメインを含んでなる。好ましい態様では、融合タンパク質は、(i)配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一であるインテインドメインと(ii)異種ポリペプチドとを含んでなり、前記異種ポリペプチドは前記インテインドメインのC末端にある。さらにより好ましい態様では、インテインドメインの最後のアミノ酸はグルタミンまたはアスパラギンである。さらに別の態様では、異種ポリペプチドの最初のアミノ酸は、Met、Cys、Thr、Arg、Lys、Ser、Gln、His、Ala、Tyr、Phe、Asn、Trp、Val、Leu、Asp、Ile、Gly、GluまたはProからなる群から選択される。別の態様では、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸であり、異種ポリペプチドの最初のアミノ酸は、Met、Cys、Thr、Arg、Lys、Ser、Gln、His、Ala、Tyr、Phe、Asn、Trp、Val、Leu、Asp、Ile、Gly、GluまたはProからなる群から選択される。別の態様では、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸であり、異種ポリペプチドの最初のアミノ酸は、セリン、システイン、またはトレオニン以外のアミノ酸である。 いくつかの態様では、融合タンパク質は、異種ポリペプチドのC末端に融合されたインテインN末端ドメインを含んでなる。別の態様では、融合タンパク質は、(i)配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一であるインテインドメインとii)異種ポリペプチドとを含んでなり、前記異種ポリペプチドは前記インテインドメインのN末端にある。好ましい態様では、インテインドメインの最初のアミノ酸は、セリンまたはシステインである。さらに別の態様では、インテインドメインの最初のアミノ酸は、セリンまたはシステイン以外のアミノ酸である。 異種ポリペプチドは、例えば、酵素、ホルモン(カルシトニン、エリスロポエチン、トロンボポエチン、ヒト成長ホルモン、上皮細胞増殖因子など)、インターフェロン、サイトカイン、治療用途、栄養補助用途、農業用途、または工業用途を有するタンパク質であり得る。さらなる異種ポリペプチドは、酵素、抗体、抗体フラグメント、および医薬用タンパク質であり得る。異種ポリペプチドはまた、ポリペプチド断片であり得る。 異種ポリペプチドはまた、例えば、抗体鎖、シングルドメイン抗体、ラクダ科重鎖抗体(VHHもしくはナノボディー)、または一価(可変領域フラグメント(Fv)、ジスルフィド安定化Fv抗体フラグメント(dsFv)、scFv、一本鎖抗体フラグメント(scAb)およびFab)、二価(ミニボディー、ダイアボディー、F(ab’)2および(scFv)2)および多価(テトラボディー、トリアボディーおよびF(ab’)3)形式などの抗体ドメインの組合せを用いて開発された組換え抗体(Vijayalakshmi B et al. Methods Volume 56, Issue 2, February 2012, 116-129の図3)であり得る。 いくつかの態様では、異種ポリペプチドの最初のアミノ酸は、セリン、システイン、またはトレオニンである。いくつかの態様では、異種ポリペプチドの最初のアミノ酸は、セリン、システイン、またはトレオニンではない。 いくつかの態様では、異種ポリペプチドとインテインまたはインテインドメインとを含んでなる融合タンパク質は、精製タグまたは発現タグなどの付加的配列をさらに含んでなる。このような発現および/または精製タグは、例えば、Strep、His、およびMycタグを含む。 いくつかの態様では、融合タンパク質は、タンパク質溶解度を高める配列、例えば、ファージバクテリオファージλ頭部タンパク質D(gpD)、チオレドキシン(Tx)またはGSTをさらに含んでなる。 いくつかの態様では、異種ポリペプチドおよびインテインN末端および/またはC末端ドメインを含んでなる融合タンパク質は、とりわけ、蛍光基、ビオチン、ポリエチレングリコール(PEG)、アミノ酸類似体、非天然アミノ酸、リン酸基、グリコシル基、放射性同位元素標識、および医薬分子を含む付加的化学部分を含んでなり得る。他の態様では、異種ポリペプチドは、とりわけ、ケトン、アルデヒド、Cys残基およびLys残基を含む1以上の化学反応性基を含んでなり得る。 いくつかの態様では、融合タンパク質は、異種ポリペプチドとインテイン配列との間にリンカーを含んでなる。よって、融合タンパク質は、異種タンパク質のC末端とインテインのN末端ドメインのN末端との間にリンカーを含んでなり得る。融合タンパク質はまた、異種タンパク質のN末端とインテインのC末端ドメインのC末端との間にリンカーを含んでなることもできる。リンカーは、例えば、1〜10アミノ酸長であり得る。リンカーは、1〜5アミノ酸長であり得る。よって、リンカーは、1、2、3、4、または5個のアミノ酸を含み得る。いくつかの態様では、リンカーは、エクステイン配列を含んでなり得る。 いくつかの態様では、異種ポリペプチドおよびインテインのC末端ドメインのC末端と接するリンカーの最初のアミノ酸は、Met、Cys、Thr、Arg、Lys、Ser、Gln、His、Ala、Tyr、Phe、Asn、Trp、Val、Leu、Asp、Ile、Gly、GluまたはProからなる群から選択される。さらに別の態様では、異種ポリペプチドおよびインテインのC末端ドメインのC末端と接するリンカーの最初のアミノ酸は、セリン、システイン、またはトレオニンを含んでなり得る。インテインのC末端ドメインのC末端に隣接するセリン、システイン、またはトレオニンは、C末端切断(すなわち、インテインC末端ドメインと異種ポリペプチドのセリン、システイン、またはトレオニンとの間の切断)の効率を高めることができる。いくつかの態様では、リンカーの1番目、2番目、3番目、4番目および/または5番目のアミノ酸はセリン、システイン、またはトレオニンである。 いくつかの態様では、リンカーは、天然エクステイン配列を含んでなり得る。本発明において、用語「エクステイン」とは、本来インテインまたはインテインドメインに隣接して見られる配列を意味する。よって、本来インテインまたはインテインドメインに隣接して見られないポリペプチドである異種ポリペプチドは、エクステインではない。いくつかの態様では、エクステインは、配列番号4、8、13、17、21、25、35、および39からなる群から選択される配列を含んでなる。いくつかの態様では、エクステインのアミノ酸を含んでなるリンカーは、配列番号4、8、13、17、21、25、35、および39からなる群から選択される配列の、例えば、最初(すなわち、N末端)の1〜5個のアミノ酸を含んでなる。いくつかの態様では、リンカーは、配列番号4、8、13、17、21、25、35、および39からなる群から選択される配列の1、2、3、4、または5個のアミノ酸を含んでなる。いくつかの態様では、融合タンパク質は、本来一緒に見られるインテインドメインとエクステインドメインを含んでなる。他の態様では、融合タンパク質は、本来一緒に見られないインテインドメインとエクステインドメイン、すなわち、異種エクステインドメインを含んでなる。例として、融合タンパク質は、Gp41.1インテインドメインと、IMPDHエクステインドメインなどの異種エクステインドメインとを含んでなり得る。III.インテイン融合物をコードするポリヌクレオチドおよびインテイン融合物の発現 インテイン融合物をコードするポリヌクレオチドも本明細書に記載される。ポリヌクレオチドは、RNAまたはDNAの形態であり得る。DNAは、cDNA、ゲノムDNA、および合成DNAを含み、二本鎖または一本鎖であってよく、一本鎖である場合、コード鎖であっても非コード(アンチセンス)鎖であってもよい。特定の態様では、ポリヌクレオチドは単離される。特定の態様では、ポリヌクレオチドは実質的に純粋される。 このようなポリヌクレオチドは、例えば、インテイン融合タンパク質を生産するための発現ベクターに組み込むことができる。発現ベクターは、好適な転写または翻訳調節エレメントに作動可能に連結されたインテイン融合タンパク質をコードする合成またはcDNA由来DNA断片を有する複製可能なDNA構築物である。転写または翻訳調節エレメントは、例えば、哺乳動物、微生物、ウイルス、または昆虫遺伝子に由来し得る。転写単位は一般に、下記に詳細に記載されるように、(1)遺伝子エレメントまたは遺伝子発現の調節の役割を有するエレメント、例えば、転写プロモーターまたはエンハンサー、(2)mRNAに転写され、タンパク質に翻訳される構造またはコード配列、および(3)適当な転写および翻訳開始および終結配列のアセンブリを含んでなる。このような調節エレメントは、転写を制御するためのオペレーター配列を含むことができる。宿主における複製能は、通常、複製起点により付与され、形質転換体の認識を容易にするための選択遺伝子をさらに組み込むことができる。DNA領域は、互いに機能的に関連づけられる場合に、作動可能に連結されると言う。例えば、シグナルペプチドのDNAは、それがポリペプチドの分泌に関与する前駆体として発現される場合に、そのポリペプチドのDNAに作動可能に連結されると言い;プロモーターは、それが配列の転写を制御する場合に、コード配列に作動可能に連結されると言い;またはリボソーム結合部位は、それが翻訳を可能とするように配置される場合に、コード配列に作動可能に連結されると言う。 発現制御配列および発現ベクターの選択は、宿主の選択に依存する。多様な発現宿主/ベクターの組合せが利用できる。真核生物宿主に有用な発現ベクターとしては、例えば、SV40、ウシ乳頭腫ウイルス、アデノウイルスおよびサイトメガロウイルス由来の発現制御配列を含んでなるベクターが含まれる。細菌宿主に有用な発現ベクターとしては、pCR 1、pBR322、pMB9およびそれらの誘導体を含む大腸菌(Esherichia coli)由来のプラスミドなどの既知の細菌プラスミド、M13および微細線維性一本鎖DNAファージなどの広宿主域プラスミドが含まれる。 いくつかの態様では、インテインをコードするポリヌクレオチドを含んでなるベクターは、多重クローニング部位をさらに含んでなる。多重クローニング部位は、1以上のユニークな制限部位を含んでなるポリヌクレオチド配列である。制限部位の限定されない例としては、EcoRI、SacI、KpnI、SmaI、XmaI、BamHI、XbaI、HincII、PstI、SphI、HindIII、AvaI、またはそれらの任意の組合せが含まれる。 多重クローニング部位は、インテインをコードするポリヌクレオチドを含んでなるベクターで、異種ポリペプチドをコードするポリヌクレオチドのベクターへの挿入を簡単にするために使用することができ、これにより、ベクターは、インテインと異種ポリペプチドとを含んでなる融合タンパク質を発現させるために使用することができる。よって、例えば、ベクターは、多重クローニング部位の上流にインテインC末端ドメインをコードする配列を含んでなることができ、これにより、異種ポリペプチドをコードする配列がインテインC末端ドメインの下流に容易に挿入できる。ベクターはまた、多重クローニング部位の下流にインテインN末端ドメインをコードする配列を含んでなることもでき、これにより、異種ポリペプチドをコードする配列は、インテインN末端ドメインの上流に容易に挿入できる。 よって、例えば、ベクターは、多重クローニング部位の上流にインテインC末端ドメインをコードする配列を含んでなることができ、そしてこれはインテインN末端ドメインをコードする配列の上流にあるので、異種ポリペプチドをコードする配列は、インテインC末端ドメインの下流、かつ、インテインN末端ドメインの上流に容易に挿入することができる。 インテインN末端ドメインの上流に多重クローニング部位を伴うポリヌクレオチドを含んでなるベクターは、インテインC末端ドメインの下流に多重クローニング部位を伴うポリヌクレオチドを含んでなるベクターとキットとして組み合わせることができる。いくつかの態様では、単一のベクターが、インテインN末端ドメインの上流に多重クローニング部位を伴うポリヌクレオチドを、およびインテインC末端ドメインの下流に多重クローニング部位を伴うポリヌクレオチド含んでなる。このようなベクターでは、インテインN末端ドメインの上流の多重クローニング部位を伴うポリヌクレオチドとインテインC末端ドメインの下流の多重クローニング部位を伴うポリヌクレオチドはそれぞれ、調節配列に作動可能に連結させることができ、調節配列は同一であっても異なっていてもよい。 ベクターは、少なくとも1つのプロモーターを含んでなり得る。プロモーターは、インテインドメインまたはインテイン融合物の発現を駆動するために好適な任意の配列であり得る。 宿主が異なれば、特定のアミノ酸残基をコードするために使用すべき特定のコドンの選好を持っている場合が多い。このようなコドンの選好は周知であり、目的の融合タンパク質配列をコードするDNA配列を、in vitro突然変異誘発を用い、例えば、融合タンパク質を発現させる特定の宿主に対して宿主が選好するコドンが使用されるように変更することができる。 また、上述のように、企図する融合タンパク質をコードする遺伝子を定義する外因性核酸セグメント(例えば、DNAセグメントまたは配列)に作動可能に連結された、適合する細菌または真核生物宿主細胞生物においてその遺伝子の発現を駆動するのに好適なプロモーターなどの1以上の調節配列(制御エレメント)を含む遺伝子ベクターまたは構築物を含んでなる、DNA分子などの組換え核酸分子も企図される。より詳しくは、異種ポリペプチドに連結されたインテインドメインをコードする遺伝子を定義するDNAセグメントに作動可能に連結された、宿主生物細胞においてその融合タンパク質の発現を駆動するためのプロモーターを含んでなる遺伝子ベクターを含んでなる組換えDNA分子もまた企図される。このような組換えDNA分子は、宿主細胞における好適なトランスフェクションおよび発現時に企図する融合タンパク質を提供する。 当技術分野で周知のように、必要な核酸、例えばDNA配列(開始および終止シグナルを含む)が存在する限り、通常、そのDNAセグメントのいずれかの末端に付加的な塩基対が存在してもよく、このようなセグメントはタンパク質を発現させるためにやはり利用可能である。当然のことながら、これは、発現を抑制する、または発現を望む融合タンパク質を消費するさらなる産物を発現する、または目的の融合タンパク質によって生産される所望の反応産物を消費する産物を発現する、またはそうでなければそのDNAセグメントの遺伝子の発現に干渉する、作動可能に連結されたDNA配列のセグメントが存在しないことを仮定したものである。 よって、DNAセグメントにこのような干渉DNA配列が存在しない限り、本発明のDNAセグメントは約500〜約15,000塩基対の長さであり得る。組換えDNA分子、特に発現ベクターの最大サイズは、所望により複製および発現に必要な最小DNA配列の総てがひとたび出そろえば、ほとんど利便性と宿主細胞により収容可能なベクターサイズにより左右される。最小のベクターサイズは周知である。 融合タンパク質をコードするDNAセグメントは、化学技術、例えば、Matteucci et al., 1981 J. Am. Chem. Soc., 103:3185のホスホトリエステル法によって合成することができる。当然のことながら、コード配列を化学的に合成することにより、天然のアミノ酸残基配列をコードするものを適当な塩基で置換することにより、任意の所望の修飾を簡単に行うことができる。 融合タンパク質をコードする遺伝子を含むDNAセグメントはまた、その遺伝子を含む組換えDNA分子(プラスミドベクター)から得ることもできる。 宿主細胞において融合タンパク質遺伝子の発現を指示するベクターは、本明細書で「発現ベクター」と呼ばれる。発現ベクターは、プロモーターを含む発現制御エレメントを含む。融合タンパク質コード遺伝子は、プロモーター配列にRNAポリメラーゼの結合および融合タンパク質コード遺伝子の発現を指示させることができるように、発現ベクターに作動可能に連結される。Paszkowski et al., 1989 EMBO J., 3:2719 and Odell et al., 1985 Nature, 313:810に記載されているような誘導型、ウイルス型、合成型、構成型、ならびにChua et al., 1989 Science, 244:174-181に示されているような時間的調節型、空間的調節型、および時空間的調節型であるプロモーターがポリペプチドコード遺伝子の発現に有用である。 本明細書では、真核細胞に適合する発現ベクター、例えば、原核生物(大腸菌)、哺乳動物、藻類または昆虫などの細胞に適合するものが企図される。このような発現ベクターは、本発明の組換えDNA分子を形成するためにも使用可能である。原核細胞および真核細胞発現ベクターは当技術分野で周知であり、いくつかの商業ソースから入手可能である。通常、このようなベクターは、所望のDNAセグメントおよびプロモーター配列の挿入のための1以上の好都合な制限部位を含む。所望により、このようなベクターは、原核細胞または真核細胞における使用に特異的な選択マーカーを含む。 どの発現ベクターか、最終的には、どのプロモーターに融合タンパク質コード遺伝子が作動可能に連結されるかの選択は、直接的には所望の機能的特性、例えば、タンパク質発現の場所および時機、ならびに形質転換される宿主細胞に依存する。組換えDNA分子の構築分野に内在する周知の制限がある。しかしながら、本発明の実施に有用なベクターは、それが作動可能に連結されているDNAセグメントに含まれる融合タンパク質遺伝子の複製を、および好ましくは発現もまた(発現ベクターの場合)指示することができる。 スプリットインテイン融合タンパク質は、任意の細胞種で発現させることができる。例えば、スプリットインテイン融合タンパク質は、原核生物、植物(例えば、単子葉または双子葉)、動物、昆虫、真菌、または酵母(例えば、サッカロミセス(Saccharomyces)またはピキア(Pichia))で発現させることができる。好適な細胞としては、例を挙げれば、植物(例えば、トマト、タバコ、アブラナ科(Arabidopsis)、アルファルファ)、哺乳動物細胞(例えば CHO、COSおよび293T細胞)、糸状真菌(例えば、トリコデルマ・リーゼイ(Tricoderma resei)およびアスペルギルス(Aspergillus)種)、および昆虫細胞が含まれる。好適な哺乳動物宿主細胞株の例としては、Gluzman (Cell 23:175, 1981)に記載されているサル腎臓細胞のCOS−7株、および例えば、L細胞、C127、3T3、チャイニーズハムスター卵巣(CHO)、HeLaおよびBHK細胞株を含む、適当なベクターを発現させることができる他の細胞株があげられる。昆虫細胞における異種タンパク質の生産のためのバキュロウイルス系は、Luckow and Summers, Bio/Technology 6:47 (1988)に概説されている。スプリットインテイン融合タンパク質は、このような細胞から、当技術分野で公知の技術を用いて精製することができる。さらに、スプリットインテイン融合タンパク質は、無細胞転写/翻訳系で生産することもできる。IV.インテイン融合物を含んでなる組成物 本発明はまた、本発明の融合タンパク質を含有する組成物およびパーツキットに関する。本発明において用語「組成物」とは1以上の成分の組合せを意味し、これらの成分は、 (i)別個の処方物として提供し(すなわち、互いに独立)、次に、互いに併用するために一緒にすることができ;または (ii)互いに併用するために、「合剤パック」の別個の成分として一緒に包装および提供することができる。 一態様では、組成物またはパーツキットは、インテインのC末端ドメインのC末端に連結されているポリペプチドのC末端切断に十分な成分を含んでなる。これらの組成物は、 (i)(i)配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一であるインテインドメインと、(ii)異種ポリペプチド(前記異種ポリペプチドは前記インテインドメインのC末端にある)とを含んでなる融合タンパク質である第1の成分、ならびに (ii)(i)配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一であるインテインドメインと、(ii)異種ポリペプチド(前記異種ポリペプチドは前記インテインドメインのN末端にある)とを含んでなる融合タンパク質、およびN末端インテインドメイン(前記インテインドメインの最初のアミノ酸がセリンまたはシステイン以外のアミノ酸である)からなる群から選択される第2の成分を含んでなり、ここで、 a.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号7と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインまたはN末端インテインドメインは配列番号3と少なくとも75%同一であり; b.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号16と少なくとも75%同一であり、かつ、第2の成分の融合タンパク質に由来するインテインドメインまたはN末端インテインドメインは配列番号12と少なくとも75%同一であり; c.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号24と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインまたはN末端インテインドメインは配列番号20と少なくとも75%同一であり; d.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号38と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインまたはN末端インテインドメインは配列番号34と少なくとも75%同一であり;あるいは e.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号65と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインまたはN末端インテインドメインは配列番号64と少なくとも75%同一である。 別の態様では、パーツキットの組成物の第1の成分を形成する融合タンパク質を形成する異種ポリペプチドとインテインドメインは、ペプチド結合により直接連結されるかまたはリンカーにより連結される。別の態様では、C末端インテインドメインの最後のアミノ酸は、グルタミンまたはアスパラギンである。 別の態様では、第2の成分は、配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一であるインテインドメインからなる群から選択され、インテインドメインの最初のアミノ酸は、セリンまたはシステイン以外のアミノ酸である。(no tengo claro que sea necesario que el dominio N de la inteina este fusionado a una proteina heterologa para funcionar) 別の態様では、本発明の組成物またはパーツキットは、インテインのN末端ドメインのN末端に連結されているポリペプチドのN末端切断に十分な成分を含んでなる。これらの組成物は、 (i)(i)配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一であるインテインドメインと、(ii)異種ポリペプチド(この異種ポリペプチドは前記インテインドメインのN末端にある)とを含んでなる融合タンパク質である第1の成分、ならびに (ii)(i)配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一であるインテインドメインと、(ii)異種ポリペプチド(前記異種ポリペプチドは前記インテインドメインのC末端にある)とを含んでなる融合タンパク質、およびC末端インテインドメイン(前記インテインドメインの最後のアミノ酸がアスパラギンまたはグルタミン以外のアミノ酸であり、前記異種ポリペプチドまたは前記リンカーの最初のアミノ酸がセリン、システイン、またはトレオニン以外のアミノ酸である)からなる群から選択される第2の成分を含んでなり、ここで、 a.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号3と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインまたはC末端インテインドメインは配列番号7と少なくとも75%同一であり; b.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号12と少なくとも75%同一であり、かつ、第2の成分に由来するインテインドメインまたはC末端インテインドメインは配列番号16と少なくとも75%同一であり; c.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号20と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインまたはC末端インテインドメインは配列番号24と少なくとも75%同一であり; d.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号34と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインまたはC末端インテインドメインは配列番号38と少なくとも75%同一であり;あるいは e.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号64 と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインまたはC末端インテインドメインは配列番号65と少なくとも75%同一である。 好ましい態様では、組成物またはパーツキットの第1の成分を形成する異種ポリペプチドとインテインドメインは、ペプチド結合により直接連結されるかまたはリンカーにより連結される。別の態様では、インテインドメインの最初のアミノ酸は、セリンまたはシステインである。 別の態様では、第2の成分は、配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一であるインテインドメインからなる群から選択され、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸である。 別の態様では、本発明による組成物またはパーツキットは、第1のポリペプチドのN末端を第2のポリペプチドのC末端に共有結合させるのに十分な試薬を含んでなり、前記組成物は、 (i)(i)配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一であるインテインドメインと、(ii)第2の異種ポリペプチド(前記異種ポリペプチドは前記インテインドメインのC末端にある)とを含んでなる融合タンパク質、ならびに (ii)(i)配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一であるインテインドメインと、(ii)第1の異種ポリペプチド(前記異種ポリペプチドは前記インテインドメインのN末端にある)とを含んでなる融合タンパク質を含んでなり、ここで、 a.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号7と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインは配列番号3と少なくとも75%同一であり; b.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号16と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインは配列番号12と少なくとも75%同一であり; c.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号24と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインは配列番号20と少なくとも75%同一であり; d.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号38と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインは配列番号34と少なくとも75%同一であり;あるいは e.第1の成分を形成する融合タンパク質に由来するインテインドメインは配列番号65と少なくとも75%同一であり、かつ、第2の成分を形成する融合タンパク質に由来するインテインドメインは配列番号64と少なくとも75%同一である。 好ましい態様では、組成物の第1の成分である融合タンパク質の一部を形成する異種ポリペプチドとインテインドメインは、ペプチド結合により直接連結されるかまたはリンカーにより連結される。より好ましい態様では、本発明の第1の成分である融合タンパク質中のインテインドメインの最後のアミノ酸は、グルタミンまたはアスパラギンである。 別の好ましい態様では、組成物の第2の成分である融合タンパク質の一部を形成する異種ポリペプチドとインテインドメインは、ペプチド結合により直接連結されるかまたはリンカーにより連結される。より好ましい態様では、本発明の第2の成分である融合タンパク質中のインテインドメインの最初のアミノ酸は、セリンまたはシステインである。 組成物中の成分の比率は、融合タンパク質の効率的プロセシングに十分なものである。第1の成分と第2の成分の好適な比率としては、限定されるものではないが、1000:1、100:1、10:1、1:1、1:10、1:100および1:1000が含まれる。V.インテイン融合物の使用方法 本明細書に記載のスプリットインテインおよびスプリットインテインを含んでなる融合タンパク質は、例えば、ポリペプチド配列を切断、連結(スプライシング)および/または環化するために使用することができる。インテイン配列はこれらの反応を触媒し、これらの反応は、他の酵素、化学添加剤、または処理の不在下で起こり得る。 いくつかの態様では、異種ポリペプチドをインテインドメインから切断することができる。例えば、異種ポリペプチドは、異種ポリペプチドとインテインN末端ドメインとの間の切断を防ぐまたは減らすアミノ酸配列を含んでなる融合タンパク質を含んでなるスプリットインテインを用いて、インテインC末端ドメインのC末端から切断することができる。好ましい態様では、インテインN末端ドメインの最初のアミノ酸は、システインまたはセリン以外のアミノ酸、例えば、アラニンである。異種ポリペプチドの最初のアミノ酸は、反応半減期の延長をもたらす、またはk値の増加をもたらすという理由で、反応収率を高めるために選択することができる。よって、好ましい態様では、異種ポリペプチド、またはインテインC末端ドメインと異種ポリペプチドを連結しているリンカーの最初のアミノ酸は、Met、Cys、Thr、Arg、Lys、Ser、Gln、His、Ala、Tyr、Phe、Asn、Trp、Val、Leu、Asp、Ile、Gly、GluまたはProからなる群から選択される。 さらに、異種ポリペプチドは、異種ポリペプチドとインテインC末端ドメインとの間の切断を減らすアミノ酸配列を含む融合タンパク質を含んでなるスプリットインテインを用いて、インテインN末端ドメインのN末端から切断することができる。好ましい態様では、インテインC末端ドメインの最後のアミノ酸は、グルタミンまたはアスパラギン以外のアミノ酸、例えば、アラニンである。 いくつかの態様では、第1のポリペプチドとインテインN末端ドメインとを含んでなる融合タンパク質を、第2のポリペプチドとインテインC末端ドメインとを含んでなる融合タンパク質と接触させることにより、第1のポリペプチドを第2のポリペプチドに連結(スプライシング)することができる。第1のポリペプチドのC末端が、第2のポリペプチドのN末端と連結されることになる。 いくつかの態様では、スプリットインテインは、ポリペプチドのN末端にインテインC末端ドメイン、およびポリペプチドのC末端にインテインN末端ドメインを含んでなるポリペプチドを環化するために使用することができる。 いくつかの態様では、反応は約0℃〜約60℃で行う。いくつかの態様では、反応は約0℃、約4℃、約8℃、約12℃、約20℃、約25℃、約30℃、約32℃、約34℃、約37℃、約40℃、約45℃、約50℃、約55℃、または約60℃で行う。 いくつかの態様では、反応はpH約5〜約10で行う。いくつかの態様では、反応はpH約6、約6.5、約7、約7.5、約8、約8,5、約9、約9,5または約10で行う。 いくつかの態様では、反応は、例えばタンパク質の溶解度を高めるために変性剤の存在下で行う。いくつかの態様では、反応は尿素の存在下で行う。いくつかの態様では、反応は、約6.5M、約6M、約5M、約4.5M、約4M、約3.5M、約3M、約2.5M、約2M、約1.5M、約1M、または約0.5M以下の尿素の存在下で行う。いくつかの態様では、反応は約0.5〜約6M、約0.5〜約4M、約1〜約4M、約2〜約4M、または約3〜約4Mの尿素の存在下で行う。いくつかの態様では、反応は、約0.5〜約2M、または約0.5〜1Mの尿素の存在下で行う。 本明細書に記載の方法は、スプリットインテインがロバストな活性を持ち得ることを実証する。よって、いくつかの態様では、インテインN末端ドメインとC末端ドメインが等モル濃度で混合される場合、反応速度定数は、少なくとも約0.5×10−1s−1、1×10−1s−1、1.5×10−1s−1、0.5×10−2s−1、約1×10−2s−1、約1.5×10−2s−1、約2.0×10−2s−1、約2.5×10−2s−1、または約3×10−2s−1である。さらに、インテインN末端ドメインとC末端ドメインが等モル濃度で混合される場合、反応速度半減期は、約150、約100、約50、約40、約45、約30、約25、約20、または約15秒未満であり得る。いくつかの態様では、インテインN末端ドメインとC末端ドメインが等モル濃度で混合される場合、トランススプライシング反応速度定数は、少なくとも約0.5×10−1s−1、1×10−1s−1、1.5×10−1s−1、0.5×10−2s−1、約1×10−2s−1、約1.5×10−2s−1、約2.0×10−2s−1、約2.5×10−2s−1、または約3×10−2s−1である。さらに、インテインN末端ドメインとC末端ドメインが等モル濃度で混合される場合、反応速度半減期は、約150、約100、約50、約40、約45、約30、約25、約20、または約15秒未満であり得る。いくつかの態様では、インテインN末端ドメインとC末端ドメインが等モル濃度で混合される場合、C切断反応速度定数は、少なくとも約1×10−4s−1、3×10−4s−1、6×10−4s−1、9×10−4s−1、1×10−5s−1、約3×10−5s−1、約6×10−5s−1、または約9×10−5s−1である。さらに、インテインN末端ドメインとC末端ドメインが等モル濃度で混合される場合、反応速度半減期は、約150、約100、約50、約40、約45、約30、約25、約20、または約15分未満であり得る。(el C cleavage es mas lento) いくつかの態様では、インテインN末端ドメインとC末端ドメインが当モル濃度で混合される場合、反応は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%の収率をもたらす。いくつかの態様では、反応は、5分以内に少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%の収率をもたらす。いくつかの態様では、インテインN末端ドメインとC末端ドメインが当モル濃度で混合される場合、反応は、5分以内に約75〜約80%、80%〜約85%、85%〜約90%、または約90〜95%の収率をもたらす。 いくつかの態様では、インテイン反応(例えば、切断、連結(スプライシング)、環化)は、インテインN末端ドメインおよび任意選択の異種ポリペプチドを含んでなる融合タンパク質を、インテインC末端ドメインおよび任意選択の異種ポリペプチドを含んでなる融合タンパク質と接触させることにより開始させることができる。他の態様では、インテイン反応は、スプリットインテイン融合タンパク質または複数のスプリットインテイン融合タンパク質の組合せがインキュベートされる条件、例えば、温度またはpHを変更することによって開始させることができる。いくつかの態様では、C末端切断はpHまたは温度変更によって開始される。 いくつかの態様では、インテイン反応は、融合タンパク質をDTTまたは他の強力な求核試薬と接触させることにより開始される。いくつかの態様では、DTTは反応を増進するために使用される。いくつかの態様では、N末端切断は、強力な求核試薬、例えばDTTによって開始される。 タンパク質スプライシングまたは切断を誘導する別法は、スプライシングまたは切断を活性化するペプチドまたはペプチド模倣薬との接触によるものである。タンパク質スプライシングまたは切断を誘導する別法は、スプライシングまたは切断を遮断または阻害するペプチドまたはペプチド模倣薬の除去によるものである。 いくつかの態様では、融合タンパク質は、例えば、引用することにより本明細書の一部とされるLu et al., Journal of Chromatography A 1218: 2553-2560 (2011)およびElleuche and Poggeler, Appl. Microbiol. Biotechnol 87:479-489 (2010)で提供されているものなど、タンパク質の分離および精製の目的で樹脂に結合させることができる。さらに、融合タンパク質は、液相にあってもよいし、親和性ビーズまたはカラムに結合させてもよいし、細胞膜またはファージ表面に係留してもよい。親和性結合剤には、例えば、Hisタグ、キチン結合ドメイン、マルトース結合タンパク質、またはグルタチオン−S−トランスフェラーゼを含むことができる。融合タンパク質は細胞の内部にあっても外部にあってもよい。 いくつかの態様では、インテイン反応は、例えば、引用することにより本明細書の一部とされるElleuche and Poggeler, Appl. Microbiol. Biotechnol 87:479-489 (2010), and Evans T. et al., Biopolymers 51:333-342 (1999)に記載されているように、タンパク質精製(例えば、クロマトグラフィータグもしくは非クロマトグラフィータグおよび/または大規模プロセスを使用)、タンパク質環化、タンパク質重合、およびセレノプロテイン生産に使用することができる。本明細書に提供されるインテインの高い効率は、インテインを大規模工業適用に特に従いやすいものとする。 いくつかの態様では、インテイン反応は、標的ポリペプチドを生産するために使用することができる。標的ポリペプチドは、それまでには連結されていなかった2つの配列を含む融合ポリペプチドであり得る。標的ポリペプチドはまた、それまで連結されていた配列から切断されるポリペプチドでもあり得る。 所望により、ポリペプチド配列を配列および再配列させるためまたは複数のまたは異なるポリペプチドを連結させるために、複数のスプライシング反応を連続的に任意の順序で行うことができる。VI.インテイン融合タンパク質生成用ベクター 本発明はまた、インテインドメインをコードするポリヌクレオチドと、インテインドメインと異種ポリペプチドを含んでなる融合タンパク質の発現をもたらす位置に異種ポリペプチドをコードするポリヌクレオチドの挿入を可能とする1以上のクローニング部位とを含んでなるインテイン融合タンパク質の生成に好適なベクターも提供する。 従って、別の側面において、本発明は、配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの下流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも1つのクローニング部位とを含んでなり、これにより、インテインドメインと対象ポリヌクレオチドによりコードされるポリペプチドとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターに関する。 一態様では、配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%の同一性を示すインテインドメインをコードするポリヌクレオチドは、最後のアミノ酸がグルタミンまたはアスパラギンであるインテインドメインをコードする。別の態様では、配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%の同一性を示すインテインドメインをコードするポリヌクレオチドは、インテインドメインの最後のアミノ酸がアスパラギンまたはグルタミン以外のアミノ酸であるインテインドメインをコードする。別の態様では、ベクターは、インテインドメインとおよび異種ペプチドによりコードされるポリペプチドとの間にリンカーペプチドを形成するポリペプチドをコードするポリヌクレオチドをさらに含んでなる。好ましい態様では、配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%の同一性を示すインテインドメインをコードするポリヌクレオチドが、インテインドメインの最後のアミノ酸がアスパラギンまたはグルタミン以外のアミノ酸であるインテインドメインをコードする場合、ポリヌクレオチドは、前記リンカーの最初のアミノ酸がセリン、トレオニンまたはセリン以外のアミノ酸であるリンカー領域をコードする。 別の側面において、本発明は、配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの上流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも1つのクローニング部位とを含んでなり、これにより、対象ポリヌクレオチドによりコードされるポリペプチドとインテインドメインとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターに関する。 一態様では、配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%の同一性を示すインテインドメインをコードするポリヌクレオチドは、最初のアミノ酸がセリンまたはシステインであるインテインドメインをコードする。別の態様では、配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%の同一性を示すインテインドメインをコードするポリヌクレオチドは、インテインドメインの最初のアミノ酸がセリンまたはシステイン以外のアミノ酸であるインテインドメインをコードする。 別の態様では、本発明は、対象タンパク質をコードし、環化可能な前記ポリペプチドを産生するポリヌクレオチドをクローニングするのに有用なベクターに関する。よって、本発明は、配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一である第1のインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの下流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも1つのクローニング部位と、前記クローニング部位の下流に、配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一である第2のインテインドメインをコードするポリヌクレオチドとを含んでなり、これにより、対象ポリヌクレオチドによりコードされるポリペプチドと第1および第2のインテインドメインとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターに関する。 好ましい態様では、第1のインテインドメインの最後のアミノ酸は、グルタミンまたはアスパラギンである。別の態様では、第1のインテインドメインの最後から2番目のアミノ酸は、ヒスチジンである。さらに別の態様では、第2のインテインドメインの最初のアミノ酸は、セリンまたはシステインである。 一態様では、本発明は、N末端およびC末端ドメインと、両インテインドメインの間のトランススプライシング反応により連結されるポリペプチドの2つの領域とを含んでなる融合タンパク質を作製するのに有用なベクターに関する。よって、別の側面において、本発明は、 (i)配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一である第1のインテインドメインをコードするポリヌクレオチドと、 (ii)前記ポリヌクレオチドの下流に、第1のインテインドメインをコードする第1のクローニング部位と、 (iii)配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一である第2のインテインドメインをコードするポリヌクレオチドと、 (iv)前記ポリヌクレオチドの上流に、第2のインテインドメインをコードする第2のクローニング部位とを含んでなり、 第1のクローニング部位が第1の対象ポリヌクレオチドのクローニングを可能とし、第2のクローニング部位が第2の対象ポリヌクレオチドのクローニングを可能とし、これにより、前記の順に、第2の対象ポリヌクレオチドによりコードされるポリペプチドと、第2のインテインドメインと、第1のインテインドメインと、第2の対象ポリヌクレオチドによりコードされるポリペプチドとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成されるベクターであって、 a.前記第1のインテインドメインが配列番号7と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号3と少なくとも75%同一であり; b.前記第1のインテインドメインが配列番号16と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号12と少なくとも75%同一であり; c.前記第1のインテインドメインが配列番号24と少なくとも75%同一でれば、前記第2のインテインドメインは配列番号20と少なくとも75%同一であり; d.前記第1のインテインドメインが配列番号38と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号34と少なくとも75%同一であり;または e.前記第1のインテインドメインが配列番号65と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号64と少なくとも75%同一である、ベクターに関する。 別の態様では、ベクターは、第2のインテインドメインと第2の対象ポリヌクレオチドによりコードされるポリペプチドとを連結する第1のペプチドリンカーをコードするポリヌクレオチドをさらに含んでなり、かつ/または第1のインテインドメインと第1の対象ポリヌクレオチドによりコードされるポリペプチドとを連結する第2のペプチドリンカーをコードするポリヌクレオチドをさらに含んでなる。 別の態様では、第2のインテインドメインの最初のアミノ酸は、システインまたはセリンであり、第1のインテインドメインの最後のアミノ酸は、グルタミンまたはアスパラギンであり、第1のインテインドメインの最後から2番目のアミノ酸は、ヒスチジンであり、かつ/または第2の対象ポリペプチドまたは第1のペプチドリンカーの最初のアミノ酸は、システイン、セリンまたはトレオニンである。 本発明で用いる場合、用語「ベクター」とは、それによりポリヌクレオチドまたはDNA分子が取り扱われ得る、または細胞に導入され得るビヒクルを意味する。ベクターは直鎖もしくは環状ポリヌクレオチドであってよく、あるいはベクターはより大型のポリヌクレオチド、または他の任意のタイプの構築物、例えば、ウイルスゲノム由来のDNAもしくはRNA、ビリオンまたはDNAの操作もしくはその細胞への導入を可能とする他の任意の生物構築物であってもよい。「組換えベクター」および「組換え系」という表現は用語「ベクター」と互換的に使用してよいと理解される。当業者ならば、これらのベクターは融合タンパク質の精製に好適な種々の異種生物において、増殖のため、また、適切なポリヌクレオチドまたは遺伝子構築物または発現ベクターを得るために好適なクローニングベクターであり得るので、使用可能なベクターのタイプに関して制限はないことに気づくであろう。よって、本発明による好適なベクターとしては、pUC18、pUC19、Bluescriptおよびその誘導体、mp18、mp19、pBR322、pMB9、CoIEl、pCRl、RP4などの原核生物の発現ベクター;ファージ;pSA3およびpAT28などの「シャトル」ベクター;2ミクロンプラスミド型、組込プラスミド、YEPベクター、セントロメアプラスミドおよび類似物のベクターなどの酵母の発現ベクター;pAC系およびpVL系のベクターなどの昆虫細胞の発現ベクター;pIBI、pEarleyGate、pAVA、pCAMBIA、pGSA、pGWB、pMDC、pMY、pORE系および類似物由来のベクターなどの植物の発現ベクター;ウイルスベクター(アデノウイルス、アデノウイルス随伴ウイルス、ならびにレトロウイルスおよびレンチウイルス)に基づく高等真核細胞の発現ベクター;ならびにpSilencer 4.1−CMV(Ambion)、pcDNA3、pcDNA3.1/hyg、pHCMV/Zeo、pCR3.1、pEFl/His、pIND/GS、pRc/HCMV2、pSV40/Zeo2、pTRACER−HCMV、pUB6/V5−His、pVAXl、pZeoSV2、pCI、pSVLおよびpKSV−10、pBPV−1、pML2dおよびpTDTlなどの非ウイルスベクターが含まれる。 態様の好ましい形態では、ベクターは、インテインドメインをコードするポリヌクレオチドの3’位に、異種ポリペプチドをコードするポリヌクレオチドのクローニングを可能とする1または複数の部位をさらに含んでなる。好ましくは、これらのクローニング部位は、クローニングベクターでよく見られるように、多重クローニング部位を形成するようにグループ分けされる。従って、用語「多重クローニング部位」とは、本発明で使用する場合、互いに近接している一連の2以上の制限エンドヌクレアーゼ標的配列を含んでなる核酸配列を意味する。多重クローニング部位には、平滑末端、付着5’末端または付着3’末端を有する断片の挿入を可能とする制限エンドヌクレアーゼ標的が含まれる。対象とするポリヌクレオチドの挿入は、Sambrook et al. (Sambrook et al. Molecular Cloning: A Laboratory Manual, Cold Spring Harbour Laboratory Press, 1989)および/またはAusubel et al. (Current Protocols in Molecular Biology, Greene Pub. Associates and Wiley- Interscience (1988,これまでの総ての更新を含む)により記載されている標準的な分子生物学的方法を用いて実施される。 本明細書の記載から当業者には自明であるように、本開示は、発現構築物、すなわち、核酸が好適なプロモーターに作動可能に連結されている構築物を作出するのに有用である。 本開示により無細胞発現系が企図される。例えば、核酸を好適なプロモーター、例えば、T7プロモーターに作動可能に連結し、得られた発現構築物を転写および翻訳に十分な条件に曝す。in vitro発現または無細胞発現に典型的な発現ベクターはすでに記載されており、限定されるものではないが、TNT T7およびTNT T3系(Promega)、pEXPl−DESTおよびpEXP2−DESTベクター(Invitrogen)が含まれる。 細胞で発現させるための多くのベクターが利用可能である。ベクター成分には、一般に、限定されるものではないが、以下のものの1以上が含まれる:シグナル配列、ポリペプチドをコードする配列、エンハンサーエレメント、プロモーター、および転写終結配列。当業者ならば、タンパク質の発現に好適な配列が分かるであろう。例えば、例示的シグナル配列としては、原核生物分泌シグナル(例えば、pelB、アルカリ性ホスファターゼ、ペニシリナーゼ、Ipp、または熱安定性内毒素II)、酵母分泌シグナル(例えば、インベルターゼリーダー、α因子リーダー、または酸性ホスファターゼリーダー)または哺乳動物分泌シグナル(例えば、単純ヘルペスgDシグナル)が含まれる。 例示的プロモーターとしては、原核生物で活性なもの(例えば、phoAプロモーター、β−ラクタマーゼおよびラクトースプロモーター系、アルカリ性ホスファターゼ、トリプトファン(trp)プロモーター系、およびtacプロモーターなどのハイブリッドプロモーター)が含まれる。これらのプロモーターは、真正細菌、例えば、グラム陰性またはグラム陽性生物、例えば、腸内細菌科(Enterobacteriaceae)、例えば、エシェリキア属(Escherichia)(例えば、大腸菌(E. coli))、エンテロバクター属(Enterobacter)、エルウィニア属(Erwinia)、クレブシェラ属(Klebsiella)、プロテウス(Proteus)、サルモネラ菌属(Salmonella)(例えば、ネズミチフス菌(Salmonella typhimurium))、セラチア属(Serratia)(例えば、霊菌(Serratia marcescans))、および赤痢菌属(Shigella)、ならびにバチルス属(Bacilli)(例えば、枯草菌(B. subtilis)およびリケニホルミス菌(B. licheniformis)、シュードモナス属(Pseudomonas)(例えば、緑膿菌(P. aeruginosa)、および放線菌属(Streptomyces)を含む原核生物での発現に有用である。一例では、宿主は大腸菌である。1つの好ましい大腸菌クローニング宿主は大腸菌294(ATCC31,446)であるが、大腸菌B、大腸菌X1776(ATCC31,537)、および大腸菌W3110(ATCC27,325)、DH5aまたはDH10Bなどの他の株も好適である。 哺乳動物細胞で活性のある例示的プロモーターとしては、サイトメガロウイルス前初期プロモーター(CMV−IE)、ヒト延長因子1−ocプロモーター(EF1)、低分子核内プロモーター(small nuclear RNA promoter)(UlaおよびUlb)、αミオシン重鎖(a-myosm heavy chain)プロモーター、シミアンウイルス40プロモーター(SV40)、ラウス肉腫ウイルスプロモーター(RSV)、アデノウイルス主要後期プロモーター、βアクチンプロモーター;CMVエンハンサー/βアクチンプロモーターを含んでなるハイブリッドレギュレーター}’エレメントまたは免疫グロブリンプロモーターもしくは活性なそのフラグメントが含まれる。有用な哺乳動物宿主細胞株の例としては、SV40で形質転換されたサル腎臓CV1系統(COS−7、ATCC CRL 1651);ヒト胎児腎臓系統(293細胞または懸濁培養で増殖に関してサブクローニングされた293細胞);ベビーハムスター腎臓細胞(BHK、ATCC CCL 10);またはチャイニーズハムスター卵巣細胞(CHO)がある。 例えば、ピキア・パストリス(Pichia pastoris)、サッカロミセス・セレビシエ(Saccharomyces cerevisiae)およびS.ポンベ(S. pombe)からなる群から選択される酵母細胞などの酵母細胞での発現に好適な典型的プロモーターとしては、限定されるものではないが、ADH1プロモーター、GAL1プロモーター、GAL4プロモーター、CUPIプロモーター、PH05プロモーター、nmtプロモーター、RPR1プロモーター、またはTEF1プロモーターが含まれる。 昆虫細胞での発現に好適な典型的プロモーターとしては、限定されるものではないが、OPEI2プロモーター、カイコ(Bombyx muri)から単離された昆虫アクチンプロモーター、ショウジョウバエ種(Drosophila sp.)dshプロモーターおよび誘導メタロチオネインプロモーターが含まれる。組換えタンパク質の発現のための例示的昆虫細胞としては、BT1−TN−5B1−4 細胞、およびヨトウガ(Spodoptera frugiperda)細胞(例えば、sfl9細胞、sf21細胞)からなる群から選択される昆虫細胞が含まれる。核酸断片の発現に好適な昆虫としては、限定されるものではないが、ショウジョウバエ種が含まれる。ヨトウガの使用も企図される。 本発明によるベクターは、マーカータンパク質をコードするポリヌクレオチドをさらに含んでなってよい。本開示に好適なマーカータンパク質としては、抗生物質耐性または他の毒性化合物に対する耐性を付与するものが含まれる。抗生物質に対する耐性を付与するマーカータンパク質の例としては、ネオマイシンおよびカナマイシンをリン酸化するネオマイシンホスホトランスフェラーゼ、またはハイグロマイシンをリン酸化するhpt、または例えば、ブレオマイシン、ストレプトマイシン、テトラサイクリン、クロラムフェニコール、アンピシリン、ゲンタマイシン、ジェネティシン(G418)、スペクチノマイシンまたはブラストサイジンに対する耐性を付与するタンパク質が含まれる。一例では、前記タンパク質はクロラムフェニコール耐性を付与する。例えば、前記タンパク質は、Nilsen et al, J. Bacteriol, 178: 3188-3193, 1996に記載されているような、CmRと呼ばれる大腸菌由来遺伝子である。 あるいは、マーカータンパク質は、細胞の栄養要求性を補足する。例えば、HPRT発現を欠く真核細胞を、HPRTをコードする核酸を含んでなる発現構築物で形質転換させる。このリポーター遺伝子が発現するとHAT培地で増殖可能な細胞となるが、リポーター遺伝子を発現しない細胞は、これらの条件で増殖できない。 あるいは、酵母細胞の場合、マーカータンパク質は、例えば、LEU2またはLYS2またはTRPである。このようなリポーター遺伝子は、関連の遺伝子に対して栄養要求性である酵母細胞を補足することができる。 別の例では、直接検出が可能なマーカータンパク質は、例えば、蛍光タンパク質である。数種の蛍光リポーター遺伝子が当技術分野で公知であり、例えば、緑色蛍光タンパク質(GFP)、増強緑色蛍光タンパク質(eGFP)、赤色シフト緑色蛍光タンパク質(RFP)、青色蛍光タンパク質(CFP)、黄色蛍光タンパク質(YFP)、モノマーイソキンチャクモドキ(discosoma)赤色蛍光タンパク質(dsRED)、またはdsRED2;オワンクラゲ(Aequorea coerulescens)由来のモノマー橙色蛍光タンパク質またはモノマーGFPをコードするものが含まれる。これらのタンパク質は、標準的な技術、例えば、蛍光活性化細胞選別(FACS)を用い、マーカータンパク質を発現する細胞の選択を可能とする。 さらなる例では、マーカー遺伝子は、検出可能な反応を触媒する酵素である。例示的酵素リポーター遺伝子としては、例えば、β−ガラクトシダーゼ、アルカリ性ホスファターゼ、ホタル・ルシフェラーゼまたはウミシイタケ(Renilla)・ルシフェラーゼが含まれる。例えば、β−ガラクトシダーゼの発現は、β−ガラクトシダーゼにより加水分解されて青色の沈殿を生成する基質5−ブロモ−4−クロロ−3−インドリル−β−D−ガラクトピラノシド(x−gal)を添加することによって検出される。あるいは、ホタル・ルシフェラーゼまたはウミシイタケ・ルシフェラーゼのいずれかの発現は、関連タンパク質の存在下で発光し、例えば分光光度計を用いて検出可能な基質を添加することによって検出される。 対象ポリペプチドをコードするポリヌクレオチドの、本発明のベクターへのクローニングは、当業者に周知の標準的な技術を用いて行うことができる。例えば、対象ポリペプチドをコードするポリヌクレオチドは、ポリメラーゼ連鎖反応(PCR)を用いて生産される。PCRを実施するための方法は当技術分野で公知である。抗体の場合、PCRは、例えば、被験体由来のまたはライブラリー由来のまたはライブラリーのスクリーニング後の可変領域(場合により1以上の定常領域と連結されている)を増幅するために使用することができる。このように抗体領域をコードする核酸を増幅するためのプライマーは当技術分野で公知である(例えば、米国特許第6,096,551号およびWOOO/70023に記載の通り)。さらなる例では、核酸は、当技術分野で標準的な方法に従い、制限エンドヌクレアーゼ消化を用いて生産/単離することができる。 核酸を連結する方法は当業者には自明であり、例えば、Sambrook et al. Molecular Cloning: A Laboratory Manual, Cold Spring Harbour Laboratory Press, 1989および/またはAusubel et al. (editors), Current Protocols in Molecular Biology, Greene Pub. Associates and Wiley-Interscience (1988, これまでの総ての更新を含む)に記載されている。一例では、前記方法は核酸を連結するためにリガーゼ(hgase)、例えば、T4 DNA リガーゼを用いる。 本開示の1つの例示的形態では、核酸を連結するためにリガーゼ非依存的クローニングを用いる。 リガーゼ非依存的クローニングの1つの形態では、連結させる2つの核酸に相補的な一本鎖領域が含まれる。次に、これらの核酸を互いにハイブリダイズさせ、生じた核酸を細胞に形質転換し、そこで、内因性の酵素が残存しているギャップを修復し、単一の連続する核酸を形成する。 リガーゼ非依存的クローニングの別の形態では、単一の核酸分子の形成を促進するために1以上の酵素が用いられる。例えば、米国特許第7575860号には、3’−5’エンドヌクレアーゼ活性を有するポリメラーゼ(例えば、ワクシニアウイルス由来)を用いて2つの核酸を連結する技術が記載されている。例えば、連結させる核酸は、実質的に同一または同一の領域を含んでなる。これらの領域は、5〜50の間のヌクレオチド長、例えば、約12〜15ヌクレオチド長、例えば、約15ヌクレオチド長であり得る。次に、連結させる核酸を、3’−5’エキソヌクレアーゼ活性を有するポリメラーゼと接触させる。例示的ポリメラーゼとしては、ワクシニアDNAポリメラーゼ、T4 DNAポリメラーゼおよび大腸菌DNAポリメラーゼIのクレノウ断片が含まれる。一例では、核酸をさらに、ワクシニアおよび大腸菌一本鎖結合タンパク質、単純ヘルペスウイルスICP8タンパク質、および酵母およびヒト複製プロテインA(例えば、yRPAおよびhRPA)などの一本鎖DNA結合タンパク質と接触させる。このタイプのリガーゼ非依存的クローニングを実施するためのキットが商標In−Fusion(R)としてClontechから市販されている。 その他のリガーゼ非依存的クローニング法も当技術分野で公知であり、例えば、連結非依存的クローニング(LIC;例えば、Aslanidis et al, Nucl. Acids Res., 18: 6069に記載の通り)、T7エキソヌクレアーゼ媒介クローニング(米国特許第5580759号)、ヘテロスタッガーPCRに基づくクローニング(Liu et al, Nucleic Acids Res 24: 2458-2459, 1996)、ウラシル切断に基づくクローニング(Nisson et al, PCR Meth. Appl 7: 120-123, 1991)ホスホロチオエートに基づくリガーゼ非依存的クローニング(例えば、Blanusa et al, Anal. Biochem, 406: 141-146, 2010に記載の通り)が含まれる。 次に、得られた核酸を、例えば後述するような当技術分野で標準的な方法を用いて細胞に導入することができる。 一例では、核酸を連結するために組換えを用いる。例えば、連結させる2つの核酸の両方が、同一または実質的に同一の領域(例えば、100ヌクレオチドまたは50ヌクレオチドまたは20ヌクレオチドまたは10ヌクレオチド長)を含んでなる。次に、これらの核酸を相同組換え能がある細胞に導入し、相同組換えが起こった細胞を、例えば、マーカータンパク質の発現を選択することにより選択する。 以下、本発明を下記の実施例を例として説明するが、これらの実施例は単に例示を意図するものであって、本発明の範囲を限定しない。実施例1:Npu DnaEと比較した場合のGp41.1、Gp41.8、NrdJ1、IMPDH1スプリットインテインのトランススプライシング活性 Gp41.1(G1)、Gp41.8(G8)、NrdJ1(N1)、およびIMPDH1(I1)スプリットインテイン配列を含む構築物を用いてin vitroトランススプライシング反応を行った。ロバストで高収率のインテインとして同定されているスプリットインテインNpu DnaE(DE)(Zettler J. et al, FEBS Letters 583:909-914 (2009))を対照として選択した。これらのインテインの番号、略号、配列および分子量を下表3に示す。図1Aに示されるように、各スプリットインテイン構築物のN末端断片は、(i)StreptagII(ST)精製タグ、(ii)タンパク質の溶解度を高めることができるファージタンパク質バクテリオファージλ頭部タンパク質D(gpD)、(iii)N−エクステインに属す5個の天然フランキングアミノ酸(EN)、(iv)N末端スプリットインテイン断片(IN)、および(v)ヘキサヒスチジン精製タグ(H6)からなった。各スプリットインテイン構築物のC末端断片も図1Aに示し、(i)C末端スプリットインテイン断片(IC)、(ii)C−エクステインに属す5個の天然フランキングアミノ酸(EC)、(iii)タンパク質の溶解度を高め、タンパク質フォールディングを助けることができるチオレドキシン、および(iv)ヘキサヒスチジン精製タグ(H6)からなった。 これらの融合タンパク質を総て、大腸菌で独立に発現させ、可溶性形態を精製した。等モル濃度(5〜15μM)のN末端およびC末端スプリットインテイン対を混合した(G1N+G1C+、G8N+G8C、N1N+N1C、およびIN+IC)。25℃でのインキュベーション後、トランススプライシング反応を種々の時点で、SDSサンプルバッファーを添加した後すぐに5分間煮沸することにより停止させた。トランススプライシング反応を図1Aにまとめる。 4つのスプリットインテイン(Gp41.1(G1)、Gp41.8(G8)、NrdJ1(N1)、およびIMPDH1(I1))の総てを用いて実験を行った。Gp41.1(G1)を用いて得られた結果の例を図1Bに示す。最初のN末端断片およびC末端断片(図1B、レーン1:それぞれF1およびF2)は極めて速く反応してスプライシング産物とN−およびC−スプリットインテイン副産物を生成した(図1B、レーン2〜9:それぞれF3、F4、およびF5)。トランススプライシング反応の速度を、トランススプライシング反応の速度に直接比例する速度定数「k」として計算した。反応半減期「t1/2」(スプライシング反応において前駆体(F1またはF2)の半分が消費されるのに要される時間を表す)も計算した。 驚くことに、分析した総てのスプリットインテイン(G1、G8、N1およびI1)がこれまでに同定されているNpu DnaE(Zettler J. et al, FEBS Letters 583:909-914 (2009))よりも速かった。25℃にて同じ反応条件で、G1、G8、N1およびI1は、これまでに報告されている最高の速度定数を有する別格のスプリットインテインとして同定されているNpu DnaEのそれぞれ31倍、6倍、9倍および7倍の速さであった(表4)。スプライシング収率は、5分時点でG1、G8、N1およびI1は約90%のスプライシング産物を形成することを示した。 G1、G8、N1およびI1のスプライシング産物は質量分析LC−MS/MS(配列包括度>90%)により同定した。測定された分子量は、それらの総てで理論値27.3kDaと一致していた。 これらの顕著な特性を考えれば、この天然スプリットインテイン群は、タンパク質工学、細胞化学、環化、精製およびその他を含む多くの適用に使用可能な、新世代の超迅速スプライシングインテインとなると思われる。実施例2:Gp41.1のトランススプライシング活性に対する温度の影響 これらのスプリットインテインの多才性およびロバスト性を種々の温度で試験するため、Gp41.1をより詳細に分析した。インテイン活性は温度によって影響を受けることが示されている。これまでには4℃といった低温で天然Ssp DnaEおよび半合成Mtu RecAスプリットインテインにより媒介されるタンパク質スプライシング活性の証拠が報告されている(Martin, D. et al. 2001. Biochemistry, 40:1393-1402 and Lew, B. et al. 1999. Biopolymers (Peptide Science), 51:355-362)が、4℃未満での活性は本発明者らの知る限り従前の記載はない。従って、GP41.1の活性を様々な温度で試験した。Gp41.1の精製N末端断片およびC末端断片をスプライシングバッファー中、5μMの等モル濃度で混合し、0、12、25および37℃でインキュベートした。スプライシング産物の形成および速度定数を決定し、結果を表5に示す。 驚くことに、Gp41.1インテインは0℃でなお活性を示した。このインテインはk=5.5×10−3s−1であり、このような極端な条件下で1時間の反応の後に80〜90%の間のスプライシング産物が生じた。同じ反応を12℃で行った場合、トランススプライシング速度はk=1.3×10−2s−1(12℃でk=2.2±0.5×10−3s−1のNpu DnaEよりも速い)に上昇し、1時間の反応の後に、85〜90%の間のスプライシング産物が生じた。25℃で、Gp41.1スプリットインテインは、k=5.2×10−2s−1(これもまた25℃でk=3.5±0.2×10−3s−1のNpu DnaEより速い)を示し、30分時点で90〜95%のスプライシング産物を形成した。 またこれまでに、Ssp DnaEおよびMtu RecAを含む多くのスプリットインテインは比較的高い温度(すなわち37℃)で収率の低下、および加水分解副産物形成の増加を呈することも示されている。しかしながら、Npu DnaEなどの他のインテインは、37℃で活性がより高い。Gp41.1スプリットインテインは37℃で最高の活性率を示した:k=1.1×10−1s−1(この場合にも、37℃でk=1.1±0.2×10−2s−1のNpu DnaEよりも速い)。特に、5分以内に90〜95%のスプライシング産物が生じていた。これらの結果は、G1が広範囲(0〜37℃)の温度耐用性を持つことを示す。 興味深いことに、分析した総ての温度で、G1トランススプライシング活性は、高性能のNpu DnaEスプリットインテインよりも速かった。12℃および25℃で、G1はNpu DnaEの6倍および15倍の速さであり、Npu DnaEがその最高活性を示す37℃でも、G1は10倍速い活性を有していた。実施例3:トランススプライシング活性に対するpHおよびカオトロピック塩の影響 Ssp DnaE、およびMtu RecAインテインを含む多くのスプリットインテインが高pHまたは変性剤の存在下で収率の低下、および加水分解副産物形成の増加を呈することが示されている(Zettler et al., 2009. FEBS letters 583: 909-914)。しかしながら、G1スプライシングの効率は6〜9の間のpHにほぼ依存しなかった(表6)。4および10といった極端なpH値でのみ活性の低下が見られた。これに対して、Mtu RecAは、pH6〜7.5の間というはるかに狭い最適スプライシング範囲を有している(Lew B. et al. Biopolymers. 51:355-362 (1999))。Ssp DnaEインテインは、pH7.0で最大のトランススプライシング活性を示すが、それより高いpHでは低下する(Martin D. et al. 2001. Biochemistry. 40:1393-1402)。 いくつかの場合では、インテイン融合タンパク質の発現は、それらの溶解度を高めるために何らかの変性剤の存在を必要とし得る。従って、Gp41.1スプリットインテインについてもスプライシング反応における4M尿素の存在に対する耐用性を調べた。表4に示す結果は、適度な濃度の尿素(4M)の存在下で有意なスプライシング活性を示し、最適化条件に関して1時間の反応の後に50%近いトランススプライシング活性を示した。 これらの特徴は、G1スプリットインテインの予期しない多才性およびロバスト性を示す。実施例4:トランススプライシング活性に対するエクステインの影響 N−インテインドメインに隣接するN−エクステイン(EN)アミノ酸はトランススプライシング反応に直接関与しないが、反応効率に影響を及ぼし得る。この可能性を調べるために、G1由来のENの5個のアミノ酸(TRSGY)を欠失させ、作出された新たなN末端断片(G1N(Δext))を、実施例1に記載したものと同じ条件で、対応するC末端断片(G1C)とともにインキュベートした。興味深いことに、ENの不在下でトランススプライシング活性が見られ(速度値1.8E−3s−1および収率45%)、このことはG1スプリットインテイン由来のENが必須ではないことを示す。 対照的に、C−エクステインの最初のアミノ酸はインテインおよびスプリットインテインにより媒介されるトランススプライシング反応に直接関与することが記載されている。G1 N−エクステインの最初の位置にあるセリンの役割を調べるために、2つの新たなG1C末端断片を作出した。それらはECドメインが、(i)部分的に除去されたC末端断片(INに隣接するセリンのみが維持;G1C(S))、または(ii)完全に除去された(G1C(Δext))C末端断片を含んでなった。 G1C(S)を、ENを含むまたは欠く(それぞれG1NまたはG1N(Δext))対応するN末端断片とともにインキュベートすると、効率的なトランススプライシング反応が起こった。これに対して、G1NまたはG1N(Δext)をG1C(Δext)の存在下でインキュベートすると、トランススプライシング反応は見られなかった。この特殊な状況で、驚くことに、C−切断活性およびN−切断活性が見られる。これらの結果から、INに近接する、好ましくはINに隣接する、セリン残基は、効率的なトランススプライシング反応を保証するのに必要であると結論づけることができる。実施例5:C末端自己切断に対するGp41.1、Gp41.8、NrdJ1およびIMPDH1スプリットインテインのINにおける点突然変異C1Aの影響 いくつかのインテインはN末端またはC末端において非依存的自己切断活性を示し、独特なアミノ酸残基を必要とする。INにおけるCys1からAlaへの突然変異(C1A)はN末端における切断を不能とするが、C末端における切断は不能とせず(これまでにC末端自己切断と呼ばれていたもの)、一方、ICのC末端におけるAsn154からAlaへの突然変異はC末端における切断を不能とするが、N末端における切断は不能としない(Mathys, S. et al. Gene 231:1-13 (1999) and Lu et al. J. Chromatography A. 1218:2553-2560 (2011))。この興味深い特性のために、いくつかの突然変異インテインは、融合タンパク質からの対象タンパク質の制御された遊離を可能とする自己切断可能なペプチドとして使用することができる。よって、このような突然変異インテインは、高価な市販のプロテアーゼの代わりに使用できる。 これまでに分析された総ての天然スプリットインテインにおいて、C1A突然変異はタンパク質スプライシングを無効にする。天然スプリットインテインNpu DnaEおよびSsp DnaEにおけるC1A突然変異は最初のNからS−アシルへのシフトを遮断し、タンパク質スプライシングを遮断するが、C末端切断反応(Zettler J., et al. 2009. FEBS Letters 583:909-914) およびSsp DnaE(Martin, D. et al. 2001. Biochemistry. 40:1393-1402)をほぼ完全に阻害する。さらに、C末端自己切断活性はS1Aの突然変異を有する天然全長Pab PoIIIインテインでは最大90%阻害されることが報告されている(Xu, M. & Perler, F. EMBO J. 15:5146-5153 (1996))。 C末端自己切断活性を調べるために、Cys1からAlaへの突然変異(C1A)を総てのINスプリットインテインに導入した(G1N(C1A)、G8N(C1A)、N1N(C1A)、およびI1N(C1A))。この点突然変異を有する構築物の番号および概略図をそれぞれ表3および図2Aに示す。大腸菌ホモジネートから精製したF1(IN(C1A))およびF2(IC)断片を5〜15μMの等モル濃度で混合し、25℃経時的試験を行った。驚くことに、天然スプリットインテインNpu DnaEおよびSsp DnaEとは対照的に、試験した4つのスプリットインテインの総てがC末端自己切断を示した。総ての場合で、予想されたF3(Trx−H6)と切断されたF4(IntC)断片の大きさに相当する2つの新たなタンパク質バンドが見られた(図2A)。25℃でのC末端切断反応の収率(%CP)および速度定数の値を下表に示す。 N末端エクステイン(EN)とは対照的に、C末端エクステイン(EC)はC末端自己切断反応に間接的に関与する。ECは、効率的なC末端自己切断反応を保証するためにICに適切な環境を提供すると考えられている(Zettler J. et al, FEBS Letters 583:909-914 (2009); Lu L. et al, J. Chromatography A. 1218:2553-2560 (2011); Nichols N. et al. Biochemistry. 42:5301-5311 (2003);およびAppleby et al., JBC 284:6194-6199 (2009))。エクステイン 配列は自己切断反応後も対象タンパク質と結合したままであるので、この要件はいくつかの適用については重要な制限となり得る。 C末端スプリットインテインに隣接するエクステイン配列(EC)の5個のアミノ酸を除去した。対応する構築物(G1C(Δext)、G8C(Δext)、N1C(Δext)、およびI1C(Δext)、表1参照)はICとTrx遺伝子との間に直接的連結を呈した。クローニングのために、KpnI切断部位を維持したが、この余分なアミノ酸GTの存在は、それらがエクステインフランキング配列と相同性を持たず、Trxタンパク質の一部とみなすことができるので、エクステインの役割の分析に影響を及ぼさない。 Gp41.1(G1)、Gp41.8(G8)、NrdJ1(N1)、およびIMPDH1(I1)に相当するF1(gpD−IN(C1A))断片およびF2(IC−Trx)断片を大腸菌ホモジネートから精製し、5〜15μMの等モル濃度で混合した。25℃で経時的試験を行った。驚くことに、4つの天然スプリットインテインの総てがC末端自己切断を示し、3時間のインキュベーション後にF3(Trx)およびF4(IC)と一致する移動度を有する2本のバンドが見られた(図2B)。G1およびN1の25℃でのC末端切断反応の収率(%CP)および速度定数を求めた。表4と5を比較すると、収率は極めて高く、ECの5個のアミノ酸の存在に依存しないことを示す。EC断片の不在は速度定数の低下をもたらすが、このスプリットインテイン反応の速度の低下は、反応温度を37℃または45℃に引き上げることによって克服することができる(表8)。この予期しない所見は、これらのインテインが、たとえこれらのタンパク質が好熱性微生物に由来するものでなくとも、高温度で極めて効率的に働き得ることを示唆する。 C末端切断反応で遊離したF3断片のエドマンプロテインシーケンシングは、F3断片の最初のアミノ酸がGTであったことを示した。このことはC末端切断反応が適切に行われたことを示す。 これらの結果は、Npu DnaE(Zettler J. et al, FEBS Letters 583:909-914 (2009))、Ssp DnaE(Nichols N. et al., Biochemistry 42:5301-5311 (2003))、およびSsp DnaB(Lu L. et al, J. Chromatography A. 1218:2553-2560 (2011))とは対照的に、Gp41.1(G1)、Gp41.8(G8)、NrdJ1(N1)、およびIMPDH1(I1)は5アミノ酸C−エクステインフランキング断片(EC)の不在下でC末端切断を示し得ることを示す。 上記の試験では、C−切断がECの不在下で起こり得ることが示された。しかしながらやはり、ICの後の最初のアミノ酸の性質がC−切断効率に対して持つ影響は分析されなかった。C−切断の適用については、切断された融合タンパク質から遊離したタンパク質がそのN末端に余分なアミノ酸を含まないことが好ましい。G1スプリットインテインが対象タンパク質の最初のアミノ酸に依存しない「クリーンな」切断をもたらすことができたかどうかを判定するために、新たな一連の構築物を作製した。これらの構築物では、Trxタンパク質の最初のアミノ酸をあらゆるアミノ酸天然変異体に変異させ、その後、G1のC末端ドメインに直接クローニングした。驚くことに、総ての変異体が著しいC−切断活性を示した。 各構築物について求めた収率、速度定数およびt(1/2)を表9にまとめる。実施例6:Gp41.1、Gp41.8、NrdJ1およびIMPDH1スプリットインテインによるN末端自己切断 数種のインテインおよびスプリットインテインについて、エクステインのすぐ上流のAsnの突然変異によりC末端切断を遮断しても、N−切断がなお起こり得ることが記載されている。エクステインのすぐ上流のAsnをAlaに置換することにより、この突然変異をGp41.1、Gp41.8、NrdJ1およびIMPDH1スプリットインテインのICドメインに導入した(それぞれG1C(N→A)、G8C(N→A)、N1C(N→A)およびI1C(N→A))。従前に記載されているように、これらの融合タンパク質を、大腸菌で生産し、精製し、その後、本質的に従前に記載されているように等量の対応物G1N、G8N、N1NおよびI1Nとともにインキュベートした。驚くことに、SDS−PAGEゲルに明らかに見られたのは2つの予想されたN末端自己切断産物のうちの一方(IN−H6)だけであったという所見により結論づけることができるように、N末端自己切断反応は極めて非効率的であった。ST−gpD−ENに相当するもう一方の予想産物も、極めて弱いバンドながら見られ、このことは、N末端自己切断反応が極めて非効率的であったことを示している。さらに、おそらくはST−gpD−ENと結合したC末端断片(G1C(N→A)、G8C(N→A)、N1C(N→A)またはI1C(N→A))に相当する中間産物も主要副産物として見られた。 N−切断の効率を高めるために、従前にアッセイした単一突然変異体の総てにもう一度点突然変異を行った(G1C(N→A)、G8C(N→A)、N1C(N→A)およびI1C(N→A))。ECの最初のSer残基をAlaに変異させた。作出された新たな二重突然変異体(G1C(N/S→A)、G8C(N/S→A)、N1C(N/S→A)およびI1C(N/S→A))を大腸菌で発現させ、精製したタンパク質を25℃で等濃度の対応物(それぞれG1N、G8N、N1NおよびI1N)とともにインキュベートした。この場合、SDS−PAGEによる分析は、N末端自己切断が極めて効率的に起こったことを示した。結論として、ECの最初の位置のSer残基の突然変異とICの最後のAsn残基における突然変異を組み合わせると、効率的なN末端切断が可能となる。例えば、精製G1C(N/S→A)をG1Nとともにインキュベートすると、5.7E−4s−1のN末端切断速度と70%の収率がもたらされた。 本明細書に引用されている総ての刊行物、特許、特許出願、インターネットサイト、および受託番号/データベース配列(ポリヌクレオチド配列およびポリペプチド配列の両方を含む)は、各個の刊行物、特許、特許出願、インターネットサイト、または受託番号/データベース配列が具体的にかつ個々に参照により本明細書の一部とされることが示された場合と同程度に、あらゆる目的で引用することによりそれらの全内容が本明細書の一部とされる。 詳細な説明の説は特許請求の範囲を説明するために使用されることが意図され、概要および要約の節はこの限りでないと理解すべきである。概要および要約の節は、本発明者らにより企図される本発明の、総てではなく1以上の例示的態様を示し得るものであり、従って、本発明および添付の特許請求の範囲を何ら限定することを意図しない。 具体的態様の以上の記載は、他者が当技術分野の技術の範囲内の知識を使って、過度な実験を行うことなく、本発明の一般概念から逸脱することなく、このような具体的態様を種々の適用に合わせて容易に改変および/または適合化することができるように本発明の一般的性質を十分に明らかにするものである。従って、このような適合および改変は、本明細書に提供される教示および指針に基づき、開示されている態様の等価物の意味および範囲内にあるものとする。本明細書内の術語または用語は説明のためのものであって限定を目的とするものではないと理解すべきであり、従って、本明細書の用語または術語は本教示および指針に照らして当業者により解釈されるべきである。 本発明の幅および範囲は上記の例示的態様のいずれによっても限定されるべきでなく、以下の特許請求の範囲およびそれらの等価物によってのみ定義されるべきである。 (i)配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一であるインテインドメインと、(ii)異種ポリペプチドとを含んでなる融合タンパク質であって、前記異種ポリペプチドが、前記インテインドメインのC末端にある、融合タンパク質。 前記異種ポリペプチドと前記インテインドメインとが、ペプチド結合により直接連結されているかまたはリンカーにより連結されている、請求項1に記載の融合タンパク質。 前記インテインドメインの最後のアミノ酸が、グルタミンまたはアスパラギンである、請求項1または2に記載の融合タンパク質。 前記異種ポリペプチドまたは前記リンカーの最初のアミノ酸が、セリン、システイン、またはトレオニンである、請求項3に記載の融合タンパク質。 前記インテインドメインの最後のアミノ酸が、アスパラギンまたはグルタミン以外のアミノ酸であり、かつ、前記異種ポリペプチドまたは前記リンカーの最初のアミノ酸が、セリン、システイン、またはトレオニン以外のアミノ酸である、請求項1または2に記載の融合タンパク質。 (i)配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一であるインテインドメインと、(ii)異種ポリペプチドとを含んでなる融合タンパク質であって、前記異種ポリペプチドが、前記インテインドメインのN末端にある、融合タンパク質。 前記異種ポリペプチドと前記インテインドメインとが、ペプチド結合により直接連結されているかまたはリンカーにより連結されている、請求項6に記載の融合タンパク質。 前記インテインドメインの最初のアミノ酸が、セリンまたはシステインである、請求項6または7に記載の融合タンパク質。 前記インテインドメインの最初のアミノ酸が、セリンまたはシステイン以外のアミノ酸である、請求項6または7に記載の融合タンパク質。 第1のインテインドメインと第2のインテインドメインと異種ポリペプチドとを含んでなる融合タンパク質であって、前記異種ポリペプチドが、前記第1のインテインドメインのN末端にあり、かつ、前記異種ポリペプチドが、前記第2のインテインドメインのC末端にあり、かつ、 (a)前記第1のインテインドメインが配列番号3と少なくとも75%同一であって、前記第2のインテインドメインが配列番号7と少なくとも75%同一であるか; (b)前記第1のインテインドメインが配列番号12と少なくとも75%同一であって、前記第2のインテインドメインが配列番号16と少なくとも75%同一であるか; (c)前記第1のインテインドメインが配列番号20と少なくとも75%同一であって、前記第2のインテインドメインが配列番号24と少なくとも75%同一であるか;または (d)前記第1のインテインドメインが配列番号34と少なくとも75%同一であって、前記第2のインテインドメインが配列番号38と少なくとも75%同一であるか;または (e)前記第1のインテインドメインが配列番号64と少なくとも75%同一であって、前記第2のインテインドメインが配列番号65と少なくとも75%同一である、融合タンパク質。 前記異種ポリペプチドと第2のインテインドメインとが、ペプチド結合またはリンカーにより連結されており、かつ、前記異種ポリペプチドの最初のアミノ酸または前記リンカーの最初のアミノ酸が、セリン、システイン、またはトレオニンである、請求項10に記載の融合タンパク質。 第1の成分と第2の成分とを含んでなる、組成物またはパーツキットであって、 (i)前記第1の成分が請求項1〜4のいずれか一項に記載の融合タンパク質であり、かつ、 (ii)前記第2の成分が請求項9に記載の融合タンパク質およびN末端インテインドメインからなる群から選択され、 a.請求項1〜4のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号7と少なくとも75%同一であって、請求項9に記載の融合タンパク質に由来するインテインドメインまたはN末端インテインドメインが配列番号3と少なくとも75%同一であるか; b.請求項1〜4のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号16と少なくとも75%同一であって、請求項9に記載の融合タンパク質に由来するインテインドメインまたはN末端インテインドメインが配列番号12と少なくとも75%同一であるか; c.請求項1〜4のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号24と少なくとも75%同一であって、請求項9に記載の融合タンパク質に由来するインテインドメインまたはN末端インテインドメインが配列番号20と少なくとも75%同一であるか; d.請求項1〜4のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号38と少なくとも75%同一であって、請求項9に記載の融合タンパク質に由来するインテインドメインまたはN末端インテインドメインが配列番号34と少なくとも75%同一であるか; e.請求項1〜4のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号65と少なくとも75%同一であって、請求項9に記載の融合タンパク質に由来するインテインドメインまたはN末端インテインドメインが配列番号64と少なくとも75%同一である、組成物またはパーツキット。 第1の成分と第2の成分とを含んでなる、組成物またはパーツキットであって、 (i)前記第1の成分が請求項6〜8のいずれか一項に記載の融合タンパク質であり、かつ、 (ii)前記第2の成分が請求項5に記載の融合タンパク質およびC末端インテインドメインからなる群から選択され、 a.請求項6〜8のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号3と少なくとも75%同一であって、請求項5に記載の融合タンパク質に由来するインテインドメインまたはC末端インテインドメインが配列番号7と少なくとも75%同一であるか; b.請求項6〜8のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号12と少なくとも75%同一であって、請求項5に記載の融合タンパク質に由来するインテインドメインまたはC末端インテインドメインが配列番号16と少なくとも75%同一であるか; c.請求項6〜8のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号20と少なくとも75%同一であって、請求項5に記載の融合タンパク質に由来するインテインドメインまたはC末端インテインドメインが配列番号24と少なくとも75%同一であるか; d.請求項6〜8のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号34と少なくとも75%同一であって、請求項5に記載の融合タンパク質に由来するインテインドメインまたはC末端インテインドメインが配列番号38と少なくとも75%同一であるか; e.請求項6〜8のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号64と少なくとも75%同一であって、請求項5に記載の融合タンパク質に由来するインテインドメインまたはC末端インテインドメインが配列番号65少なくとも75%同一である、組成物またはパーツキット。 請求項1〜4のいずれか一項に記載の融合タンパク質と請求項6〜8のいずれか一項に記載の融合タンパク質とを含んでなる、組成物またはパーツキットであって、 a.請求項1〜4のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号7と少なくとも75%同一であって、請求項6〜8のいずれか一項に記載の融合タンパク質が配列番号3と少なくとも75%同一であるか; b.請求項1〜4のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号16と少なくとも75%同一であって、請求項6〜8のいずれか一項に記載の融合タンパク質が配列番号12と少なくとも75%同一であるか; c.請求項1〜4のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号24と少なくとも75%同一であって、請求項6〜8のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号20と少なくとも75%同一であるか; d.請求項1〜4のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号38と少なくとも75%同一であって、請求項6〜8のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号34と少なくとも75%同一であるか;または e.請求項1〜4のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号65と少なくとも75%同一であって、請求項6〜8のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号64と少なくとも75%同一である、組成物またはパーツキット。 (i)インテインドメインのC末端に連結されている異種ポリペプチドをインテインドメインから切断するための方法であって、インテインを介したタンパク質切断を可能とする条件下で、請求項12に記載の組成物をインキュベートすること、または請求項12に記載のパーツキットの成分を会合させること、を含んでなる方法、 (ii)インテインドメインのN末端に連結されている異種ポリペプチドをインテインドメインから切断するための方法であって、インテインを介したタンパク質切断を可能とする条件下で、請求項13に記載の組成物をインキュベートすること、または請求項13に記載のパーツキットの成分を会合させること、を含んでなる方法、 (iii)第1のポリペプチドのN末端と第2のポリペプチドのC末端を共有結合させる方法であって、インテインスプライシングを可能とする条件下で、請求項14に記載の組成物をインキュベートすること、または請求項14に記載のパーツキットの成分を会合させることを含んでなり、前記第1のポリペプチドが、請求項1〜4のいずれか一項に記載の融合タンパク質の一部を形成する異種ポリペプチドであって、前記第2のポリペプチドが、請求項6〜8のいずれか一項に記載の融合タンパク質の一部を形成する異種ポリペプチドである、方法、 (iv)異種ポリペプチドを環化するための方法であって、請求項10または11に記載の融合タンパク質を、インテインスプライシングを可能とする条件下でインキュベートすることを含んでなり、前記異種ポリペプチドが、請求項10または11に記載の融合タンパク質の一部を形成する異種ポリペプチドである、方法からなる群から選択される方法。 配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの下流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも1つのクローニング部位とを含んでなり、これにより、前記インテインドメインと対象ポリヌクレオチドによりコードされるポリペプチドとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクター。 前記インテインドメインの最後のアミノ酸が、グルタミンまたはアスパラギンである、請求項16に記載のベクター。 前記インテインドメインの最後から2番目のアミノ酸が、ヒスチジンである、請求項17に記載のベクター。 前記インテインドメインの最後のアミノ酸が、アスパラギンまたはグルタミン以外のアミノ酸である、請求項16に記載のベクター。 前記インテインドメインと前記異種ペプチドによりコードされるポリペプチドとの間にリンカーペプチドを形成するポリペプチドをコードするポリヌクレオチドをさらに含んでなる、請求項16に記載のベクター。 前記インテインドメインの最後のアミノ酸が、アスパラギンまたはグルタミン以外のアミノ酸であり、前記リンカーの最初のアミノ酸が、セリン、システインまたはトレオニン以外のアミノ酸である、請求項20に記載のベクター。 配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドに上流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも1つのクローニング部位とを含んでなり、これにより、対象ポリヌクレオチドによりコードされるポリペプチドとインテインドメインとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクター。 前記インテインドメインの最初のアミノ酸が、セリンまたはシステインである、請求項22に記載のベクター。 前記インテインドメインの最初のアミノ酸が、セリンまたはシステイン以外のアミノ酸である、請求項22に記載のベクター。 配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一である第1のインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの下流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも1つのクローニング部位と、前記クローニング部位の下流に、配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一である第2のインテインドメインをコードするポリヌクレオチドとを含んでなり、これにより、対象ポリヌクレオチドによりコードされるポリペプチドと第1および第2のインテインドメインとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成されるベクターであって、 a.前記第1のインテインドメインが配列番号7と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号3と少なくとも75%同一であり; b.前記第1のインテインドメインが配列番号16と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号12と少なくとも75%同一であり; c.前記第1のインテインドメインが配列番号24と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号20と少なくとも75%同一であり; d.前記第1のインテインドメインが配列番号38と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号34と少なくとも75%同一であり;または e.前記第1のインテインドメインが配列番号65と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号64と少なくとも75%同一である、ベクター。 前記インテインドメインの最後のアミノ酸が、グルタミンまたはアスパラギンであり、前記インテインドメインの最後から2番目のアミノ酸が、ヒスチジンであり、かつ/または前記第2のインテインドメインの最初のアミノ酸が、セリンまたはシステインである、請求項25に記載のベクター。 (i)配列番号7、16、24、38および65からなる群から選択される配列と少なくとも75%同一である第1のインテインドメインをコードするポリヌクレオチドと、 (ii)第1のインテインドメインをコードする前記ポリヌクレオチドの下流に、第1のクローニング部位と、 (iii)配列番号3、12、20、34および64からなる群から選択される配列と少なくとも75%同一である第2のインテインドメインをコードするポリヌクレオチドと、 (iv)第2のインテインドメインをコードする前記ポリヌクレオチドの上流に、第2のクローニング部位とを含んでなる、ベクターであって、 第1のクローニング部位が第1の対象ポリヌクレオチドのクローニングを可能とし、第2のクローニング部位が第2の対象ポリヌクレオチドのクローニングを可能とし、これにより、前記の順に、第2の対象ポリヌクレオチドによりコードされるポリペプチドと、第2のインテインドメインと、第1のインテインドメインと、第2の対象ポリヌクレオチドによりコードされるポリペプチドとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成され、 a.前記第1のインテインドメインが配列番号7と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号3と少なくとも75%同一であり; b.前記第1のインテインドメインが配列番号16と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号12と少なくとも75%同一であり; c.前記第1のインテインドメインが配列番号24と少なくとも75%同一でれば、前記第2のインテインドメインは配列番号20と少なくとも75%同一であり; d.前記第1のインテインドメインが配列番号38と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号34と少なくとも75%同一であり;または e.前記第1のインテインドメインが配列番号65と少なくとも75%同一であれば、前記第2のインテインドメインは配列番号64と少なくとも75%同一である、ベクター。 前記第2のインテインドメインと前記第2の対象ポリヌクレオチドによりコードされるポリペプチドとを連結する第1のペプチドリンカーをコードするポリヌクレオチドをさらに含んでなり、かつ/または前記第1のインテインドメインと前記第1の対象ポリヌクレオチドによりコードされるポリペプチドとを連結する第2のペプチドリンカーをコードするポリヌクレオチドをさらに含んでなる、請求項27に記載のベクター。 前記第2のインテインドメインの最初のアミノ酸が、システインまたはセリンであり、前記第1のインテインドメイン最後のアミノ酸が、グルタミンまたはアスパラギンであり、前記第1のインテインドメインの最後から2番目のアミノ酸が、ヒスチジンであり、かつ/または第2の対象ポリペプチドのまたは前記第1のペプチドリンカーの最初のアミノ酸が、システイン、セリンまたはトレオニンである、請求項27に記載のベクター。 本発明は、一般にロバストなスプリットインテインに関する。本明細書に記載のスプリットインテインは、0℃といった低温を含む大きな温度範囲、広いpH範囲、およびカオトロピック塩の存在下で活性である。これらのスプリットインテインはまた、融合した異種ポリペプチドにおける配列変異性に対して高い耐用性を示し、従って、タンパク質精製・工学技術に有用である。 配列表