タイトル: | 公表特許公報(A)_液体分離またはクロマトグラフィーを用いたペプチドの溶出時間の予測における精度を増強するための方法 |
出願番号: | 2007513214 |
年次: | 2007 |
IPC分類: | G01N 30/86,G01N 30/88 |
ペトリティス コンスタンティノス カンガス ラース ジェイ. アンダーソン ゴードン エー. スミス リチャード ディー. JP 2007537446 公表特許公報(A) 20071220 2007513214 20050505 液体分離またはクロマトグラフィーを用いたペプチドの溶出時間の予測における精度を増強するための方法 バッテル メモリアル インスティチュート 506283798 清水 初志 100102978 新見 浩一 100128048 ペトリティス コンスタンティノス カンガス ラース ジェイ. アンダーソン ゴードン エー. スミス リチャード ディー. US 10/846,188 20040514 G01N 30/86 20060101AFI20071122BHJP G01N 30/88 20060101ALI20071122BHJP JPG01N30/86 GG01N30/88 J AP(BW,GH,GM,KE,LS,MW,MZ,NA,SD,SL,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,MD,RU,TJ,TM),EP(AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HU,IE,IS,IT,LT,LU,MC,NL,PL,PT,RO,SE,SI,SK,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AT,AU,AZ,BA,BB,BG,BR,BW,BY,BZ,CA,CH,CN,CO,CR,CU,CZ,DE,DK,DM,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,HR,HU,ID,IL,IN,IS,JP,KE,KG,KM,KP,KR,KZ,LC,LK,LR,LS,LT,LU,LV,MA,MD,MG,MK,MN,MW,MX,MZ,NA,NI,NO,NZ,OM,PG,PH,PL,PT,RO,RU,SC,SD,SE,SG,SK,SL,SM,SY,TJ,TM,TN,TR,TT,TZ,UA,UG,US,UZ,VC,VN,YU,ZA,ZM,ZW US2005015604 20050505 WO2006083262 20060810 21 20061211 1.PENTIUM関連出願の相互参照 本出願は、参照としてその全内容が本明細書に組み入れられる、2002年12月18日出願の、米国特許出願番号第10/323,387号の一部継続出願である。連邦政府助成研究または開発に関する声明 本発明は、米国エネルギー省により授与された契約DE-AC0676RLO1830に基づいて政府の支援を受けて行われた。政府は本発明において一定の権利を保有する。配列表に対する参照 本明細書において記述したそれぞれのタンパク質配列は、米国特許法施行規則1.821条〜1.825条に従ってコンパクトディスク上にコンピューター読み取り可能な形で米国特許商標庁に提出されている。その提出書の書面の写しを本明細書に添付する。コンピューター読み取り可能な形で記録された配列表情報は、書面での配列表と同一である。発明の背景 液相分離(例えば、液体クロマトグラフィーおよび電気泳動分離)は、分子、特にペプチドの構造を同定しようとする科学者および研究者によって研究ツールとして長い間用いられてきた(本明細書において用いられるように、「ペプチド」という用語は、一つより多いアミノ酸を有するポリマーを指し、これにはジペプチド、トリペプチド、オリゴペプチド、およびポリペプチドが含まれるがこれらに限定されない。「タンパク質」という用語は、一つまたは複数のポリペプチド鎖を含む分子を指す)。 プロテオミクスは、タンパク質の広くかつ系統的な分析を含み、これにはその同定、定量、および最終的には一つまたは複数の生物機能の属性が含まれる。プロテオミクス分析は、高い複雑性、およびタンパク質の存在量のダイナミックレンジのために困難である。生物学の工業化には、発現されたタンパク質の系統的な分析をハイスループットな手法で、しかも高い感度で行うことが必要であり、さらに困難が増す。計測装置、生物情報学、および自動化における最近の技術的進歩は、この目標に向けての進歩に貢献してきた。特に、プロテオミクス同定の領域では、より高い特異性が、プロテオームの高い複雑性を扱う能力に利益をもたらすことは明白である。その結果、最近の努力は、分離速度、分解力、およびダイナミックレンジにおける改善に集中しており、これらの方法は一般的に、識別のため、タンデムマススペクトルと、確立されたタンパク質データベースまたはゲノム配列からの予測との相関を用いる、質量分析(MS)による分離との併用に基づいている。 さらに、現代のプロテオミクス研究は、クロマトグラフィーカラムからのその溶出時間からタンパク質を同定する液体クロマトグラフィーの能力をますます活用している。液体クロマトグラフから収集された情報は、液体クロマトグラフをオンラインまたはオフラインのいずれかで質量分析計に接続することによって、分子の質量、または質量対電荷を同定することによって、増強することができる。一般的な方法には、オフラインでのトリプシン消化、およびその後の電気泳動分離またはクロマトグラフィー分離、加えてマトリクス支援レーザー脱離/イオン化もしくはエレクトロスプレー飛行時間型またはイオントラップ型質量分析が含まれる。エレクトロスプレーインターフェースを介してオンラインで接続させたキャピラリー電気泳動、質量分析、または液体クロマトグラフィー/質量分析も同様に、全細胞溶解物およびヒト体液のような複雑な生体試料のトリプシンおよび他の消化物を分析するために用いられている。これらの方法における質量分析計のダイナミックレンジは、試料がエレクトロスプレーおよび検出器にイオン化抑制によって直接注入される場合には限定される可能性がある。さらに、質量選択的四極子の使用がFTICRセルを選択的にロードすることが示されているが、フーリエ変換イオンサイクロトロン共鳴(FTICR)およびイオントラップ型質量分析計のダイナミックレンジは、機器内の保存容量によって限定され得る。 研究者らは、これらの方法の精度を増強しようとして、それらの精度を増加させるための多くのスキームを考案した。例えば、“Prediction of Chromatographic Retention and Protein Identification in Liquid Chromatography/Mass Spectrometry”Magnus Palmblad、Margareta Ramstrom、Karin E. Markides、Per Hakansson、and Jonas Bergquist, Analytic Chemistry p.4-9, 2002の論文において、著者らは、正確な質量の測定に基づいたペプチド質量フィンガープリンティングを改善するために、クロマトグラフィーおよび電気泳動法のような液体分離スキームからの情報を用いる方法を記述している。著者らは、クロマトグラフィー分離における分解能および精度が質量分析の場合より数オーダーの規模で低いことを認めているが、彼らはその情報は、本来補足的であり、計算コストが無視できるほどで、かつさらなる実験コストなしに利用できると主張している。簡単に説明すると、Palmbladの論文に記述された方法は、アミノ酸20種に対する「保持係数」、ならびに各アミノ酸の数、空隙容量を代償する項、および試料注入と質量スペクトルの獲得との間の遅延を割り当てている。次に、 〜100HASのBSAペプチド〜70個、ならびに正確な質量測定および質量スペクトルにおける高い相対強度によって推定的に同定されたトランスフェリンペプチドからの実験データに、パラメータを最小二乗法によって適合させる。著者らは、「予測変数の精度は、6個のBSAおよびCSFデータセットのそれぞれによって「訓練した」場合に8%〜10%であることが判明した」ことを見いだした。Palmbladの論文に記述されたようなアプローチは何らかの有用な情報を提供するが、予測精度によりその有用性は限られている。 このように、現在、プロテオミクス分析に対して二つの主要なアプローチが存在する。一つ目は、二次元ポリアクリルアミド電気泳動(2D-PAGE)とMSとのオフライン併用からなる。タンパク質をまず、ゲルにおいてそのpIおよび質量によって分離して、その後タンパク質の「スポット」を酵素的に加水分解してペプチド混合物を得て、これをマトリクス支援レーザー脱離イオン化飛行時間型(MALDI-TOF)またはエレクトロスプレー(ESI)-MSによって分析する。もう一つの迅速な発展中のアプローチは、包括的なプロテオーム全体の酵素消化後の、ESI-MSに接続したオンライン1-Dまたは2-D液体クロマトグラフィー(LC)を用いる分析からなる。ペプチドの検出は、タンデムMSまたはより最近は、タンデムMSの必要性を回避して、ルーチンな適用において高感度、広いダイナミックレンジ、およびハイスループットを提供する一段階フーリエ変換イオンサイクロトロン共鳴(FTICR)-MSによって達成される。 まだ活用されていないプロテオミクス分析の局面は、分離から入手可能な情報(例えばLC溶出時間)の使用を含む。実際に、LCにおける保持時間は、独自でありかつ定義された実験(移動相の組成、静止相等)に関して構造的に依存する。所与のペプチド構造に関してLC保持時間を予測する方策があれば、これをいずれかのMS/MSデータと共に用いてペプチド同定の信頼性を改善する、および/もしくはペプチド同定数を増加することができ、または十分に高い精度のMSと共に用いてMS/MSデータの必要性を減少させることができる(すなわち予測が十分に信頼できる場合)。 ペプチドのクロマトグラフィー挙動がアミノ酸組成に基づいて予測できるという考え方は新しいものではない。1951年に、KnightおよびPardeeは、ペーパークロマトグラフィー上での合成ペプチド保持因子(Rf)値を、ある程度の精度で予測できることを示した。1952年に、Sangerは、同じアミノ酸を含むが異なる配列を有するペプチドをしばしば分離できることから、Rfと組成との関係は絶対的に正確ではないことを証明することにより異性体の問題を提起した。より最近、逆相(RP)または順相液体クロマトグラフィーにおけるペプチドの溶出時間の予測に関していくつかの報告があった。これらの方法は、ペプチド溶出時間予測のために定量的構造-クロマトグラフィー保持関係(QSRR's)(例えば、部分的最小二乗または多重線形回帰)を用いた。Casalらは、部分的最小二乗回帰が、小さい標準的なペプチド25個の混合物を用いて、これらのモデルについてより良好な予測能を提供することを証明した。これらのモデルの一つの限界は、それらがアミノ酸残基15〜20個未満のペプチドに関して最も有効である点である。 人工ニューラルネットワーク(ANN)に基づくもう一つのアプローチは、(i)小ペプチドの立体配座状態、(ii)炭素-13核磁気共鳴化学シフト、ならびに(iii)薄層クロマトグラフィー、GC、およびLCにおける小分子の遅延因子または保持時間を含むいくつかの化学領域において、より良好な予測能を証明した。理由の一つは、人工ニューラルネットワークのための十分にポピュレートされた訓練セットを生成するために、多数の経験的観察が必要であることである。このような数は、LC-MSおよび市販されているプログラムである「SEQUEST」のような自動スペクトル判読を提供する特別な統計ツールを導入した場合のみ達成できる。 2002年12月18日出願の米国特許出願第10/323,387号において、本発明の発明者らは液体分離において、タンパク質およびペプチドのような化学的に関連する化合物の溶出時間または保持時間を予測するための方法を記述している。(便宜上、本開示は以降本明細書において、ペプチドという用語の使用は2つまたはそれ以上のアミノ酸を含む任意の生体分子を包含することを意図するという理解の下で、タンパク質およびペプチドを両方とも単に《ペプチド》と呼ぶ。)簡単には、この方法は、最初に既知のペプチドの既知の溶出時間のデータセットを提供することにより始まる。このデータは典型的に複数の分離実験から得られる。次いで、それぞれのベクトルが複数の次元を有し、それぞれの次元がデータセットからのこれらの既知のペプチドのそれぞれに存在するアミノ酸の溶出時間を表す、複数のベクトルを作製する。次に、任意のペプチドの溶出時間が、少なくとも一つの仮説的ペプチドのアミノ酸の溶出時間に関して次元値を割り当てることにより、最初にベクトルを作製し、次いで既知のペプチドの次元値を用いて仮説的ペプチドの次元値の多変量回帰を行うことによりベクトルの予測溶出時間を計算することによって予測され得る。好ましくは、多変量回帰は、人工ニューラルネットワーク(以降本明細書において、「ANN」と呼ぶ)、例えば「フィードフォワード」ANNを用いることによって達成される。ANNの訓練は、バックプロパゲーションアルゴリズムまたはクイックプロップ(quickprop)アルゴリズムのような最急降下アルゴリズム、または共役勾配アルゴリズムによって達成され得る。データセット中の既知のペプチドのそれぞれに対して割り当てられたベクトルおよび仮説的ペプチドの次元値の割り当ての前に、データセット生成に用いられた複数の分離実験の溶出時間が、線形または非線形関数を用いて正規化され、これは多重回帰を行うことによって最適化され得る。米国特許出願第10/323,387号において教示され、かつ記述されている進歩は、他の先行技術方法と比較して増加した精度を示したが、さらに高い精度でペプチドおよびタンパク質の正体を予測するための方法の必要性が残されている。発明の簡単な概要 したがって、本発明の目的は、液体分離におけるタンパク質およびペプチドのような化学的に関連する化合物の溶出時間または保持時間を予測するための方法を提供することである。本明細書において用いられるように、「液体分離」には、異なる様式の液体クロマトグラフィー(すなわち、順相および逆相クロマトグラフィー、イオン交換クロマトグラフィー、親水性相互作用クロマトグラフィー、サイズ排除クロマトグラフィー、疎水性クロマトグラフィーなど)、キャピラリー電気泳動のような電気泳動分離、ガスクロマトグラフィー、イオン移動度、流動分画法(field flow fractionation)、およびそれによってこれらの技術の一つまたは複数を組み合わせる方法が含まれるが、これらに限定されるわけではない。さらに、それを上記の方法の分析または準備様式に適用することができる。本発明のこれらおよび他の目的は米国特許出願第10/323,387号(以降本明細書において、「先行方法」と呼ぶ)において教示されている方法を、先行方法にさらなる情報を組み入れることにより増強することによって達成される。具体的には、本発明は、様々ペプチドの溶出時間が、ペプチド中に存在する各アミノ酸の総数ばかりでなく、ペプチド中のアミノ酸の順序によっても影響されるという事実を利用する。したがって、この改善された方法も先行方法と同じ手法から、最初に既知のペプチドの既知の溶出時間のデータセットを提供することにより始められる。このデータは典型的に複数の分離実験から得られる。本発明の一つの態様において、先行方法のように、それぞれのベクトルが20種のアミノ酸それぞれに対応する20次元を有し、それぞれの次元がこのように、データセットからのこれらの既知のペプチドそれぞれに存在する特定のアミノ酸の溶出時間を表す、複数のベクトルが次に作製される。しかしながら、本発明のこの態様において、ペプチドの始点および末端に存在するアミノ酸はこのベクトルから除外される。このように、ベクトルは20次元からなり、それぞれの次元は所与のアミノ酸がそれぞれのペプチドの中央部に現れる回数により表される。 本発明のこの態様は、次に、以前は除外されていた、既知のペプチドの始点および末端のアミノ酸についての位置情報を組み入れる別の一群のベクターを提供することにより、先行方法を改善する。例として、限定することを意味しないが、この位置情報はペプチドに沿った最初および最後の8つの位置についてのベクトルを含み得る。本例を続けると、それぞれの位置ベクトルは20次元を有すると考えられる(あり得るアミノ酸それぞれにつき一つ)。最初の位置については、ペプチドの最初の位置に存在するアミノ酸がいずれであっても、「1」により表され、ベクトル中の残りの次元は全て0により表される。続いてベクトルが、残りの位置それぞれについて作製されると考えられる。このようにして、本例においては、340の総次元数が可能である;20種のあり得るアミノ酸を掛けたペプチドの最初の8つの位置、その他に、同様に20種のあり得るアミノ酸を掛けたペプチドの末端の8つの位置、および最後に各次元が各ペプチドの中央部に現れるそれぞれのアミノ酸の回数を表すさらなる20次元。このようにベクトルは、最初および最後の8つのアミノ酸について提供される位置データにより提供される増強した精度を伴って、アミノ酸の同一の組み合わせを有する任意のペプチドについての溶出時間に相関される。 上記の記述および例は、本発明により同定されるペプチドが20種のタンパク質新生アミノ酸(Asp、Asn、Gly、Val、Leu、Ile、Met、Phe、Trp、Pro、Ser、Thr、Cys、Tyr、Gln、Ala、Glu、Lys、Arg、His)のみを含むと想定している。20種のタンパク質新生アミノ酸以外を含むペプチドは、人工ニューラルネットワークを訓練するのに十分なデータ(すなわち、そのアミノ修飾アミノ酸を含むいくつかのペプチドの保持時間情報)を想定することで、本発明を用いて正確に予測できる。本開示の恩恵を被る当業者により認識されると考えられるように、さらなるアミノ酸は容易に本発明に取り込むことができる。例えば、修飾は天然のもしくは生物学的プロセス(すなわち、タンパク質が翻訳後修飾によってSerにリン酸化を受ける)に由来し得るか、または別に誘導体化処置(すなわち、タンパク質が還元され、システインにアルキル化される)を通じて人工的に修飾され得る。これらの条件下において、本明細書に記述されるベクトルは、そのような可能性により示されるさらなるアミノ酸を説明するよう単に拡張される。 このように、任意のタンパク質の溶出時間は、先行方法からの情報を本明細書において教示されるような位置情報と組み合わせることにより予測され得る。最初に、少なくとも一つの仮説的ペプチドのアミノ酸の溶出時間に関して次元値を割り当てることによってベクトルを作製することにより、その仮説的ペプチドについての位置情報に関する溶出時間についての次元値と組み合わせて、既知のペプチドの次元値を用いて仮説的ペプチドの次元値の多変量回帰を行うことにより、ベクトルについての予測溶出時間が計算され得る。 本開示の恩恵を被る当業者により認識されると考えられるように、先行方法の次元値は位置情報が用いられないアミノ酸についてのみ計算される必要がある。したがって、先の例を続けると、50アミノ酸を有するペプチドを予測するためには、最初および最後の8アミノ酸は位置情報を用いて説明されると考えられ(計16個)、ペプチドの中央部の34アミノ酸(50個引く16個)は先行方法を用いて説明されると考えられる。本開示の恩恵を被る当業者によりさらに認識されると考えられるように、ペプチドの始点および末端の8個より多いアミノ酸を用いることにより、先行方法に由来する任意の情報の使用の必要性が完全に排除され得ることが可能である。下に記述されるの本発明の好ましい態様は、16アミノ酸、ペプチドの始点の8アミノ酸および末端の8アミノ酸のみを用いることにより最大の精度を生じることを示しているが、このことは16アミノ酸のみの位置情報の使用への本発明の限定の結果ではない。むしろ、これは好ましい態様において用いられた人工ニューラルネットワークを訓練するために用いられたデータセットのサイズの限定である。新たなペプチドが引き続きデータセットに加えられることで、データセットは継続的に拡大している。したがって、本発明の方法を用いる際、位置情報を用いて作製されるベクトル中に用いられる最適なアミノ酸の数もまた、データセットが拡大するにつれて増え続けると考えられ、先行方法を用いて表されるアミノ酸の数は減少し続けると考えられる。したがって、例として、関心対象のペプチドの母集団が50アミノ酸またはそれ未満のアミノ酸を有するペプチドに限定されていると仮定すると、最終的に、最初および最後の25個の位置のアミノ酸についてのベクトルを作製することにより最大精度の予測がなされるように、データベースが拡大すると考えられる。その時点において、全てのアミノ酸は新たな方法を用いて説明されると考えられるため、もはや、先行方法を用いた、ペプチドの中央部のアミノ酸についての任意の情報を利用する必要がなくなると考えられる。したがって、本明細書において記述される新たな方法の一つの態様は、位置ベクトルについて最初および最後の8アミノ酸のみを利用し、かつその間のアミノ酸については先行方法を利用しているが、データベースが拡大するにつれ、位置ベクトルについて用いられるアミノ酸の数は、先行方法により作製されるベクトルの使用がもはや好ましくないという点まで同様に増えると考えられる。したがって、当業者および本開示の恩恵は、拡大されたデータセットを利用する際、最適な結果を生じるために位置ベクトルによって説明されるアミノ酸の数を容易に調整することができると考えられ、かつ位置ベクトルを用いて説明される任意のそのような数のアミノ酸の使用は本開示により明示的に企図される。 本明細書において出願人により知られる本発明の方法を実施する最良の方法を開示する義務の遂行の促進のため、出願人らは、本発明により利用されるペプチドのデータベースが拡大するにつれ、位置情報により指定されるアミノ酸の最適な数が同様に増えると予想する。このように、本明細書において明示的に開示されるもう一つの態様は、全てのアミノ酸についての位置情報の使用を企図し、ペプチドの中央部のアミノ酸を説明するために先行方法を使用する必要性を排除する。 位置情報に加え、本方法の予測能力の精度を増強するために、さらなるベクトルを加えることもできる。例えば、ペプチド長、最近接効果、疎水性モーメント、疎水性、ペプチド質量、分子体積、類似の配列順(quasi sequence order)、二次構造、およびそれらの組み合わせについてのベクトルを、位置情報および/またはペプチドの中央区域についての上に記述されたベクトルに組み合わせることもできる。これらの種類のさらなるベクトルは、比較的小さいデータセットを用いる際の予測精度の増強において、特定の有用性を有することに留意することが重要である。より大きなデータセットが用いられる際には、この情報の有利性が低下する可能性があり、いくつかの場合では実際に予測精度を低下させることもある。 このように、本発明の一つの態様において、ペプチド中の最初および最後のアミノ酸の位置情報からなるベクトルが使用される。次いで、先行方法と同様に、これらのベクトルは液体分離において化学的に関連する化合物の溶出時間を予測するための方法を提供するために利用される。このように、本方法は既知のペプチドの既知の溶出時間のデータセットを提供し、次いでそれぞれのベクトルが複数の次元を有し、かつそれぞれの次元が既知のペプチドに存在する、少なくとも一部のアミノ酸についての位置情報を表す、複数のベクトルを作製することによって始められる。次いで仮説的ベクトルが、少なくとも一つの仮説的ペプチドに対して次元値を割り当てることにより作製され、仮説的ペプチドを複数のベクトルに適合させる少なくとも一回の多変量回帰を行うことによって、仮説的ベクトルに関する予測溶出時間が作成される。本発明は、位置情報が特定のペプチドに存在する全てのアミノ酸を完全に説明しなかった場合、先行方法におけるようにペプチドの内部のアミノ酸からの定量的情報からなるベクトルをさらに用い得、本発明はペプチド長、最近接効果、疎水性モーメント、疎水性、ペプチド質量、分子体積、類似の配列順、二次構造、およびそれらの組み合わせを含むが、それらに限定されない、ペプチドの他の物理的特性についての情報を含むベクトルを用い得る。 好ましくは、多変量回帰は、人工ニューラルネットワーク(以降本明細書において、「ANN」と呼ぶ)を用いることによって達成され、より好ましくはANNは「フィードフォワード」ANNである。ANNの訓練には、最急降下アルゴリズムおよび共役勾配アルゴリズムが含まれるが、これらに限定されない当技術分野で公知の任意の訓練法によって達成されてもよい。好ましい最急降下アルゴリズムには、バックプロパゲーションアルゴリズムおよびクイックプロップアルゴリズムが含まれるがこれらに限定されない。データセットにおける既知のペプチドおよび仮説上のペプチドの次元値のそれぞれに割り当てられたベクトルを割り当てる前に、線形または非線形関数を用いてデータセットを生成するために用いられる複数の分離実験の溶出時間を正規化することが好ましい。多重回帰を行うことによって、この関数を最適化することがさらに好ましい。多重回帰の好ましい方法は、遺伝的アルゴリズムである。 本発明の方法の操作および使用は、下記の本発明の好ましい態様の詳細な説明に記述される。当業者は、多変量回帰のために選択される特定のアルゴリズム、伝達関数およびこの好ましい態様においてANNを訓練するために用いられる方法に関して同等の方法が存在することを容易に認識すると考えられる。同様に、好ましい態様は、質量分析計に接続した液体クロマトグラフに適用されるように、本発明の方法を記述するが、本発明の方法は、質量分析計、および質量分析計によって提供されたデータを用いるか否かによらず、適用可能であることが当業者によって認識されると考えられる。さらに、当業者は同様に、本発明によって提供された恩恵は、質量分析計を他の適した検出手段に置換した場合においてもまた適用可能であることを認識すると考えられる。好ましい態様は、液体クロマトグラフィーと併せて本発明の方法を記述するが、本発明は、全ての異なる様式のクロマトグラフィー(すなわち、順相、逆相、イオン交換など)の両方を含むと理解すべきであり、さらに、電気泳動分離が含まれるがこれに限定されない他の分離技術と共に容易に利用し得ることが、同様に明らかであると考えられる。したがって、本発明のより広い局面において本発明から逸脱することなく、本発明に記述される好ましい態様に多くの変更および改変を行ってもよく、かつ質量分析器のような検出手段と共に用いられるか否かによらず、全ての分離方法論、および多変量回帰、伝達関数、およびANNを訓練するために用いられる方法についての全ての同等のアルゴリズムは、添付の特許請求の範囲に記載されるように本発明の真の趣旨および範囲に含まれると解釈すべきあることは当業者には明らかであると考えられる。本発明の好ましい態様の詳細な説明 先行技術方法と比較して、ペプチドの溶出時間のより優れた予測を提供する、本発明の好ましい態様の能力を証明するために一連の実験を行った。タンパク質をいくつかの細菌種から以下のような一般的な調製手段を用いて抽出した。細菌細胞をTGY培地中で600 ODが約1.2となるまで培養し、4℃で10,000 gにて遠心分離することにより収集した。溶解の前に、細胞を再懸濁し、100 mM重炭酸アンモニウムおよび5 mM EDTA (pH 8.4)を用いて3回洗浄した。細胞を、5000 rpmにて1 minのサイクルで3回、0.1 mmの酸ジルコニウムビーズで破砕することにより溶解した。試料を、ビーズ破砕の各サイクルの間に、氷上で5 minインキュベートした。可溶性の細胞基質タンパク質を含む上清を、細胞の残骸を除くための15,000 g での15 minの遠心分離後に回収した。塩酸グアニジン(6 M)およびDTT(1 mM)それぞれの添加に続いて5 min煮沸することにより、タンパク質を変性および還元した。消化前に、100 mM重炭酸アンモニウム(pH 8.4)中で平衡化された、分子量5000カットオフ「D-salt」重力カラム(Pierce, Rockford, IL)を用いて、試料を脱塩した。タンパク質を、1:50(w/w)の酵素/タンパク質比で、シークエンシンググレードの修飾トリプシン(Promega, Madison, WI)を用いて、37℃で16 h、酵素消化させた。 次いで、タンパク質をヒト乳腺上皮細胞(HMEC)から以下のような一般的な調製手段を用いて抽出した。細胞のペレットを1 mLの氷冷リン酸緩衝生理食塩水(PBS)、pH 7.2の中で3回洗浄し、続いて10,000×gにて遠心分離した。溶解緩衝液(10 mMリン酸ナトリウム、pH 7、0.5%ドデシル硫酸ナトリウム)を細胞のペレットに添加し、氷上で5 minの超音波処理を用いて細胞を溶解した。溶解産物を4℃で、14,000×gにて15 min遠心分離し、細胞の任意の残骸をペレット化した。溶解産物試料を熱で変性させ(100℃で5 min)、かつ10 mMの新鮮なDL-ジチオスレイトール(DTT, Boehringer Mannheim, Indianapolis, IN, USA)により室温(RT)で1 h還元し、続いて分離して、一つのアリコートを32 mMのヨードアセトアミドによりRTで1 hアルキル化した。新鮮な10 mM DTTを試料に添加することにより(RTで1 hのインキュベーションで)、過剰なアルキル化物質を失活させた。シークエンシンググレードの修飾ブタトリプシン(Promega, Madison, WI, USA)を、1:50のトリプシン:タンパク質比で添加し、37℃で16 hインキュベートし、その後試料を凍結乾燥により乾燥させ、-80℃で凍結保存した。 HPLCグレードの水およびアセトニトリルをAldrich (Milwaukee, WI)から購入した。次いで、参照としてここにその全内容が本明細書に組み入れられる、Shen, Y.; Zhao, R.; Belov, M. E.; Conrads, T. P.; Anderson, G. A.; Tang, K.; Pasa-Tolic L.; Veenstra, T. D.; Lipton, M. S.; Udseth, H. R.; Smith, R. D.; Anal. Chem. 2001, 73, 1766-1775に記述されるように、溶融シリカキャピラリーカラム(30 cm〜60 cm, 150μm i.d.×360μm o.d., Polymicro Technologies, Phoenix, AZ)に5 μm C18粒子を詰めた。簡単には、キャピラリーRPLCをISCO LCシステム(model 100DM, ISCO, Lincoln, NE)を用いて行った。勾配溶出のための移動相は、(A)酢酸/TFA/水(0.2:0.05:100 v/v)および(B)TFA/アセトニトリル/水(0.1:90:10, v/v)であった。2つのISCOポンプを用いて5000 psiで送達される移動相を、フローの分割および分離キャピラリーへの進入前に、ステンレス鋼撹拌機(〜2.8 mL)中で磁気攪拌機により混合した。溶融シリカキャピラリーフロースプリッタ(さまざまな長さで30 mm i.d.)を用いて勾配速度を操作した。キャピラリーRPLCを、ESIインターフェイスを通じてMSとオンラインで連結した(ステンレス鋼接合管を用いてESIエミッターおよびキャピラリー分離カラムを接続した)。ペプチドデータベースを、3.5、7、および11.4テスラのFTICR機器(Harkewicz, R.; Belov, M. E.; Anderson, G. A.; Pasa-Tolic, L.; Masselon, C. D.; Prior, D. C.; Udseth, H. R.; Smith, R. D.; J. Am. Soc. Mass Spectrom. 2002, 13, 144-154およびその中の参考文献に詳細に記述され、ここにその全内容が参照として組み入れられる)を含むいくつかの質量分析計、ならびにいくつかのイオントラップ型質量分析計(LCQ, LCQ Duo, LCQ DecaXP; ThermoFinnigan, San Jose, CA)を用いて生成した。用いたANNソフトウェアはNeuroWindows version 4.5(Ward Systems Group, USA)であり、Pentium 1.5 GHzのパーソナルコンピュータ上で標準的なバックプロパゲーションアルゴリズムを利用した。最近接効果 最近接効果を組み入れる、最も単純かつ直接的な方法は、400種の可能な組み合わせ、AA、AC、ADおよびその他の全てを含む20×20次元のアレイを構築し、次いで所与のペプチド中のこれらのバイペプチドの数を計数することである。しかしながら、多量のアレイ要素が0であるため得られるデータは非常に乏しいと考えられる(本研究において、トリプシン消化ペプチドの平均長は17±9である)。この悪い事例を避けるため、代わりに、最近接リストをアミノ酸の性質に基づいて構築した。従来より、20種のアミノ酸はそれらの側鎖の性質に基づき5群に分けられ得る:非極性脂肪族群(AGILPV)、極性非荷電群(CMNQST)、芳香族群(FWY)、正荷電群(HKR)、および負荷電群(DE)。この区分はまた、参照としてその全内容が本明細書に組み入れられる、参考文献Petritis, K., Lars, J.K., Ferguson, P.L. et al. Use of artificial neural networks for the accurate prediction of peptide liquid chromatography elution times in proteome analyses. Anal. Chem. 2003, 75:1039-48の表2に示される、ペプチド保持時間予測における個々のアミノ酸の寄与とも整合する。したがって、本発明者らは著しく低下した密度の5×5次元の最近接リストを構築した。類似の配列順アプローチ 可能な配列順パターンは膨大な数であるため、統計的な予測アルゴリズムに配列順効果を直接組み入れるのは困難である。参照としてその全内容が本明細書に組み入れられる、刊行物Chou, K.C. Prediction of protein subcellualr locations by incorporating quasi-sequence-order effect. Biochem. and Biophys. Res. Commun. 2000, 278:477-83、Chou, K.C. Prediction of protein cellular attributes using pseudo-amino acid composition. Proteins: Struct. Funct. Genet. 2001, 43:246-55において最初に導入された、「類似の配列順」アプローチと呼ばれる近似法が用いられ、タンパク質の細胞内位置および特性の成功裏な予測を示した。その考えとは、a1a2a3a4a5…aLからなるLアミノ酸の配列順効果は、以下に定義されるような配列順連結因子(sequence-order-coupling factor)の組を通じて近似的に反映できると仮定するものであった:ここで、τ1は、ペプチド配列に沿って全ての最も近接した残基間での配列順相関を反映した、第一位の配列順連結因子を指し、τ2は、全ての二番目に最も近接した残基間での配列順相関を反映した、第二位の配列順連結因子などである。λ≧Lである、いくつかの特別な目的のために、本発明者らはτλ=0を割り当てる。相関関数はJi,j=D2(ai,aj)によって与えられ、ここで、D(ai,aj)は、参照としてその全内容が本明細書に組み入れられる、Schneider, G. and Wrede, P. The rational design of amino acid sequences by artificial neural networks and simulated molecular evolution: de novo design of an idealized leader peptidase cleavage site. Biophys. J. 1994, 66:335-44の表1に示されるように、疎水性、親水性、極性、および側鎖体積の残基性質に基づいて導かれた、アミノ酸aiからアミノ酸ajへの物理化学的進化距離である。二次構造内容 立体配座効果を組み入れるために、所与のペプチドの予測された二次構造内容(SSC、αへリックス、βシート、およびコイル、それぞれの二次構造状態内の残基の割合)を導入してこの立体配座情報を定量化した。SSCは、アミノ酸組成の知識にのみ依拠して予測し、ここで共用プログラムのSSCPを、参照としてその全内容が本明細書に組み入れられる、刊行物Eisenhaber, F.; Imperiale, F.; Argos, P. and Frommel, C. Prediction of secondary structural content of proteins from their amino acid composition along. I. New analytic vector decomposition methods. Proteins: Struct. Funct. Genet. 1996, 25:157-68に示されるように適用した。一般的に、適切な長さを有するペプチドのみが二次構造を持つことから、SSPはペプチド長が15より小さくない場合にのみ使用した。15より小さい長さを有するペプチドは任意にコイルとして扱った。疎水性モーメント 異性体ペプチドについての保持時間シフトを引き起こす公知の現象はペプチドの両親媒性である。両親媒性のへリックスとは、各ヘリックスの一つの面が主に親水性の側鎖を突出する一方、反対の面が主に疎水性の側鎖を突出するものである。ヘリックスの両親媒性を定量化するために、参照としてその全内容が本明細書に組み入れられる、Eisenberg, D.; Weiss, RM.; Terwilliger, TC. The helical hydrophobic moment: a measure of the amphiphilicity of a helix. Nature 1982, 299:371-4により提案された疎水性モーメントの概念を用いた。N残基のアミノ酸配列およびそれらに関連した疎水性Hnに関して、平均疎水性モーメントは以下の定義から計算できる:<μH>の値が大きいことはペプチドの両親媒性が大きいことを意味する。参照としてその全内容が本明細書に組み入れられる、 Eisenberg, D.; Weiss, RM.; Terwilliger, TC. The hydrophobic moment detects periodicity in protein hydrophobicity. Proc. Natl. Acad. Sci. USA. 1984, 81:140-4に記述されるEisenberg疎水性インデックスを用いた。 ANNに基づくアプローチは、古典的な統計的方法と比較して長所を有し、このアプローチには、基礎となる現象の詳細な理解を必要とせずに、複雑なデータを自己学習してモデル化する能力が含まれる。 最も一般的な学習アルゴリズムであるために、時にバックプロパゲーションニューラルネットワークと呼ばれるフィードフォワードニューラルネットワークモデルをこれらの実験に用いた。これは、ここにそれらそれぞれの全内容が参照として本明細書に組み入れられる、Werbos, P.J.; Beyond regression: New tools for predictive and analysis in the behavioural sciences, PhD Thesis, Harvard University, Cambridge, MA, 1974、およびWerbos, P.J.; The Roots of Backpropagation, John Wiley & Sons, New York, 1994に記述されるように、多数のニューロン、ノード、または一連の層へと組織化されたプロセシング要素で構成される。これらのANNモデルのアーキテクチャは、少なくとも二つの層を含む:データベクトルにおける各変数に関して1つのノードを有する入力層、および調べる各変数に関して1つのノードからなる出力層。さらに、データの複雑度がそのように要求する場合には、一つまたは複数の隠れ層を入力層と出力層の間に加えることができる。任意の層におけるノードは、図1に示されるように次の層のノードに完全または部分的に接続することができるが、それぞれの隠れノードまたは出力ノードは、同時にシグナルを受け取る。ノードへの入力シグナルは、それぞれのリンクに沿って重み(w)によって調節される。このように、ノードへの純入力は、ノードおよびその関連した重み全てへの全シグナルの関数である。例えば、ノードjに対する純入力は以下の式で与えられる:式中、iは、前の層におけるノードを表し、wijは、ノードiからノードjへの接続に関連した重みであり、Oiは、ノードiの出力である。 ノードの最終的な出力シグナルは通常、特定の間隔、すなわち0と1の間に限定される。ニューロンへの純入力は、このように、伝達関数を用いるさらなる変換を受けた。連続性の要件を満たし、バックプロパゲーションアルゴリズムによって設定されるいくつかの伝達関数が利用可能である。最も一般的なものは、以下の式で与えられるシグモイド関数である。 本質的に、隠れ層および出力層におけるノードに適用されるこれらの等式によって、これらのANNは、シグモイド関数を用いて多重多変量非線形回帰を行うことができ、それぞれの層内部のノードの並列プロセシングのために、これらのANNは、多変量非線形関数の学習能を有する。 重みを最適な値の組に適合させるプロセスは、ニューラルネットワークの訓練と呼ばれる。ニューラルネットワークを訓練するために、いくつかの訓練アルゴリズムが存在する。そのような関数の例は、参照としてここにその全内容が本明細書に組み入れられる、Rumelhart, D.E.; Hinton, G.E.; Williams, R.J.; Learning internal representations by error propagation, Parallel Disturbuted Processing: Explorations in the Microstructures of Cognition, Vol. 1: Foundations, Rumelhart, D.E.; McClelland, J.L.; (eds.)、MIT Press, Cambridge, MA, USA, pp. 318-362, 1986に詳述されている。これらの実験に関して選択されたバックプロパゲーションアルゴリズムは一例であるが、本発明は、本例に如何なるようにも限定されないと見なされるべきである。 多数のLC-MSデータセットの比較を可能にするため、データの正規化が必要であった。正規化のために2つのアプローチを試験した。一つは内部標準として5つの標準ペプチドを用い、次いで線形回帰を用いることにより各ランを正規化した。用いたのは以下の5つの標準ペプチドである。第二の方法は異なるLCのランを正規化するために、開発された予測能を用いた。このアプローチにおいては、同定されたペプチド全てを内部標準として用い、それらの予測保持時間をスキャン数に対してプロットする。次いで線形回帰を用いてランごとに正規化を行う。2つの方法を比較し比較可能であることが判明した。本研究では二番目の方法を用いた。 1627817個のうち532448個が5169 LC-MS-MS分析から同定されたように異なっていた、1627817個のペプチドを正規化して共通の時間表を確立し、それにより異なる分離において同一のペプチドが同一の正規化溶出時間(NET)で溶出した。多重線形回帰のこの最適化スキームにより、ペプチドの溶出時間が共通の範囲、1と0の間に正規化された。 2002年12月18日出願の米国特許出願第10/323,387号において、デイノコッカス(Deinococcus)ペプチドが訓練セットに用いられ、シェワネラ(Shewanella)ペプチドのごく一部が試験に用いられた。本明細書において記述した実験において、13の異なる種由来のペプチド同定を、表1に示すように、本発明のこの態様の訓練および試験に用いた。 (表1)本発明の一つの態様の人工ニューラルネットワークの訓練および試験のために、どのペプチド同定を選択するか決定するために用いた選別基準。 同定の精度に高い信頼度が存在したペプチドのみを保持するため、ペプチドを表2に示した基準に従って選別した。RPLC/ESIイオントラップ型MSにより同定された532448個の非還元体ペプチドのうち、97835個の異なるペプチドが表2の基準を通った。それらのうち90回未満観察されたペプチド、全部で96722個のペプチドを訓練セットとして用いた一方、異なるLC-MSのランにおいて90回またはそれ以上観察されたペプチド、全部で1113個のペプチドを本発明のこの態様の精度を試験するために用いた。 (表2)ペプチドが同定された元の種、各種から同定された還元体および非還元体ペプチドの数、ならびに表1の基準を用いた選別後の各種に由来する、用いた異なるペプチドの数を示す。 これらの実験はペプチドの構造情報および他の分析物記述子を組み入れることにより改善した予測変数の精度を示した。表3にはこの態様で用いられた構造記述子、およびそれらが予測を改善したか否かがまとめられている。ペプチド配列、疎水性モーメント、および長さは、それらの組み入れ後に予測精度を増加させた。長さは精度を包括的には改善しなかったが、より長いペプチドの予測精度を改善するようであった。他の記述子は、ペプチドの保持時間に通常は影響を及ぼすはずであるが、これらの実験におけるANNモデルの予測精度を改善しなかった。しかしながら、これらの記述子の大部分はそれら自体が予測であったこと、およびより正確な予測は異なる結果を生じると考えられることに留意しなくてはならない。 (表3)調べたペプチド記述子を示す。 各ペプチドの配列を人工ニューラルネットワークモデルを用いることにより定義した。ペプチド中の各アミノ酸残基の位置を20次元のベクトルにより定義することができる。どの程度までペプチド配列を定義することが可能なのか調べ、かつモデルの予測精度を増加させるため異なる設定を試験した。表4に結果がまとめられている。表に示されているように、このデータセットについては、ペプチドの最初の8個および最後の8個のアミノ酸残基が定義された場合に最良の予測精度が得られた。これは342個の入力ベクトル(ペプチド配列について320個、ペプチドの中央部にあるアミノ酸残基について20個、疎水性モーメントについて1個、およびペプチド長について1個)に対応する。図1はこのANNアーキテクチャを図示している。16アミノ酸残基より長いペプチドについては、残りのアミノ酸残基を、ペプチドの中央部のアミノ酸組成を構成する20種のアミノ酸残基それぞれの正規化された数からなる20次元のベクトルとしてコード化した。最適な隠れノードの数もまた調べ、6個が最適な隠れノード数であることを見いだした。 ここで、ペプチド全体の構造を定義する場合により良好な精度が得られない唯一の理由は訓練セットが十分に大きくないためであることに留意しなくてはならない。最終的には、図2に示すように、1000個の入力を有するニューラルネットワークが、最大50アミノ酸残基のペプチドの保持時間を正確に予測するのに最適となると考えられる。 (表4)人工ニューラルネットワークモデル:配列情報、疎水性モーメント、およびペプチドの長さで実行する際のペプチドの保持時間予測の改善を示す。先頭/末端の列は各ペプチドの最初および末端において定義されるアミノ酸残基の数を示す。 342-6-1 ANNアーキテクチャをまた、先行方法の20-6-1 ANNアーキテクチャ、および参照としてその全内容が本明細書に組み入れられる、Meek, J. L. Proc. Natl. Acad. Sci. U.S.A. 1980, 77, 1632-1636に記述される保持係数に基づいた以前のペプチド保持時間予測モデルとも比較した。全ての事例に同一の訓練データおよび試験データを用い、図3〜図5に結果がまとめられている。図に示されているように、本発明のこの態様は相関係数が約0.96のより一層良好な予測を提供する。図6〜図8はペプチドの割合%に関する正規化された溶出時間予測誤差を示す。50%のペプチドを±6.8%以内および95%のペプチドを±1.5%以内に予測した本発明のこの態様は、先行方法よりはるかに優れている。 本発明のもう一つの長所は、等重のペプチドに加えて異性体ペプチドの保持時間を正確に予測できることである。例えば、異性体ペプチドのLGAGAK (SEQ ID No. 6) (観察NET=0.12、予測NET=0.16)およびGGLAAK (SEQ ID No. 7) (観察NET=0.19、予測NET=0.19)は正確な質量測定で区別できないが、それらをLCにより分離し本発明の方法がそれらの溶出時間を正確に予測できることで、一方をもう一方から区別することが可能である。全ての以前のモデルはそのようなペプチドの保持時間を予測できない。終結 本発明の好ましい態様を示し、記述してきたが、より広い局面において本発明から逸脱することなく、多くの変更および改変を行ってもよいことは当業者には明らかであると考えられる。したがって、添付の特許請求の範囲は、本発明の真の趣旨および範囲に入ることから、そのような全ての変更および改変を包含することが意図される。342個の入力ノード、6個の隠れノード、および1個の出力ノード(342-6-1)を示す、本発明で利用された人工ニューラルネットワークアーキテクチャの第一の好ましい態様の概略図である。本発明で利用された人工ニューラルネットワークアーキテクチャの第二の好ましい態様の概略図であり、ここで各ペプチド中の全てのアミノ酸残基の全ての位置が指定されていることが示されている。図に示すように、このアーキテクチャは1000個の入力ノードを含み、隠れノードは未だ指定されておらず、かつ1個の出力ノードを含む。参照としてその全内容が本明細書に組み入れられる、Meek, J. L. Proc. Natl. Acad. Sci. U.S.A. 1980, 77, 1632-1636により以前に発表されたペプチド溶出時間予測モデルの予測対観察正規化溶出時間の相関を示す図である。2002年12月18日出願の米国特許出願第10/323,387号に記述された方法を用いて得られた、予測対観察正規化溶出時間の相関を示す図である。342個の入力ノード、6個の隠れノード、および1個の出力ノード(342-6-1)のANNアーキテクチャを有する本発明の好ましい態様を利用して得られた、予測対観察正規化溶出時間の相関を示す図である。Meek, J. L. Proc. Natl. Acad. Sci. U.S.A. 1980, 77, 1632-1636として以前に発表されたペプチド溶出時間予測モデルの予測誤差分布を示す図である。図に示すように、95%のペプチドが±12.2%以内に溶出され、50%のペプチドが±3.27%以内に溶出される。2002年12月18日出願の米国特許出願第10/323,387号に記述された方法の予測誤差分布を示す図である。図に示すように、95%のペプチドが±11.15%以内に溶出され、50%のペプチドが±2.56%以内に溶出される。342個の入力ノード、6個の隠れノード、および1個の出力ノード(342-6-1)のANNアーキテクチャを有する本発明の好ましい態様を利用した予測誤差分布を示す図である。図に示すように、95%のペプチドが±6.8%以内に溶出され、50%のペプチドが±1.5%以内に溶出される。 以下の段階を含む、液体分離において化学的に関連する化合物の溶出時間を予測するための方法:a.既知のペプチドの既知の溶出時間のデータセットを提供する段階;b.それぞれのベクトルが複数の次元を有し、それぞれの次元が該既知のペプチドのそれぞれに存在する、少なくとも一部のアミノ酸の位置および正体を表す、複数のベクトルを作製する段階;c.少なくとも一つの仮説的ペプチドに関して次元値を割り当てることによって、仮説的ベクトルを作製する段階;およびd.該仮説的ペプチドを該複数のベクトルに適合させる少なくとも一回の多変量回帰を行うことによって、該仮説的ベクトルについての予測溶出時間を計算する段階。 複数のベクトルが、複数の次元を有するベクトルをさらに含み、それぞれのベクトルの次元が、位置および正体を表す次元を有する該ベクトルにより表されていない既知のペプチドのそれぞれに存在する残りのアミノ酸を表している、請求項1記載の方法。 複数のベクトルが、ペプチドの物理的特性を記述するベクトルをさらに含む、請求項2記載の方法。 物理的特性が、ペプチド長、最近接効果、疎水性モーメント、疎水性、ペプチド質量、分子体積、類似の配列順(quasi sequence order)、二次構造、およびそれらの組み合わせからなる群より選択される、請求項3記載の方法。 複数のベクトルが、ペプチドの物理的特性を記述するベクトルをさらに含む、請求項1記載の方法。 物理的特性が、ペプチド長、最近接効果、疎水性モーメント、疎水性、ペプチド質量、分子体積、類似の配列順、二次構造、およびそれらの組み合わせからなる群より選択される、請求項5記載の方法。 複数のベクトルを作製する前に既知の溶出時間を正規化するさらなる段階を含む、請求項1記載の方法。 多変量回帰が人工ニューラルネットワークを用いて行われる、請求項1記載の方法。 人工ニューラルネットワークが、最急降下アルゴリズムおよび共役勾配アルゴリズムからなる群より選択される方法によって訓練される、請求項6記載の方法。 人工ニューラルネットワークがバックプロパゲーションアルゴリズムおよびクイックプロップ(quickprop)アルゴリズムからなる群より選択される最急降下アルゴリズムによって訓練される、請求項7記載の方法。 正規化が多重回帰を用いて関数を最適化することによって行われる、請求項5記載の方法。 多重回帰が遺伝的アルゴリズムを用いて計算される、請求項9記載の方法。 関数が線形関数および非線形関数からなる群より選択される、請求項9記載の方法。 液体分離が、順相および逆相の両方の液体クロマトグラフィー、電気泳動分離、キャピラリー電気泳動;流動分画法(field flow fractionation)、およびそれらの組み合わせからなる群より選択される方法によって行われる、請求項1記載の方法。 第一に既知のペプチドの既知の溶出時間のデータセットを提供する段階、次にそれぞれのベクトルが複数の次元を有し、それぞれの次元が既知のペプチドに存在する少なくとも一部のアミノ酸に関する位置情報を表す、複数のベクトルを作製する段階による、クロマトグラフィー分離および電気泳動分離におけるペプチドの溶出時間を予測するための方法。次に、少なくとも一つの仮説的ペプチドに対し次元値を割り当てることにより仮説的ベクトルが作製され、仮説的ベクトルについての予測溶出時間が、複数のベクトルに仮説的ペプチドを適合させる少なくとも一回の多変量回帰を行うことにより作製される。好ましくは、多変量回帰は人工ニューラルネットワークの使用により達成され、溶出時間は線形回帰を用いて最初に正規化される。 配列表