シーケンスアラインメント

バイオインフォマティクスにおいて、DNAやRNA、タンパク質の配列の類似した領域を特定できるように並べること、またその結果の配列

これはこのページの過去の版です。Luckas-bot (会話 | 投稿記録) による 2010年3月23日 (火) 05:54個人設定で未設定ならUTC)時点の版 (ロボットによる 追加: ru:Выравнивание последовательностей)であり、現在の版とは大きく異なる場合があります。

バイオインフォマティクスにおいて、シーケンスアラインメントとは、DNA, RNA, タンパク質一次配列 一次構造の類似した領域を特定できるように並ぶように並べたもので、機能的、構造的、あるいは進化的な配列の関係性を知る手がかりを与える。 アラインメントされたヌクレオタイド残基やアミノ酸残基の配列は、典型的には行列の行として表現され、同一あるいは類似性質の配列が同じ列に並ぶようギャップが挿入される。


A sequence alignment, produced by ClustalW between two human zinc finger proteins identified by GenBank accession number. (Key)

アラインメントの二配列が祖先を共有する場合、分岐後の一方または両方の系統において、不一致部分は点変異が、ギャップ部分はインデル(indel=挿入欠失; 挿入変異または欠失変異)が生じたものと解釈される。タンパク質の配列アラインメントでは、特定位置におけるアミノ酸の類似度は特定領域、あるいは配列モチーフが系統間でどのくらい保存されているかを示す大まかな目安と解釈できる。置換がないか、保守的置換(類似の生化学的特性を持った側鎖との置換)しかないとき、その領域は構造的、あるいは機能的に重要であると示唆される。DNAとRNAの塩基は、アミノ酸の場合よりも互いに類似しているものの、塩基対の保存は、構造的、機能的重要性を示唆している。シーケンスアラインメントは、自然言語や金融データなどの非生物配列にも用いられる。

表現

アラインメントはグラフィカルで表現されることも、テキストフォーマットでも表現されることもある。多くのシーケンスアラインメント表現において、各配列は類似残基が同列にならぶように並べられる。


グローバルアラインメントとローカルアラインメント

 
Illustration of global and local alignments demonstrating the 'gappy' quality of global alignments that can occur if sequences are insufficiently similar

グローバルアラインメントとは配列中の全残基がアラインメントされるようにしたもので、ほぼ同じ長さの配列間での比較に有効である。 ローカルアラインメントは、配列が全体としては似ておらず、部分的類似を見つけたい場合に有効である。

ペアワイズアラインメント

ペアワイズシーケンスアラインメントは、2配列間でのアラインメントで、部分的、あるいは全体の類似性を詳しく調べるときに用いる。

ドットマトリクス法

 
A DNA dot plot of a human zinc finger transcription factor (GenBank ID NM_002383), showing regional self-similarity. The main diagonal represents the sequence's alignment with itself; lines off the main diagonal represent similar or repetitive patterns within the sequence. This is a typical example of a recurrence plot.

ダイナミックプログラミング

ダイナミックプログラミングは、Template:Link FAによるグローバルアラインメント、あるいは によるアラインメント作成に用いられる。

ワード法

ワード法は、k-tuple法としても知られる発見的方法で、最適アラインメントが見つかることを保証しないが、ダイナミックプログラミングよりも遙かに効率が良い。このため、大規模なデータベース検索に多く用いられる。この方法には、FASTABLASTが含まれる。


マルチプルシーケンスアラインメント

 
Alignment of 27 avian influenza hemagglutinin protein sequences colored by residue conservation (top) and residue properties (bottom)

マルチプルシーケンスアラインメントはペアワイズアラインメントの拡張で、3配列以上を扱うもので、進化的に保存された配列の同定などに用いられる。


ダイナミックプログラミング

ダイナミックプログラミングは、理論的にはいくつのシーケンスに対しても適用可能である。しかし、n次の時間とメモリ空間を要するため、3配列以上の場合にはそのまま適用されることはほとんどない。

プログレッシブ法、階層法、ツリー法

プログレッシブ法、階層法、ツリー法は、最も似ている配列同士を最初にアラインメントし、順次配列を加えてゆくことによってマルチプルアラインメントを構成する方法で、Clustalの多くの版や、T-Coffeeなどがある。

繰り返し法

繰り返し法は、プログレッシブ法の弱点を補うための方法で、繰り返し最適化を行う。


Structural alignment

構造アラインメントは、通常タンパク質の二次構造と三次構造の情報を用いて、配列アラインメントを構築するものだが、RNAに用いられることもある。

Template:Link FA