ゲノム解析の手順


※ごめん、まだ編集中。文章がわかりにくい

ゲノム配列、unigene,ESTなどの配列のセットから自分の調べたい配列のみを選んで取ってくる手順

1 似たものを探す

既知の配列をクエリーにして、配列のセットに対してtblast nを行い、相同性の高い配列を得る。
このとき、”Evalueが一定値(10の-10乗とか)以下”、などの基準を設け、配列のセットの中からクエリー配列に似た配列のみを集める。

2 目的以外の遺伝子をふるい落とす

tblast nによる相同性検索だけでは、得たい遺伝子に似た配列を持つが、実際には得たい遺伝子とは異なる遺伝子が含まれている可能性がある。従ってこれらをふるい落とす手順が必要になる。
1で得られた”クエリー配列に相同性を持つ配列のセット”に対して、1つ1つblast Pでデータベース上に登録されている全ての遺伝子に対して検索を行い、目的の遺伝子と同じ機能を持つかどうかを確かめる。

具体的にはblast P検索でベストヒットしてくるものが、目的の遺伝子を同じ機能を持つかどうかを確かめる。

3 目的に応じてデータセットを作り直す

このようにして得られた遺伝子配列の長さや構造がtblast nでクエリーに用いた配列と全く同じとは限らない。
実際には得られた遺伝子の一部のみがクエリー配列と相同性を持つ事も考えられる。従って、相同性検索によって得られた情報をもとに、それぞれの遺伝子について実際に解析に用いたい領域(例:全長)を得る。

全ゲノム配列がわかっているものは、tblast nによって実際にヒットした遺伝子がゲノム上のどこにあるかがわかる。従って周りの配列もわかる。この情報から得たい領域を調べて切り出し、実際に解析に用いるデータのセットを作る

4 ドメイン構造を推定する

pfamデータベースにある各ドメインのseed配列をもとに、1〜3の手順で作成したデータセットに対してHMMによりドメイン構造の推定を行う。
最終更新:2008年01月26日 20:10