it - 関西学院大学tohhiro/bioinfo18/...blast random...

76
バイオインフォマティクス 3博幸 バイオインフォマティクス 3博幸 BIO IT

Upload: others

Post on 27-Mar-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

バイオインフォマティクス第3回

藤 博幸

バイオインフォマティクス第3回

藤 博幸

BIO

IT

Page 2: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

本日の講義内容

1.BLASTの原理2.データベース検索による予測の補足3.mafftのオプション4.その他

Page 3: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

本日の講義内容

1.BLASTの原理2.データベース検索による予測の補足3.mafftのオプション4.その他

Page 4: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

BLAST(BasicLocalAlignmentSearchTool)

Page 5: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1
Page 6: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

(1)問い合わせ配列のwordへの分割

Page 7: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

(2)生成されたwordの有限オートマトンによる表現

100101 100

Page 8: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

(3)wordのヒットの部分からのギャップなしの拡張

Page 9: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

BLASTgapなしのアラインメント

アラインメントスコア y

問い合せ配列の断片

配列データベース

E-value: 配列データベースの配列を、問い合せ配列と比較した時にy以上のスコアを有する類似性を示す配列の本数の期待値

P-value: 配列データベースの配列を、問い合せ配列と比較した時にy以上のスコアを有する類似性が見いだされる確率

いずれも小さい方が良い。E-valueが目安として使われることが多い。

Page 10: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

E-value, P-valueの計算

S Y V T G P M N RT W Q T S K I I Y

0-1

BLASTrandomwalk0から出発し、ungappedalignemntの各サイトのアミノ酸対に対応するスコアを考え、それを加算していく。加算した結果が-1以下になったらrandomwalkは停止するものとする。

この時各サイトのアミノ酸対の出現頻度は、比較する2本の配列におけるアミノ酸の出現頻度の積で表されるものとする (BLASTの帰無仮説)。

(1) BLAST random walkの停止するまでに表れる最大値Y(↓)がy以上である確率はgeometric-like distribution となる。Prob(Y > y) ~ C exp(- λy)

(2) 問い合わせ配列の長さをN1, データベースから取り出した配列の長さをN2、BLAST random walkが停止するまでの平均のステップ数をAとする。すると、二つの配列を比較する際、n = (N1N2 )/A個程度のrandom walkが生じる。n個のrandom walkのいづれにおいても得られた最高スコアがy以上である確率は、順位統計に従い以下のように計算される。Prob(Y > y) = 1 - (1 - Cexp(-λ (y-1)))n = 1 - (1 - Cnexp(-λ (y -1))/n) n

= 1 - exp(-Cnexp(-λ (y -1))) = 1 - exp(-N1N2 Kexp (-λy ))

. .

Page 11: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

ここで K = (C/A) exp(-λ)である。

(3) (2) で2本の配列を比較した時にy以上のスコアが得られる確率が計算された。次に、データベース中でy以上のスコアを有する配列の本数の期待値を求める。データベース中の配列のトータルの残基数をDとすると、長さのN2 配列がD / N2本含まれていると見なす事ができる。そのそれぞれが、確率1 - exp(-N1N2 Kexp (-λy ))でy以上のスコアを有するので、二項分布を考えE-value = ((1 - exp(-N1N2 Kexp (-λy )) D) / N2となる。

(4) 上記のy以上のスコアを有する配列の本数に関する二項分布は、E-valueを平均と分散としたポアソン分布で近似できるものとする。すると、y以上のスコアが得られる確率は、そのようなスコアを有する配列の本数が0本である確率を1から引くことで得られるので、P-value = 1 - exp(-E-value)として計算される。

※ 実際はedge effectに関する補正など、種々の補正が行われるので、必ずしも上の通りの計算ではない。また、複数のアラインメントについては、Karlin-Altschulのsum statisticが利用される。

Page 12: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

より詳しくは添付の参考資料参照

オリジナルのBLASTはgapを扱えない検出配列はgapが入らない代わりに、断片化されてしまい出力が見づらい

Gapを導入できるように拡張されたgappedBASTが構築された

Page 13: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

1)gapped-BLASTの手続き

Step 1: 有限オートマトン生成まではBLASTに同じStep 2: データベース中の各配列に次の操作を行う

2-1) 有限オートマトンによるhitを検出(これもBLASTに同じ)

2-2) 同じ対角線上で十分近接した2個のhitからungapped extensionによりHSPを求め、そこからseedを決定して両側にgapped extension を行う。

2-3) 有意性評価(E-value)をして出力

Page 14: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

Two-Hits Strategy と Gapped Extension

(1) Two-hit induced ungapped extensionによるHSPの検出(1-1) hit検出(1-2) second hit (C末側で、距離がA残基以内の同じ対角線上)検出(1-3) second hitからungapped extensionによりHSP検出

(2) seedとなる残基対の同定(2-1) HSPが11残基対以上の時: HSP にそって11残基のセグメントのスコア を計算し、最大値を示すセグメントの中間をseedとする。

(2-2) HSPが11残基より短い時:中間の残基対をseedとする。

(3) gapped extension seedより両側に動的計画法によりgapped extensionを実行ただし、この時の動的計画法は、現在見ている残基対のスコアが、それ以前に達成された最高スコアからXg以下にならないように実行される。これは、ungapped extensionが、それ以前に達成された最高スコアからX以下にならないように実行されることに対応している。

Page 15: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

Two-HitsStrategy 1

BLASTの各hitごとのungappedextensionは時間を要するので、その部分を短縮

同じ対角線上にある二つのhitとはFASTAでいう所の同じオフセット値を有するタプルに相当する。

Page 16: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

Two-HitsStrategy 2

SecondhitからBLAST同様にungapped extensionを行い、HSPを求める

HSPが11残基以下の長さの時その中点の残基対をseedとする。

HSPが11残基対より長い時11残基対のウィンドウでスキャンし、最大スコアを示す領域を見つけその中点の残基対をseedとする。

Page 17: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

Two-HitsStrategy 3

Seedとなる残基対

ここを出発点として両側にgappedextensionしてアラインメントを構築する。

Page 18: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

gappedextension

Seedとなる残基対

seedより両側に動的計画法によりgapped extensionを実行

ただし、この時の動的計画法は、Smith & Waterman法ではない。

現在見ている残基対のスコアが、それ以前に達成された最高スコアからXg以下にならないように実行される。

これは、ungapped extensionが、それ以前に達成された最高スコアからX以下にならないように実行されることに対応している。

Page 19: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

BLASTの統計評価 PSI-BLASTの統計評価

gapなしのアラインメント(HSP) gapのあるアラインメントのスコア のスコア

分布関数は理論的に導かれている BLASTの評価法をもとにシミュレーションなどにより

パラメータをフィットさせて使用

実用上は問題ないが、理論的にはgapのあるアラインメントの統計理論は不十分なものである。

Page 20: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

データベース検索

問い合わせ配列

配列DB

問い合わせ配列に類似した配列を配列DBの中から検索

類似配列の中で、構造や機能既知のものがあれば、それらと同様の構造あるいは機能を有するものと推測

配列A

配列B(機能既知)

配列C

配列D(構造既知)

Page 21: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

血小板由来成長因子(PDGF)

の配列決定

1. 発癌遺伝子 v-sis

配列データベース

SimianSarcomaVirus

v-sis gene

サル肉腫ウイルス

v-sis は、成長因子としての情報を送り続けることで癌化を引き起こす。

Page 22: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

Secondarymessenger

GPCRs

Coupling withtrimeric G-protein

PeptidesAminesNucleic acids

α β

γ

G-proteinactivation

Conformationchange

Monomer function

Page 23: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

GPCRs

• Membrane proteins• Bind neurotransmitters (physiologicallyactive peptides, amines, nucleic acids, etc).

• Ligand binding to GPCRs causes theirconformation changes.

• It leads to several signal transductionsconjugated with trimeric G-proteins.

Page 24: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

GPCRs

• About1000genesinhumangenome• Targetfor~45%ofclinicallymarketeddrugs• Dividedinto5classesbasedonsequence similarity(ClassA-E,theother)

• AtomicallyresolvedstructureinclassAGPCR:BovineRhodopsin

Page 25: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

既知のGPCRの配列

新規のGPCRの配列

既知のGPCRの配列

ゲノムにコードされているタンパク質との類似性を検索

創薬ターゲットとしての検討

ヒト・ゲノム

データベース

実例編

Page 26: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

GPCR以外のターゲット探索の例

中外製薬(株)

中外分子医学研究所

ドラッグデザインのターゲットとしての

新規サイトカイン及び新規サイトカイン受容体

のゲノム配列、EST配列からの探索

「ゲノム創薬」 個別化医療とゲノムデータマイニング野村仁 著 サイエンス社 (2005)

Page 27: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

本日の講義内容

1.BLASTの原理2.データベース検索による予測の補足3.mafftのオプション4.その他

Page 28: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

(1) 類縁蛋白質の立体構造は保存される

ホモロジー・モデリングの根拠

進化的な関係が遠いもの(配列一致度が小さいもの)では、・二次構造の数や長さが大きく異なること・二次構造の相対的な配向や局所的なトポロジーは

異なることが多い。

相同な蛋白質では基本的なトポロジーは保存されている。SCOPやCATH (構造分類データベース)におけるFamily, Superfamilyの分類の基準

Page 29: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

Δ=0.40 exp(1.87H)Δ:common core 主鎖の重ねあわせのRMSDH:配列の相違度

Hが小さい時:表面のみの変化Hが大きい時:表面と内部の変化

内部の変化は表面に比べ大きな構造変化をもたらす

Page 30: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

アミノ酸配列では類似性が検出できないほどアミノ酸置換が蓄積された遠い進化的関係にあるタンパク質でも、立体構造は保存されている場合が多い

分子進化の経験則 (例外もある)

Page 31: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

立体構造未知のアミノ酸配列

立体構造既知の蛋白質

配列類似性

Homology Modeling

Page 32: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

(2) 相同タンパク質の機能(生化学的機能)は基本的に保存される。

Page 33: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

Thornton JM et al. (1999) J. Mol. Biol. 293, 333-342.

Page 34: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

シングル・ドメインとマルチドメインに分類し、酵素活性の保存を調査

シングル・ドメインの酵素の場合:○ 配列一致度が40%以上:EC番号の最初の3つはほぼ完全に保存

EC番号の4番目の数字が変わっていることも稀○配列一致度が30%レベル:EC番号の最初の3つは95%保存○ 配列一致度が30%以下:EC番号の保存はきわめて悪くなる。

シングル・ドメインとマルチドメインの両方のタンパク質を含む場合:○ 配列一致度40%以上:EC番号の保存はシングル・ドメインのケースと同様○ 配列一致度が30%レベル:EC番号の最初の3つは90%保存

どちらの解析においても:配列一致度30%以下では、酵素/非酵素のペアが多く観察された。

Page 35: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

本日の講義内容

1.BLASTの原理2.データベース検索による予測の補足3.mafftのオプション4.その他

Page 36: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

MAFFTによるマルチプルアラインメント

mafftは宮田研究室で開発され、加藤和貴によって継続的に開発されているマルチプルアラインメントのフリーソフトウェア

海外の多くの研究機関で利用されている。

Web上でのアラインメントサービスに加え、ダウンロードして自身のPC上で利用できる。Mac,Windows,Linuxなど様々なOSに対応している

ここでは、既に関西学院大学の計算システム(Windows環境)にインストールされているmafftを利用する。

Page 37: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

Mafftを起動する

1左下 スタート をクリック

Page 38: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1
Page 39: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

2.検索ウィンドウにmafftと入力上部にmafftのインストール場所が表示される。このmafftのアイコンをクリック

Page 40: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

1.このウィンドウにmafftと入力

2.表示されたmafftをクリック

Page 41: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

3.mafftの入力画面がたちあがる。

Page 42: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

Input file? (fasta format)@ ここに入力ファイルを記入(次のようにする)

Page 43: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

4.入力ファイルを指定するために、multi-fasta formatのファイルが置かれたDirectoryを表示する。(ここからはWindowsOS上での処理)左下のスタートをクリックし、出て来たパネル左上のドキュメントを選択

Page 44: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

ドキュメントを選択

ファイルがドキュメントフォルダにある場合

Page 45: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

5.ドキュメントdirectoryが表示される。Directoryからmafftのウィンドウにファイルをドラッグすると、ファイル名が入力される。ファイル名が入力されたらenterキーをおす。

Page 46: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

Fasta formatの入力ファイルのアイコンをmafftの入力画面にドラッグする

Page 47: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

6.Outputすなわち、アラインメントを出力するファイル名を聞かれる、入力ファイル名を参考にZドライブ上のファイル(新規でも既存の者でも良い)を指定しEnterキーをおす。出力オプションを聞いてくるので2を指定する。Clustal形式/Fasta形式 SortedOrder/InputOrder説明はアラインメントを見ながら

Page 48: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

1. 入力ファイルがZ:¥ファイル名の形で記入される

エンターキーをおす

2. Output file?@

とアラインメントの出力ファイルを聞いてくるのでZ:¥ファイル名としてドキュメントフォルダのファイル名を持つファイルに保存するようにしてエンターキーをおす

3.6つのアウトプット形式が出力される

Page 49: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

6つ出力形式

1 Clustal format/ Sorted2 Clustal format / Input order3 Fasta format / Sorted4 Fasta format / Input Order5 Phylip format / Sorted6 Phylip format / Input Order

Clustal と Fastaは説明済みPhylipは系統解析の際に説明

Page 50: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

Sortedと InputOrder

入力ファイル fasta format>配列1atgccttgcccaccgctg…>配列2atgggttgggcacccctg…>配列3atgcgttggccaccgctg…>配列4atgccctggcccccgctc…

Guide-treeは次のようになっているとする

配列1配列4配列2 配列3

Sorted

InputOrder

配列1 ATGCCTTGCC配列4 ATGCCCTGGC配列2 ATGGGTTGG配列3 ATGCGTTGGCA

配列1 ATGCCTTGCC配列2 ATGGGTTGG配列3 ATGCGTTGGCA配列4 ATGCCCTGGC

Page 51: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

7.アラインメントのオプションを聞いてくる。1の—autoオプションを指定してenterautoオプション 小規模データ丁寧に、大規模データそれなりにアライン

Page 52: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

アラインメントのオプションを聞いてくる(正確さ優先か、速度優先か)。1の—autoオプションを指定してenterautoオプション 小規模データ丁寧に、大規模データそれなりにアライン

Page 53: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

t7

8.指定したファイルやオプションを、コマンドライン形式で確認してくる問題なければ Yを入力してenter

Page 54: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

(前ページのウィンドウを拡大)

Page 55: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

9.ウィンドウ中に、出力が表示(END)が表示された時点で、出力ファイルに書き込まれている。

Page 56: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

(前ページのウィンドウを拡大)

Page 57: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

本日の講義内容

1.BLASTの原理2.データベース検索による予測の補足3.mafftのオプション4.その他

Page 58: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

スコア・テーブル PAM250 アミノ酸の置換頻度から構築GASTPLIMVDNEQFYWKRHC

G5A12S112T0113P-11106L-4-2-3-2-36I-3-1-10-225M-3-1-2-1-2426V-10-10-12424D1000-1-4-2-3-24N0010-1-3-2-2-222E0000-1-3-2-2-2314Q-10-1-10-2-2-1-22124F-5-4-3-3-5210-1-6-4-5-59Y-5-3-3-3-5-1-1-2-2-4-2-4-4710W-7-6-2-5-6-2-5-4-6-7-4-7-50017K-2-100-1-3-20-20101-5-4-35R-3-20-10-3-20-2-10-11-4-4236H-2-1-1-10-2-2-2-21213-20-3026C-3-20-2-3-6-2-5-2-5-4-5-5-40-8-5-4-312

(1) G,A,S, T, P: small hydrophilic residues(2) L, I, M, V: hydrophobic residues(3) D, N, E, Q: nagatively charged residues and the relatives(4) F, Y, W: aromatic residues(5) K, R, H: positively charged residues(6) C: Cys

大きな数字置換しやすい

小さい数字置換しにくい

Page 59: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

アスパラギン酸 グルタミン酸 システイン チロシン

リジン アルギニン ヒスチジン

セリン

スレオニン

アスパラギン

グルタミン

グリシン アラニン バリン ロイシン イソロイシン

メチオニン プロリン フェニルアラニン トリプトファン

アミノ酸は”大文字”で表記する

アミノ酸

C

H

HN

H

R

OH

O

C

側鎖

カルボキシル基アミノ基

基本構造

主鎖

Arg (R)

Glu (E)Asp (D)

Thr (T)

Cys (C) Ser (S)

Lys (K)

Met (M)

His (H)

Phe (F)Pro (P) Trp (W)

Ala (A)Gly (G) Leu (L) Ile (I)Val (V)

Tyr (Y)

Gln (Q)

Asn (N)

親水性アミノ酸

解離性アミノ酸

疎水性アミノ酸

Page 60: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

GASTPG5A12S112T0113P-11106

Page 61: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

GASTPL-4-2-3-2-3I-3-1-10-2M-3-1-2-1-2V-10-10-1

Page 62: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

GASTPD1000-1N0010-1E0000-1Q-10-1-10

Page 63: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

GASTPF-5-4-3-3-5Y-5-3-3-3-5W-7-6-2-5-6

Page 64: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

GASTPK-2-100-1R-3-20-10H-2-1-1-10

GASTPC-3-20-2-3

Page 65: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

LIMVL6I 25M426V 2424

Page 66: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

LIMVD -4-2-3-2N -3-2-2-2E-3-2-2-2Q-2-2-1-2

Page 67: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

LIMVF 210-1Y-1-1-2-2W-2-5-4-6

Page 68: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

LIMVK-3-20-2R-3-20-2H-2-2-2-2

LIMVC-6-2-5-2

Page 69: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

DNEQD4N22E314Q 2124

Page 70: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

DNEQF-6-4-5-5Y-4-2-4-4W-7-4-7-5

Page 71: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

DNEQK0101R-10-11H1213

DNEQC-5-4-5-5

Page 72: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

FYWF9Y710W0017

Page 73: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

FYWK-5-4-3R-4-42H-20-3

FYWC-40-8

Page 74: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

KRHK5R36H026

KRHC -5-4-3

CC12

Page 75: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

塩基配列の場合のスコア

BLASTの場合は、塩基が一致する時は 1

不一致の時は -3がデフォルト

A T G CA 1 -3 -3 -3T -3 1 -3 -3G -3 -3 1 -3C -3 -3 -3 1

Page 76: IT - 関西学院大学tohhiro/bioinfo18/...BLAST random walkが停止するまでの平均のステップ数をAとする。すると、 二つの配列を比較する際、n= (N1

点数 (4)100-90 (3)89-80 (2)79-70 (1)69-60

達成目標 (3)に加え、mafftのオ

プション、スコアマトリクスについて説明できる

(2)に加え、

何故構図や機能の予測にデータベース検索が有効かを説明できる。

(1)に加え、

データベース検索の意味を具体例を挙げて説明できる

BLASTの処

理を説明できる