生命情報の大規模コンピュータ解析（バイオインフォマ …tkl.pc.uec.ac.jp/images/class2014/bio10.pdf第10週 1 今日の内容 •1. バイオインフォマティックス概要

生命情報の大規模コンピュータ解析（バイオインフォマティックス：

特にゲノミクスとプロテオミクスを中心に）先進理工学科生体機能システムコース化学生物学研究室

准教授瀧真清

第10週

1

今日の内容

• 1. バイオインフォマティックス概要

• 2. 生体分子の大規模解析2-1. ゲノミクス(DNA)2-2. プロテオミクス(蛋白質)

• 3. 得られたデータの生物学への応用（システムバイオロジー）

• 4. おまけ：人工化合物の生理活性予測

2

バイオインフォマティックス概要• 生物学のための情報/計算機科学• 配列情報、構造情報、生物学的機能情報を整理し、それらの関係を分かりやすく抽出すること。生物地図を作ること。

• その地図を頼りに、生物学者は過去の進化の過程を解明したり、未来型の生体システムの良い制御法（医療など）を考えたりする。

• 医学、農学、工学など、何にでも役立つ。• PDB (Protein Data Bank)

UniProt (Universal Protein Resource)ExPASy↑中上級者はWebで見てみて（無料！）。

10年前：木を見て森を見ず（森は広すぎて見られず） → 森を見られる時代に！

①

3

蛋白質生物学におけるPCの重要性

• 蛋白質X線結晶構造解析：回折パターンは何十万、PCによる連続記録がなければ不可能。例：hemoglobinのDB検索と分子表示（pubmedデータベース（無料）にアクセスし、PDBデータ1c7d.pdbをダウンロードし、

フリーソフトRasMolで開く。）

• 発展途上の分子動力学シミュレーション：

近い将来蛋白質の構造や機能を予測できる？巻き戻り予測はスパコンがないと駄目？X線やNMR等のWetでの実験結果があれば、指針となり、大幅に計算を簡略化できる。 4

DNAに書き込まれたプログラムにしたがって蛋白質が作られます

DNA = プログラム蛋白質 = ナノマシン

ゲノミクスとプロテオミクス• ゲノム：遺伝子(gene)＋集団(ome)＝全遺伝子情報の集合体

• プロテオーム：タンパク質(protein)＋集団(ome)＝細胞内の全蛋白質

★ゲノムは単なる情報に過ぎず、そのままでは何の働きもしない。この情報に基づいて酵素やホルモン、その受容体、遺伝子の働きを調節する因子など様々な蛋白質がつくられてはじめて、細胞の生命活動に必要な機能(システム)が発揮できる。

★細胞の活動に必要な全蛋白質をひとまとめにして捉え、ある条件下での蛋白質の種類・量・修飾のされ具合を網羅的に解析することを、「プロテオミクス」と言う。

ゲノムプロテオーム

②

5

遺伝子の網羅的大規模解析

• 2003年：ヒトゲノムプロジェクト終了

→ ヒトの全DNA配列（30億種類）が読めた。（ヒトのプログラムを格納してあるハードディスクの0/1が12GB全て読めた。）

• 2005年頃～：次世代DNAシーケンサーの飛躍的な技術革新があり、フツーの人の全DNA配列（30億種類）が現実味を帯びてきた！

• 2013年：血液や唾液を送ると、皆さんの全DNA配列がわかる。ただし、30億個のDNAのアルファベット(ATGC)の内訳が分かるだけ。それが何を意味するのかは専門家による解析が必要。23andMe社が米国FDAから健康情報解析を規制され逆風も。

• 201X年：いろいろな人のDNA配列を読み比べ、データベースを構築することで、この人にはこの薬が有効で、この人には副作用が出る、といった、個人の体質に合わせた副作用の少ない医療（テーラーメード医療）ができるかもしれない。

遺伝子地図が作られる（遺伝子レベルで捕縛される）ことは、プライバシーの究極的な侵害や差別を引き起こすか？★遺伝子地図作製の是非（世論）：Yes = ４０％（利益が勝る）, No = ４６％（有害）

ゲノミクス：DNA情報を網羅的に、システマティックに扱う学問

まずはゲノムから・・・

6

Figure 8-50a Molecular Biology of the Cell (© Garland Science 2008)

汎用遺伝子シーケンサーの原理（ジデオキシ法）（DNA配列をどうやって決定するか？）

蛍光色素

7

DNAを構成するパーツ（A,T,G,Cの4種類）

DNAパーツもどきw/z蛍光色素（A,T,G,Cの4種類）

Figure 8-50b Molecular Biology of the Cell (© Garland Science 2008)

電気泳動で長さを見る：14番目はA（蛍光）と相補対をつくる「T」と決定。

8

フツーのDNAのパーツ蛍光性のDNAもどき分子

このDNAの配列を知りたい！

知りたい配列と相補的なDNAを合成

DNAもどきが、フツーのAの代わりに重合

Figure 8-50c Molecular Biology of the Cell (© Garland Science 2008)9

Aもどき Tもどき Cもどき Gもどき

別々の４つの試験管を使って、1) 知りたいDNA2) 4種類のDNAパーツ3) もどきのどれかを加えてDNAを合成（伸長）

4種類のDNAのパーツ（A,T,G,C)

次世代シーケンサーの台頭

• Speed!－とにかく速く、たくさん読む！• 修飾塩基（例：メチル化されたC ）をDNA そのものの形から直接検出する。

• 1分子のDNA を、増幅させずそのまま読む。• ゲノムの情報はもちろん，mRNA などその他の情報が超高速で超大量に日々蓄積されている。

【新たに生じた問題】• データが出ても解析できない→計算科学が重要！計算によって、mRNAの転写開始点や、どの蛋白質がどのDNA 配列と結合するかを調べる。

• ドライができる人の数が圧倒的に足りない。私感：ウェット（生物を材料とする）の研究者ひとりに，ひとりのドライ（情報を材料とする）の研究者がついていいくらい。

10

第二世代の原理

A,T,G,Cのどれか１つを

加える。伸長反応した時だけ、ピロリン酸が脱離する。

ピロリン酸を酵素触媒のもと、光情報に変換して検出する。

ピロリン酸

11

1. ピロリン酸を酵素でATPに変換2. できたATPをルシフェラーゼ酵素（本学では平野、牧先生がご専門）で検出

第4世代：Ion Proton™ Sequencer

半導体技術

次世代シーケンサーの開発が盛んな場所：シリコンバレー

脱離するピロリン酸ではなく、半導体を使って脱離する水素イオン（H+）を電気信号に変換して検出する。 12

13

遺伝子配列を網羅的に解析するためのコスト

14

ビッグ・データの解析による疾患予測＆治療

誰でもつかえる 1000人ゲノムプロジェクトサイズ200テラ→サーバに置く（ダウンロードする）ことは不可能

出生前診断をより精密に

近い将来、商業ベースで全遺伝情報を解析することが可能になる。この手の研究・ビジネスは、少しでも異常があれば産まないという「パーフェクトベビー願望」を煽る懸念も。

ダウン症か99%の確率で分かるMPS法。

妊娠10週目の母親の血漿中にあるDNA断片の15%が胎児由来。

ダウン症児

出典： 2012/09/20 朝日新聞

電通生世論：自分が遺伝性疾患にかかりやすいか知りたい？

Yes 8割No 2割

15

ダウン症だと21番染色体が3本ある

• 培養が難しい微生物の網羅的遺伝子解析

出典： Plos ONE, 7, e30559 (2012年）

鹿児島県の鉱山の地下坑道内で、約70度の熱水中に存在日本？？

16

原核生物

メタゲノム解析

ゲノム解析の限界とプロテオーム• ぜんそくのような、多因子疾患では発症の予測が困難。（多数の遺伝子や蛋白質の相互作用・発現量をパターンとして大規模解析することで可能となる。）

• 遺伝子：次世代シーケンサー

（遺伝子がいつどこでどのくらい蛋白質に翻訳されているかまでは分からない。）

• 蛋白質：質量分析 → プロテオームある細胞がある瞬間に発現している全ての蛋白質の量・種類・修飾され具合(リン酸化・グリコシル化など)

17

復習：生物の「実働部隊」分子は蛋白質。遺伝子（DNA）は単なる情報分子に過ぎない。

プロテオーム解析の典型的手法

• 細胞の全蛋白質を（二次元）電気泳動などで分離し、得られたパターンを画像解析することによって変化を見つける。

• 見つかった蛋白質に対しては、さらに酵素で消化した後で質量分析を行うことによって、どの遺伝子の産物に相当するものか同定する(ペプチドマスフィンガープリンティング）。

• その情報をもとに世界中の研究者らによってインターネット上に登録・公開されている情報にアクセスして考察を行うことで、その蛋白質の生理機能や病気との関連を解明する手掛りを得る。 18

敢えてDNA情報だけから、

計算でプロテオーム解析する人もいる

翻訳

基礎編の復習：遺伝子（DNA）の全てが蛋白質になるわけではない。

蛋白質

DNAのどの部分が蛋白質に翻訳されるか網羅的に予測するアルゴリズム

典型的にはこれを網羅的に解析（直前のスライド）

補足：

19出典：よく分かる分子生物学の基本としくみ、p.236.

蛋白質の同定法：ペプチドマスフィンガープリンティング

• ノーベル賞の田中耕一先生（島津製作所）の技術をきっかけに、一気に発展した。

• 高感度な質量分析を使う一般的な手法。

• 蛋白質に固有の指紋ができる。

• 指紋をもとに、データベース解析：より詳細な情報：MS/MSの自分たちの例

電通大共通機器（LC-MS/MS）4年生になって研究室より申請すれば誰でも使用可能！

20

未知の蛋白質をトリプシン分解

• ・・・X X X K X X X R X ・・・

・・・X X X K X X X R X ・・・

酵素を使って、＋電荷を持つアミノ酸のお尻側を切断する

これらペプチド断片（小さくした蛋白質断片）を（電通大の装置で）解析する。

分子量＝数万（以上）

分子量＝数百～数千（小さくなる分、解析がラク）

電気泳動で分子量分画した

21

未知の蛋白質

未知の蛋白質

トリプシン

ウィルスを薬品処理して蛋白質を電気泳動

例：T7ファージウィルスをトリプシン分解

大腸菌を攻撃し、乗っ取るT7ファージ

分子量大

分子量小次のスライドで解析

22

分解されたペプチドの、カラムクロマトによる分離

分子量や疎水性(親水性)などの違いで、ペプチド分子同士を分離する。一つ一つのピーク（山）が、一つ一つのペプチド分子をあらわす。 23

蛋白質分解物（ペプチド）の指紋

次のスライドで詳しく 24

目的の質量のものを探し、希ガスイオンを当ててさらに壊す

装置内で、更にブチブチに切る

25

データベース登録された理論値（MASCOT検索；無料）

実測値

ファージウィルスのgp10という蛋白質であると同定！！

26

蛋白質のアミノ酸配列vs機能

• ドンズバリ当たらなくても、既知の蛋白質と未知の蛋白質との相同性が分かる。

• 大雑把に言って、

機能が似ている蛋白質群の多くは、アミノ酸配列もだいたい似ている。

• 逆に、アミノ酸配列が似てたら、蛋白質の機能もだいたい似ている。

未知蛋白質の機能を予測できる！27

プロテオームで何がわかるか• プロテオーム研究：細胞（や個体）が持っている蛋白質の全体像を知る。→ ある条件にて変化した蛋白質自体の種類や量、あるいはある条件にてリン酸化、酸化、糖の結合などの修飾を受けて変化した蛋白質の構造変化や機能変化を知る。

• 例えば、細胞（や個体）が健康な状態とは何か、あるいは、病気(癌)・老化の状態とは何か？を蛋白質を手がかりに知ることができる！！

★癌や老化の原因蛋白質は○○と△△と□□である。★癌や老化の原因蛋白質は○○の修飾を受けていて

××の状態である。28

創薬研究における位置づけ

基礎研究応用研究実用化研究

病気の根幹に関わる遺伝子や蛋白質をあぶり出す

29

システムバイオロジー

• 生物をシステムとして理解する研究分野.情報科学を使った生物学．

• ゲノミクスやプロテオミクス的手法で得られた大規模データは余りにも巨大であり、かつ、生物は複雑すぎて直感だけでは理解不能.→計算科学が重要.

• 精密な計算モデルの解析から、創薬ターゲット（ErbB3蛋白質;癌の黒幕）をあぶり出し、そ

れに対する抗体医薬を開発し、臨床試験中(Merrimack社; 2012年）

③

30

mTORシグナル伝達ネットワーク（の一部）

グルコースやアミノ酸などの栄養源、成長因子、ホルモン、ストレスなどを感知し、細胞の増殖、分裂、自殺（癌の抑制）を調節するネットワーク

出典： Mol. Syst. Biol., 2010年

上手くコントロールして癌細胞だけに「自殺スイッチオン」すれば、癌治療ができるかも。31

32

㈱アマゾン

Documents

生命情報の大規模コンピュータ解析 （バイオインフォマ …tkl.pc.uec.ac.jp/images/class2014/bio10.pdf第10週 1 今日の内容 •1. バイオインフォマティックス概要

生命情報の大規模コンピュータ解析（バイオインフォマ …tkl.pc.uec.ac.jp/images/class2014/bio10.pdf第10週 1 今日の内容 •1. バイオインフォマティックス概要