Upload
emilie
View
81
Download
0
Embed Size (px)
DESCRIPTION
蛋白質立体構造データベースの高度化: PDBj ( Protein Data Bank japan ). 中村春木 1 、伊藤暢聡 2 、坂本久 2 、小林香織 2 、 (阪大・蛋白研 1 、科技団 2 、) http://www. pdbj.org/. 内容. 1.イントロダクション:中村春木(阪大蛋白研) 2. PDB データの XML 化:伊藤暢聡(JST) 3. PDBj-ML :坂本久(JST) 4. Computing GRID における送受信データ 記述の標準化:中村春木(阪大蛋白研). - PowerPoint PPT Presentation
Citation preview
蛋白質立体構造データベースの高度化:
PDBj (Protein Data Bank japan)
中村春木 1 、伊藤暢聡 2 、坂本久 2 、小林香織 2 、(阪大・蛋白研 1 、科技団 2 、)
http://www. pdbj.org/
内容1.イントロダクション:中村春木(阪大蛋白研)
2. PDB データの XML 化:伊藤暢聡(JST)
3. PDBj-ML :坂本久(JST)
4. Computing GRID における送受信データ 記述の標準化:中村春木(阪大蛋白研)
蛋白質:アミノ酸が分岐なく鎖状につながった生体高分子(分子量:数千~数千万) 蛋白質研究所で構
造解析を行った 350万原子からなる巨大な分子複合体(イネ萎縮ウィルス)の立体構造図
データベースには、これらの原子の種類、座標、その他のアナログおよびテキスト情報が含まれる。
Rutgers
Univ.UCSD NIST
阪大蛋白質研究所附属 総合プロテオミクス
研究センター(PDBj)
EU
Research Collaboratory for Structural Bioinformatics
グラント支援
NSF
Dept. of Energy
NIH
蛋白質立体構造データベース(Protein Data Bank-PDB) 1 万
9 千件
European BioinformaticsInstitute (EBI)
USA
日本・アジア 科学技
術振興事業団(JST)
グラント支援
より国際的な PDB 構想へ
構造ゲノム PJ
PDBj (Protein Data Bank Japan) http://www.pdbj.org/
データ登録・編集・管理・公開業務( アジア・オセアニア地区の世界中の約1割の登録)
1) PDB データベースの高度化:・ XML 化等の最近の IT 技術の導入( PDBj-ML )・蛋白質機能との関連情報の充実(文献情報を追加)
2) 二次データベースの構築とリンク・ Protein Molecular Surface Database, eF-site (木下・中
村)・ Protein Dynamics Database, ProMode (輪湖)
PDBj members
ゲノムから立体構造へ···AAGGTTTTCGGACGTTGT···
···Lys-Val-Phe-Gly-Arg-Cys···
PDB ファイルの具体例1HEADER HYDROLASE 21-AUG-00 1FN8 TITLE FUSARIUM OXYSPORUM TRYPSIN AT ATOMIC RESOLUTION COMPND MOL_ID: 1; COMPND 2 MOLECULE: TRYPSIN; COMPND 3 CHAIN: A; COMPND 4 EC: 3.4.21.4; COMPND 5 MOL_ID: 2; COMPND 6 MOLECULE: GLY-ALA-ARG; COMPND 7 CHAIN: B; COMPND 8 ENGINEERED: YES SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: FUSARIUM OXYSPORUM; SOURCE 3 ORGANISM_COMMON: FUNGUS; SOURCE 4 MOL_ID: 2; SOURCE 5 SYNTHETIC: YES KEYWDS BETA BARREL EXPDTA X-RAY DIFFRACTION AUTHOR W.R.RYPNIEWSKI,P.OESTERGAARD,M.NOERREGAARD-MADSEN,M.DAUTER, AUTHOR 2 K.S.WILSON REVDAT 1 07-FEB-01 1FN8 0 JRNL AUTH W.R.RYPNIEWSKI,P.OESTERGAARD,M.NOERREGAARD-MADSEN, JRNL AUTH 2 M.DAUTER,K.S.WILSON JRNL TITL FUSARIUM OXYSPORUM TRYPSIN AT ATOMIC RESOLUTION AT JRNL TITL 2 100 AND 283 K: A STUDY OF LIGAND BINDING JRNL REF ACTA CRYSTALLOGR., SECT.D V. 57 8 2001 JRNL REFN ASTM ABCRE6 DK ISSN 0907-4449
PDB ファイルの具体例2CRYST1 58.390 86.700 46.270 90.00 90.00 90.00 P 21 21 2 4 ORIGX1 0.017126 0.000000 0.000000 0.00000ORIGX2 0.000000 0.011534 0.000000 0.00000 ORIGX3 0.000000 0.000000 0.021612 0.00000 SCALE1 0.017126 0.000000 0.000000 0.00000 SCALE2 0.000000 0.011534 0.000000 0.00000 SCALE3 0.000000 0.000000 0.021612 0.00000 ATOM 1 N PRO A 1 29.061 39.981 4.981 1.00 28.69 ATOM 2 CA PRO A 1 29.970 38.922 4.561 1.00 29.08 ATOM 3 C PRO A 1 29.325 38.106 3.429 1.00 29.19 ATOM 4 O PRO A 1 28.097 38.168 3.298 1.00 29.87 ATOM 5 CB PRO A 1 30.106 38.013 5.789 1.00 29.07 ATOM 6 CG PRO A 1 28.749 38.112 6.413 1.00 28.59 ATOM 7 CD PRO A 1 28.387 39.600 6.246 1.00 29.21 ATOM 8 N GLN A 2 30.153 37.412 2.681 1.00 28.13 ATOM 9 CA GLN A 2 29.636 36.572 1.593 1.00 27.95 ATOM 10 C GLN A 2 29.861 35.139 2.082 1.00 27.28 ATOM 11 O GLN A 2 31.038 34.773 2.266 1.00 27.61 ATOM 12 CB GLN A 2 30.373 36.787 0.305 1.00 28.43 ATOM 13 CG GLN A 2 30.346 35.501 -0.539 1.00 29.40 ATOM 14 CD GLN A 2 30.921 35.844 -1.899 1.00 29.51 ATOM 15 OE1 GLN A 2 31.894 35.283 -2.340 1.00 30.56 ATOM 16 NE2 GLN A 2 30.288 36.839 -2.518 1.00 30.01
PDB ファイルの問題点11. Fixed format の限界
2. Mixed formats の混乱Header の追加
FTNOTE 1 CIS PROLINE - PRO A 7
CISPEP 1 SER A 6 PRO A 7 0 -0.71
Format の変更
ATOM 1 N ALA A 1 38.840 0.236 1.012 1.00 34.65 1GOF 219 ATOM 1 N GLN A 1 81.540 63.203 82.187 1.00 52.88 N
PDB ファイルの問題点 2
3. Author definition の不透明性
例えば、残基番号 -90-91-91A-91B-92-93- (insertsion) -90-91-92-96-97-98- (deletion) -90-91-92·····96-97-98- (disorder)
あるいは、生物種
Homo sapiens Human×
XML 化のメリット 異なるマシン / プラットホーム間で共通 汎用性がある = 取り扱うアプリケーションも多くな
る = データ追加 / 変更が容易 XML 検証の優位性 データ構造 / 型を定義→検証ツール 属性の利用( book-keeping 等)
基本的な考え方
PDBj-ML の設計にあたっての基本的な考え方は :
Macromolecular Crystallographic Information Format (mmCIF) をテンプレートにする
互換性の為に、可能な限り mmCIF の名称や構造を継承する
スキーマ言語には、 DTD ではなく、より厳密・高機能の XML Schema を用いる
mmCIF を基本テンプレートに使用mmCIF は国際結晶学会 (IUCr) 主導のもとで開発
されたフォーマットで、低分子で広く用いられている Crystallographic Information Format (CIF) を生体高分子用に拡張したものである。
mmCIF は name と value , の対である data items から構成されており、 tag と content の対である elements からなる XML への変更が比較的に容易である。
_name value <tag> content </tag>
PDBj-ML の基本構造現在 PDB に含まれているすべての情報は <main
> タグ以下に入り、 <head> タグは内部の管理情報等が入る。
mmCIF のカテゴリの階層をそのまま XML の階層として引き継ぐ。
_struct_conn.ptnr1_label_seq_id <struct> <conn> <ptnr1> <label_seq_id>
PDBj-ML の全体構造
XML 化のデメリット
ファイルサイズの増加 処理に多量のディスク領域 / メモリ領
域を要する
座標等の原子データの外部ファイル化
<atom_site> <ext_file> ftp://pdbj.protein.osakau.ac.jp/pdbj_ml/ all/1crn_atoms.pdbj.gz </ext_file> <model nid="1" mmCIF_id="1"> <chain nid="1" mmCIF_id="A"> <residue nid="1" AorH="ATOM"> <label_comp_id>THR</label_comp_id> : :</atom_site>
<?xml version="1.0" encoding="UTF-8" ?> <PDBj_extension entry="1crn" xmlns=http://pdbj.protein.osakau.ac.jp/ns/PDBj-ML-ext xmlns:xsi=http://www.w3.org/2001/XMLSchema-instance xsi:schemaLocation="http://pdbj.protein.osaka-u.ac.jp/ns/PDBj-ML-ext http://pdbj.protein.osaka-u.ac.jp/schemas/PDBj-ML-ext/ext_00.xsd"> <compul_block>
<!-- [items of atom_record] <atom_record> LabelMdlID LabelAsymID LabelSeqID LabelAltID LabelCompID TypeSymbol LabelAtomID AuthAtomID CartnX CartnY CartnZ Occupancy Bfactor</atom_record> -->
<atom_record id="1" mmCIF_id="1">1 1 1 ## THR N N N 17.047 14.099 3.625 1.00 13.79</atom_record> <atom_record id="2" mmCIF_id="2">1 1 1 ## THR C CA CA 16.967 12.784 4.338 1.00 10.80</atom_record> <atom_record id="3" mmCIF_id="3">1 1 1 ## THR C C C 15.685 12.755 5.133 1.00 9.19</atom_record> <atom_record id="4" mmCIF_id="4">1 1 1 ## THR O O O 15.268 13.825 5.594 1.00 9.85</atom_record> <atom_record id="5" mmCIF_id="5">1 1 1 ## THR C CB CB 18.170 12.703 5.337 1.00 13.02</atom_record> : : : <compul_block>
総ファイルサイズの比較
サイズ( GB ) 比
PDB 10.8 1
mmCIF 13.2 1.22
PDBj-ML 25.7 2.38
機能情報等の付加
現在の PDB には、残基・原子レベルでの機能情報がほとんど含まれていない。他にも、欠落した実験データも多い。そこで、文献・他データベースからそうした情報を付加する。
mmCIF から PDBj-ML の生成
mmCIF パースライブラリを独自で開発 mmCIF→PDBj-ML コンバータ開発 mmCIF パースライブラリ+ XML ライブラリ (XML ライブラリ : Apache XML project XERCES C++ 1.6.0)
PDBj-ML→mmCIF コンバータ開発 PDBj-ML を元の mmCIF に戻せるように開発 mmCIF→PDBj-ML コンバータ動作検証に有
効
mmCIF→PDBj-ML コンバータ
mmCIF パースライブラリ
Xerces ライブラリ(DOM パーサ )
XML 生成部
mmCIF 入力部mmCIF
PDBj-ML
① 読み込み ②mmCIF 解析
③ 解析データを元に変換指示
④XML 構造を作成
⑤出力
PDBj-ML→mmCIF コンバータ
mmCIF パースライブラリ
Xerces ライブラリ(DOM パーサ )
mmCIF 生成部
XML 入力部PDBj-ML
mmCIF
① 読み込み ②XML パース
③ パース結果 (DOMツリー ) を元に変換指示
④mmCIF 構造を作成
⑤出力
PDB j -ML データベースシステムサーバマシン
SGI Origin 3200
CPU: R14000(500MHz) × 2
Memory: 1024MB
DISK: system 18GBytes
xlv volume 730GBytes
OS: IRIX 6.5.14m
PDB j -ML データベースシステム使用ソフトウェア
RDBMS MySQL 3.23.49 WWW Server apache 2.0.39 + mod_jk(tomcat 連携 ) Application Server( Servlet engine ) jakarta tomcat 4.0.4 XSLT Processor Apache XML Project XALAN-j 2.3.1 FTP Server ProFTPD 1.2.6rc2
PDBj-ML データベースシステム
mmCIF PDBj-ML
Web server
Application ServerXSLT processor
downloader
pdbj2cif
Loader
RCSB
cif2pdbj
RDBMS
XML tag keyword
download(FTP)
FTP server
Internet
PDB j -ML データベースの更新(1)
更新は毎週土曜日~日曜日 RCSB からのダウンロード
ダウンロードコマンドにより RCSB FTPサイトより更新されたファイルのみ取得
ダウンロードコマンド : GNU wget v 1.8 PDBID 追加・更新情報抽出
ダウンロードコマンドのログから更新されたファイルと削除されているファイルを抽出する。
PDB j -ML データベースの更新( 2 )
mmCIF から PDBj-ML へコンバート XMLSchema に沿ってタグをソート PDBj-ML 内部検証 (XML検証 ) PDBj-ML外部検証
PDBj-ML→mmCIFコンバート (逆コンバート )
逆コンバート後のファイルとオリジナルのmmCIF の diff を出力
PDBj-ML ファイルに Validation 結果を追加
PDB j -ML データベースのバックアップ
更新作業の前にバックアップを実行 以下のファイルを DLT にバックアップ
mmCIF全ファイル (13.2GB) PDBj-ML全ファイル (25.7GB)
以下のファイルも順次バックアップ予定 PDBj-MLxp全ファイル RDBMS restore ファイル
※ DLT : チェンジャ―タイプ (40GB × 7slot)
PDB j -ML データベースシステム運用図
バックアップ用 DLT
mmCIFファイル
PDBj-MLファイル
PDBj-ML検索用 DB
PDBj-ML xp ファイル
PDBj-MLxp
検索用 DB
RCSBFTP サイ
ト
EBICATRES
SWISS-PROT追加情報
Annotation
Data
CATRES追加情報
バリデーションロ
グ
削除ID
追加ID
PDBj-MLへコンバート
PDBj-ML内部検証
PDBj-ML外部検証
ダウンロード
追加・更新情報抽出
各種 DBからの削除
DBへの登録
DBへの登録
データの流れ
処理の流れ
処理概要
情報取得
情報取得
ゲノムネットSWISS-PROT
PDBj-ML内部検証
外部データ追加
データの流れ (予定 )
PDBj-ML の検索
PDB互換検索 PDB の search field検索ページと同等
の機能 フリーワード検索 XPath検索 XML の特徴を生かした検索
XPath の指定例
例えば 分子量が 2000 以上の2種類以上のペプチドからなる蛋白質の PDBID を取得したい…
こんなときは以下の XPath で検索
/PDBj [ count( /PDBj/main/entity/entity_item [ formula_weight >= 2000 and poly_type = “p
olypeptide(L)”] ) > 2 ] /@entry_ID
Web サービスの提供
SOAP による PDBj-ML XPath検索 ユーザプログラムから PDBj-ML データ
ベースに対する XPath検索の実行が可能に
SOAP によってファイアフォール外からのアクセスも可能
Apache SOAP 2.3.1 を使用
SOAP: Simple Object Access Protocol
より高度な XML データベース構築
フリー XML データベースシステムの試用
postgreSQL+XMLPGSQL Apache xindice-1.0 eXist 0.8
容量的、速度的に実用レベルでなく採用を断念
商用 XML データベースシステムの試用
PDBjホームページ
PDBj Top page
http://www.pdbj.org PDBj -ML Top page
http://www.pdbj.prg/PDBj-ML PDBj FTP Server
ftp://ftp.pdbj.org
Computing GRID における送受信データ記述の標準化
(大阪大学蛋白質研究所・中村春木)
QM/MM の実行を練成プログラムで実施する。 QM ( Quantum mechanics: 分子軌道法計算) MM ( Molecular mechanics: 分子力場・分子動力学計算) この両者を異なる計算機上でそれぞれ走らせ、高速ネットワー
クを介してデータの送受信を行ないながら実行するプログラムを開発中(平成15年3月予定)。
QM MM のデータ送受信についての標準書式。 UDS-XML とそのツール( C および FORTRAN からの呼び出しが可能)の設計と試作
UDS-XML (Universal Data Set-XML) [ 関数 ] udsput_xml, udsget_xml
[ 機能 ] UDS データを XML形式のファイルに書き込む、 読み込む(1次元化された配列の読み書き)
[ フォーム ]
Text : テキストデータ HexDec : バイナリデータを 1 データ単位で 16進表
記 Base64 : Base64方式でエンコードされたバイナ
リーデータ
[特徴 ]
データの内容、書式、長さ、単位、コメントが XMLで記述。
UDS-XML ( form = text ) (x4~ 10)
<?xml version=“1.0” encoding=“UTF-8”?>
<uds_data size=“4” count=“200” unit=“AU“ form="text”>
<uds_content> sample_text.xml </uds_content>
<uds_comment> Sample of UDS-XML (text) </uds_comment>
<uds_array_count>20</uds_array_count>
<uds_array seq="1" element="number" length="10"> 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 </uds_array>
<uds_array seq="2" element="number" length="10"> 0.1 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 </uds_array>
::
<uds_array seq="20" element="number" length="10"> 1.9 1.91 1.92 1.93 1.94 1.95 1.96 1.97 1.98 1.99 </uds_array>
</uds_data>
Examples of UDS-XML
UDS-XML ( form = HexDec ) (x2)<?xml version=“1.0” encoding=“UTF-8”?>
<uds_data size="4" count="200" unit="AU" form="hex”>
<uds_content> sample_hxd.xml </uds_content>
<uds_comment> Sample of UDS-XML (hexdec) </uds_comment>
<uds_array_count>22</uds_array_count>
<uds_array seq="1" element="character" length="76">
000000003c23d70a3ca3d70a3cf5c28f3d23d70a3d4ccccd3d75c28f3d8f5c293da3d70
a3db8</uds_array>
<uds_array seq="2" element="character" length="76">
51ec3dcccccd3de147ae3df5c28f3e051eb83e0f5c293e19999a3e23d70a3e2e147b3e3
851ec</uds_array>
: <uds_array seq="21" element="character" length="76">
3ff333333ff47ae13ff5c28f3ff70a3d3ff851ec3ff9999a3ffae1483ffc28f63ffd70a43ffe
</uds_array>
<uds_array seq="22" element="character" length="4">b852</uds_array>
</uds_data>
UDS-XML ( form = Base64 ) (x4/3)<?xml version=“1.0” encoding=“UTF-8”?>
<uds_data size="1" count="200" unit="AU" form="b64”>
<uds_content> sample_hxd.xml </uds_content>
<uds_comment> Sample of UDS-XML (hexdec) </uds_comment>
<uds_array_count>4</uds_array_count>
<uds_array seq="1" element="character" length="76">
pLWkq6TipMik0qS1pLekzrrupMOkv6XQpaSlyqXqpcehvKW/pPKlqKXzpbOhvKXJp
LekxqS9pM6l</uds_array>
<uds_array seq="2" element="character" length="76">
x6G8pb+k8qPYo82jzLfBvLCkx6XVpaGlpKXrpMvK3cK4pLmk66XXpe2lsKXppeCkz
qXGpbmlyKTH</uds_array>
<uds_array seq="3" element="character" length="76">
pLmho6XXpe2lsKXppeCkrMC1vu+ky8awpKSkxqSkpOu+7LnnpM+ks6TOyrikrMC1
pLekr8bJpOGk</uds_array>
<uds_array seq="4" element="character" length="40">xqSkpOukz6S6pMekuaG
jpMmkpqTHpLek56Smoak=</uds_array>
</uds_data>