8
01Jun10作業部会分科会 九工大・皿井 1 ProLINT 生体分子の熱力学データと構造データの統合 機能 熱力学 構造 統合化技術 熱力学情報と構造情報のクロスレファレンス オントロジーの整備 データ交換フォーマットの整備 文献 収集 PDBj テキストマイニング技術 データを含む論文の自動収集 テキストからのデータの自動抽出 ProTherm ProNIT 資料

ProTherm ProNITlifesciencedb.jp/koukai/20100601-20100604/20100601/...2010/06/01  · ProTherm ProNIT 資料 6 01Jun10作業部会分科会 九工大・皿井2 熱力学データベースについて

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ProTherm ProNITlifesciencedb.jp/koukai/20100601-20100604/20100601/...2010/06/01  · ProTherm ProNIT 資料 6 01Jun10作業部会分科会 九工大・皿井2 熱力学データベースについて

01Jun10作業部会分科会 九工大・皿井 1

ProLINT

生体分子の熱力学データと構造データの統合

機能

熱力学 構造

統合化技術

熱力学情報と構造情報のクロスレファレンス

オントロジーの整備

データ交換フォーマットの整備

文献 収集 PDBj

テキストマイニング技術

データを含む論文の自動収集

テキストからのデータの自動抽出

ProTherm ProNIT

資料 6

Page 2: ProTherm ProNITlifesciencedb.jp/koukai/20100601-20100604/20100601/...2010/06/01  · ProTherm ProNIT 資料 6 01Jun10作業部会分科会 九工大・皿井2 熱力学データベースについて

01Jun10作業部会分科会 九工大・皿井 2

Page 3: ProTherm ProNITlifesciencedb.jp/koukai/20100601-20100604/20100601/...2010/06/01  · ProTherm ProNIT 資料 6 01Jun10作業部会分科会 九工大・皿井2 熱力学データベースについて

熱力学データベースについて

データは文献から収集し、手動でデータを抽出(次ページ参照)

蛋白質と変異体の熱力学データベース、ProTherm、は1998年

に公開を開始し、現在までに25,000件以上のデータを収録

蛋白質・核酸相互作用の熱力学データベース、ProNIT、は2000

年に公開を開始し、現在までに10,000件以上のデータを収録

すでに200件以上の論文に引用され、データベースを用いて解

析を行った研究論文も多く出版される

データは原則的に完全公開(一括ダウンロードも可)

01Jun10作業部会分科会 九工大・皿井 3

Page 4: ProTherm ProNITlifesciencedb.jp/koukai/20100601-20100604/20100601/...2010/06/01  · ProTherm ProNIT 資料 6 01Jun10作業部会分科会 九工大・皿井2 熱力学データベースについて

•Protein name,source

•Experimentaldetails•Thermodynamic

data•Keywords•Remarks

•PubMed search•Searching in

selected journals•Direct contact

マーキング

データ収集

修正?

Yes

NoNo

Yes

Yes

Yes

No

No

文献からのデータ収集とデータベース構築プロセス

データ入力

データチェックPhase I

データクロスチェック

Phase II

データ修正Phase I

計算機による自動チェック

Phase III

ASA 計算,配列

構造情報

データプロセスランダムチェック

(Data checkPhase IV)

データ修正Phase II

公開

データ修正Phase III

テストサイト

キュレータの

最終チェック

データ修正Phase IV

論文著者によるチェック

修正?

修正?

修正?

PIR PDB

S.PROT

フィードバック

フィードバック

01Jun10作業部会分科会 九工大・皿井 4

Page 5: ProTherm ProNITlifesciencedb.jp/koukai/20100601-20100604/20100601/...2010/06/01  · ProTherm ProNIT 資料 6 01Jun10作業部会分科会 九工大・皿井2 熱力学データベースについて

進捗状況の要約

蛋白質と変異体の熱力学データと構造データを対応させるクロスレ

ファレンスの作成

蛋白質と核酸の相互作用の熱力学データを対応させるクロスレファ

レンスの作成

蛋白質・蛋白質相互作用データベースのプロトタイプの試験運用

蛋白質・核酸相互作用熱力学データのXMLフォーマットへの変換と

公開

熱力学データのControlled Vocabularyの整備

統合DBセンターが開発した文献自動収集ツールTogoDocの評価と

改良

01Jun10作業部会分科会 九工大・皿井 5

Page 6: ProTherm ProNITlifesciencedb.jp/koukai/20100601-20100604/20100601/...2010/06/01  · ProTherm ProNIT 資料 6 01Jun10作業部会分科会 九工大・皿井2 熱力学データベースについて

01Jun10作業部会分科会 九工大・皿井 6

22年度業務計画

新規に発生した蛋白質と変異体の熱力学データについて構造データ

と対応させるクロスレファレンスを作成する

新規に発生した蛋白質と核酸の相互作用の熱力学データについて

構造データと対応させるクロスレファレンスを作成する

蛋白質・蛋白質相互作用のデータベースを作成し試験運用を行う

引き続き、熱力学データをXML化し公開する

引き続き、熱力学データのオントロジーの整備を進める

TogoDocを用いて文献から蛋白・核酸相互作用データを自動収集で

きるように改良を行う

Page 7: ProTherm ProNITlifesciencedb.jp/koukai/20100601-20100604/20100601/...2010/06/01  · ProTherm ProNIT 資料 6 01Jun10作業部会分科会 九工大・皿井2 熱力学データベースについて

01Jun10作業部会分科会 九工大・皿井 7

本事業終了後の計画

熱力学データの収集と構造データとの統合を継続

さまざまなデータ(相互作用データ、機能データ、変異データ、疾

病データなど)と統合

データ収集や入力の自動化

文献収集、データ抽出の自動化

データ原著者による入力システムの作成

熱力学データのオントロジーの整備を継続

インターフェイスの改良などによる利便性の向上

Page 8: ProTherm ProNITlifesciencedb.jp/koukai/20100601-20100604/20100601/...2010/06/01  · ProTherm ProNIT 資料 6 01Jun10作業部会分科会 九工大・皿井2 熱力学データベースについて

01Jun10作業部会分科会 九工大・皿井 8

コメントへの回答 「今回の業務計画書とは関係ないかもしれないが、現在更新が止まってい

る遺伝研が構築していたPMD (Protein Mutation Database)との連携と更新

も入っているといいのではないかと思った。」

PMDとの統合は行っていたが、現在更新が止まっている。他の変異

データベース(MutDB, SNP, HGMD, GAD)との統合もすすめつつある。

「特徴あるデータベースが構築されているが、アノテーターに依存するとこ

ろ大なので、今後、如何に長期的に運用更新していく体制をとり続けられる

か検討と準備が必要。」

アノテーションの労力をできるだけ軽減するため、データ収集やデータ

抽出の過程を自動化したい。

「小規模な個別DBとしては意義があるが、このようなDBを今後どのように

統合して行くのか検討が必要。」

さまざまな分野のデータベース開発は専門家が行う必要があり、この

ような個別のデータベースの維持のための資金援助や統合のための

システム整備をオールジャパン体制で行ってもらうとありがたい。