Information, Knowledge and Computing Unleashed

Tsuguchika Kaminuma
Division of Chem-Bio Informatics, National Institute of Health Sciences

開放された情報と知識と計算力:
インターネットによる計算化学とバイオインフォマティクスの研究基盤づくり

国立医薬品食品衛生研究所 化学物質情報部
神沼 二眞

はじめに
 1980年、私は協力者とCBI研究会を創立した。英語ではChem-Bio Informaticsと呼ばれるこの会は、理論計算や情報学(Informatics)を化学(C)や生物学(B)とその関連科学に応用することを目的とした、啓蒙活動と情報交換を目的とする会であった。この会がその後追求してきたのは、化学、分子生物学、材料開発、医薬品開発、毒性(化学物質安全性)研究を支援するコンピュータシステムであった。こうした方法論はインターネット/WWWの出現で今大きく変貌しようとしている。以下では、この分野の20年を回想し、新しい可能性について考察する。

化学研究者のワークベンチ
 今振り返ってみると、CBI研究会を70年末に構想したことは、それなりの必然性があったように思える。その理由第1は、その頃までに、コンピュータが化学に浸透し、分子軌道法、分子力学、分子動力学計算など各種分子計算法のパッケージが開発されていたことである。またこの他に、化合物データベース、分子グラフィックス、合成経路探索システム、スペクトルからの分子構造推定システム、統計学やパターン認識手法を応用した定量的な構造活性相関法(QSAR)なども開発されていた。
 そこでこれらのツールを「化学研究者の仕事の手伝いをする」支援システム、あるいはワークベンチとして統合しようという動きがあった。その元祖となったのは、NIHのPROPHET、 NIH/EPAのCIS(Chemical Information System)であり、いずれも70年代中頃には、われわれにも知られるようになった。この2つのシステムより少し後に現れた、概念的にもより進んだ統合システムが、デュポンのD.ペンサックのTRIBBLEである。当時、東京都臨床医学総合研究所で医学研究を支援する統合システムを開発していた私は、CISを知ったことで、化学研究を支援する統合システムを構想したのである。

遺伝子工学の台頭
 新しい研究会を構想した第2の誘因は、分子生物学の中に台頭した遺伝子工学である。分子生物学は、遺伝の物質としての実体が2重ラセン構造をしたDNAであることと、遺伝の情報としての実体がDNAの塩基配列であることを明らかにした。これによって生物学は化学と地続きの学問となった。そして生命が分子機械のような性質があること、しかもそれはコンピュータに似た遺伝情報というプログラムで駆動される機械であることを明らかにした。
 遺伝子工学は、分子機械である生命を、プログラムであるDNAのレベルで操作する可能性をも開いた。同時にDNAの塩基配列を解読すること、人工的なDNAでタンパク質を合成すること、DNA(遺伝子)の一部を改変することでタンパク質の機能をしらべること、さらには望みのタンパク質(あるいはペプチド)を合成することや、それを医薬品とすることなど、数々の新しい技術を生み出した。このような技術は基礎医学だけでなく臨床医学研究や薬学研究のスタイルにも大きな変化をもたらした。各種の疾患も、いまや遺伝子から研究されるようになった。このような理由で医学や薬学の研究者も、遺伝子の配列解析やタンパク質のグラフィックスに関心をもつようになった。
 ちょうど日本化学会で「情報化学」あるいは「化学情報」の研究会をつくろうと議論がなされていた頃、生物医学の世界ではこうした大革命が進行していたのである。

バイオインフォマティックス
 生物医学研究の分野においても化学研究を支援する統合システムは、必須のインフラストラクチャーである。だが生物医学には、もっと別の要素もある。それは生命の分子が幾種類かの基本ユニットが連結された鎖である、という性質に帰因する。DNAは塩基の鎖であり、タンパク質はアミノ酸の、多糖類は単糖類の鎖である。分子の鎖としての表現は記号列となる。したがって生物医学を支援するシステムには塩基配列やアミノ酸配列すなわち記号列を扱うシステムが必要である。かくして塩基配列やアミノ酸配列を扱うコンピュータのプログラムが、遺伝子工学の普及とともに、急速に発展した。こうした技術はやがてバイオインフォマティックスと呼ばれるようになる。
 私は1960年代には、物理学と併行してパターン認識を研究していた。だからInformaticsはなじみのある言葉だった。そこで医学へのコンピュータ応用に専心するようになってからそうした研究分野をすぐ、医療情報学(Medical Informatics)と呼んだ。そのような背景があったから、化学と生物学に関連したコンピュータによる研究手法の革命をChemical and Biological Informaticsと称したのは、ごく自然であった。

技術が大衆化した80年代
 CBIがスタートして、すぐ「タンパク(質)工学)」が提唱された。そのすぐ後に「バイオコンピュータ」が提唱され、やがてニューラル(あるいはニューロ)ネットワークが流行となり、今日のカオスにつながっていく。コンピュータの方では1980年代に人工知能(あるいは)知識システム、第5世代コンピュータが大流行したが、私はこうした技術は70年代始めに経験ずみだったのでとくに新しいものとは考えなかった。
 さて、発足から14年ほどの間のCBIの活動は割と順調だった。最初の頃に学習と啓蒙と研究のテーマに掲げた多くの技術はすでに大学や企業や国の研究所で広く使われるようになっている。パソコンの高性能化で象徴されるコンピュータの長足の進歩が、かつては高嶺の花だったシステムを、いまではありふれたデスクトップのアプリケーションにしてしまったのだ。こうした変化はコンピュータ技術の進歩の結果である。しかし、システムの概念や理論や技法から言えば、CBIが関心をもっていたテーマにはほとんどなんの進歩もなかったと言える。驚くような新しい理論、新しい概念は出てこなかったのだ。

インターネットが開いた新しい可能性
 研究会としてのCBIはどこに行くべきか?私はこの答えを数年来探し求めていた。そして昨年頃、ようやく答えがえられるように感じている。その答えというのは、他ならぬインターネット/WWW革命の可能性である。今にして思えば、CBIが最初に掲げていた技法はそれなりに完成していたのであり、その中からは最早新しい技法や概念が生まれる可能性は、ほとんどなかったのである。新しい可能性は、こうした技法やシステムをネット上に置き、それを同じくネット上に置いた情報や知識と有機的に構造化するとともに、互いに結びつけて活用する技法である。つまり、インターネット/WWWという新技術は、それ自身ではすでに創造性を失ってきたChemical InformaticsやBio Informaticsにあたら新しい活力を吹き込む可能性を秘めているのだ。その可能性に気づき、具体的なシステムの実現をめざすのがChemical Informatics, Bio Informaticsの新しい課題であると私は考えるようになった。
 こうした新しいシステムについては、昨年刊行した、拙著、「生命科学とインターネット」で詳しく紹介してあるが、現実はさらに進歩していると思う。例えば私達が開発しているいくつかの新しい概念のシステムがある。こうしたシステムで基本となるインターネット/WWW関連技術は以下のようなものである。

(1)WWWページの検索技術
 WWWサイトを検索するシステムはすでに数多く開発され、日常的に使われているが、限られた専門情報の検索には必ずしも向いていない。そこで、われわれは、あらかじめ指定しておいたサイトだけを検索する自家製の検索エンジンをHARVEST やGlimpse を用いて作成することを試みていたが、日本語がつかえるという理由で、Glimpse を用いたシステムをわれわれのホームページに置いている。これは、国立衛研で管理しているページの全文を検索するものである(http://www.nihs.go.jp)。同様なシステムは、ある専門領域に限定した検索エンジンとして有用であると思われる。

(2)インターネット上に分散しているデータベースの統合技術
 WWWが普及してから、CGI( Common Gateway Interface ) プログラムを用いて、データベースをWWWから検索する技術が普及した。これをさらに拡張すれば、LANやインターネット上に存在している複数のデータベースを統合的に検索するシステムを開発することができる。この技術は、国際機関や各国の専門機関にある化学物質の安全性に関する情報コンテンツを統合的に利用するGINC ( Global Information Network on Chemicals )計画の中核である(われわれが開発している)GINCホームページの中のGINC DB Searchとして、実際に使われている(http://www.nihs.go.jp/GINC/index.html)。

(3)オブジェクト指向型のデータベース
 分子生物学の進歩によって、生命現象の解明や医薬品開発の鍵を握る、生体内受容体や信号伝達経路に関するデータや知識が爆発的に増加するようになった。こうしたデータや知識をどのようにコンピュータに蓄積すべきかが重要な課題になってきた。われわれは、線虫(C.エレガンス)の遺伝情報のために開発されたACEDBとWWWを基盤として、受容体(http://impact.nihs.go.jp/RDB.html)と細胞信号伝達系(http://geo.nihs.go.jp/csndb.html)のデータベースを開発している。

(4)グラフィカル・ビュアー
 WWWが広く受け入れられたのは、グラフィカルな表示が容易なことである。われわれの化合物、受容体、細胞信号伝達系のデータベースにおきても、分子グラフィクス、経路グラフなどをマルチウインドウ環境で、並列に表示するユーザ・インターフェースが使われている。現在さらに、因果関係のグラフィカルな表現とその根拠となる知識と情報をリンクする技術を研究中である。

(5)VRMLとJAVA
 われわれは、80年代の初めから、C.エレガンスの受精卵が細胞分裂を繰り返して成体になっていく、発生過程を細胞グラフィックスで表現することを試みてきたが、最近 VRMLとJAVAを用いることにより、細胞が分裂増殖する過程をブラウザー上でアニメーションとして、動的に表現するシステムを開発することができた(http://geo.nihs.go.jp/ cers/start2.html)。このシステムは、それぞれの細胞に、その細胞に関する詳しい情報をリンクすることも可能である。
 これらの技術は、私たちの問題分野だけでなく、極めて一般的な応用の可能性をもっている。この他にも、重要な技術はある。こうした基本技術を既存の技法と組み合わせることで、Chemical Informatics, Bio Infirmatics分野の役に立つ新しい概念のシステムを数多く発想することができる。

新しい時代
 新しい技術に支えられた新しいシステムを維持、管理、活用していくには、新しい体制が必要である。これまではシステムの開発段階と外部の一般ユーザーに使ってもらう実用試験段階とには、大きなギャップがあった。インターネットはこのギャップを解消した。しかもユーザーは広く全世界に広がった。この結果ミラーサイトは別にしてインターネットで公開されるシステムは世界に一つあればよいことになった。したがって「世界一」あるいは「世界でただ一つ」のシステムでなければ意味がないということになる。そこで、国境を越えた研究者の提携が活発になっている。
 またWWWサイトを運営している者は、システムの開発だけでなく、利用マニュアルの作成情報やデータの更新、機能の改良、モニターやユーザーの問い合わせへの対応など、継続的に研究開発資源を投入しなければならない。このようなシステムの技術としての新しさや、学術的な価値は従来の尺度では適切に計ることができない。インターネット/ WWW革命の本質は、情報と知識の開放を可能にしたことである。さらにスーパーコンピュータあるいは超並列マシンのネットワーク利用や、パソコンの性能の向上によって計算力もいまや開放された。われわれは、こうした時代に生きているのである。そして研究者はこの状況に適応しなければならなくなったのである。

つぎになにをなすべきか
 いまから60年前、英国の作家であり、思想家、未来社会の予言者として著名なH.G.ウエルズは、「大英博物館や米国の博物館では、膨大な資料をマイクロフィルムに収める作業が進んでいる。このこととフィルムを見るための安いプロジェクターの存在を考えれば、やがて研究者は世界のどこにいても、自分の書斎で、あらゆる本や文献を調べられる時代がやってくるだろう。」と予言した。そこで、優れた専門家を動員し、膨大な知識を整理し、百科事典(グローバル・ブレーン)をつくり、世界的な規模の図書館に置けば、この知識は世界の研究者に利用されるよになり、よりよい世界をつくるための原動力になるという構想を発表した(H.G.ウエルズ/浜野輝訳、世界の頭脳、思索社、1987年)。
 ウエルズのいうグローバル・ブレーンは、インターネットとWWWによって、まさに現実のものになってきた。しかし、こうした知的な基盤を構築したり、それを有効に利用するためには、時代遅れの教育制度や学会を改革しなければならないとウエルズは訴えている。「いまやわれわれは、ラジオや飛行船や爆撃機などという、さまざまな新技術が出現した世界で生きている。然るに、教育がまったく変わらないのは驚くべきことだ」、と彼は指摘する。同じような批判を学会についても言っている。
 この本が書かれてから60年も経過した今、さらに驚くべき技術が世にでている。にもかかわらず、教育は依然としてほとんど変わっていない。学会もそうである。なぜか。学校教育は学習のシステムでなく、卒業証書をだす国家権力のシステムである、また、学会は仲間内の情報交換と、勲章をだして褒めあう外の社会から隔絶されたサロンであるからだ、というのが私の答えである。しかるが故に、変化を嫌うのである。
 したがってコンピュータの進歩にも、インターネットの出現にも、学校は難攻不落であり、教育にも根本的な変化は起こっていない。とくにインターネットは教育制度を根本的に変える潜在能力をもっているが、その運営主体の頭が切り替わらない限り、そのような使い方はなされないだろう。もちろん、学校でインターネットを使えるようにしたり、ホームページを立ち上げたり、ホームページを検索することはできる。だがこの程度の利用法では、文字どおり子どもだましでしかない。しかし、ライセンスに関係のない、学習となると話は別である。学習方法はインターネットとWWW革命で大きく変わりうる。
 したがって、われわれのつぎの課題は、学校や免状を相手にしないで知識や技術をどう身につけるかである。もちろん、こうした知識や技術の中には、開放された情報や技術を如何に活用するかも含まれる。

参考文献
1. 神沼二眞、鈴木 勇:分子を描く、啓学出版、1988
2. CBI NEWS, CBI研究会、1980-1997(http://www.cbi.or.jp
3. 神沼二眞:医療革新とコンピュータ、岩波書店、1985
4. 神沼二眞、中野達也:生命科学とインターネット、オーム社、1997