さくら
by ケツメイシ
2010.02.20
今年も河津の桜を愛でる。春の訪れをつげる桜ほど風流なものはない。毎年見る景色、毎年撮る絵であっても、同じだけれど同じではない。この美しい世界に生を受けて、良かった。漁師の漬け丼膳スーパーで腹一杯だったけれど、粗挽きソーセージうまかった:)
[iTunes]
[歌詞]
|
[permalink]
セマンティックウェブとシステムバイオロジー
2010.02.15
世界中全てのデータを繋げてアクセス可能にし、それらのシンタックスを統一して、さらにセマンティクスもつけてコンピュータで簡単に扱えるようにする。人類が持つ全ての知識をコンピュータを通じで誰もが簡単に扱えるようにする。さらに、そのデータを使ってさまざまな推論を行い、新たな知を生み出していく。セマンティックウェブの基本的な考え方は理想的な未来を提示しているし、人類がその段階にたどり着かなければいけないことも、いずれたどり着く事も思い描かせる強力なビジョンだ。一方で、その理想的な未来が訪れたときにどんな新しい事が可能になるのか。実は一番面白いはずの部分である、その具体的な応用性や展望が見えない事も、残念ながらセマンティックウェブの特徴である。
でも、アレ?デジャブを感じないだろうか。
還元論的に要素に分解して細分化された生命の知識を、個別の分子の挙動だけでなく細胞全体としてシステムとして理解し、定量的かつ網羅的な測定に基づいたシミュレーションやモデリングを駆使して、動的な細胞システムを理解する。そう、システムバイオロジーに何かが似ているのだ。生命は複雑な、でもnen-metaphysicalなもので、システムとして理解できるはずの対象。系として理解する事で、生命とは何かが明らかになるはず。そんなpromisingな概念のシステムバイオジー。最初の数年は学会を開く度に「システムバイオロジーとは何か」というパネルディスカッションを開き、研究論文よりもレビュー論文が多く書かれ、それが何をもたらすものなのかを定義できなかった新領域。
誤解を恐れずに、そして多少のsarcasmを含めて言うならば、システムバイオロジーは単なるバズワードだった。別にベルタランフィやウィーナーを持ち出すまでもなく、生理学や代謝光学ではそんなことを当たり前にやっていたし、方法序説をちゃんと読んでいれば、還元論とは要素に分解し、それを再構成して理解することだとデカルトがすでに350年前に言っていたことがわかる。最近のICSBではただのシーケンスしただけのメタゲノムとか測っただけのPPIとかがずらーっとポスターに並ぶし、もはやシステムバイオロジーは分子生物学と同義になった。
だから、セマンティックウェブもそうなればいいと思う。セマンティックウェブの概念は間違いなくpromisingだし、美しい未来を描いている。コアなコラボレーションの中から重要な標準化がうまれれば良いし、データ統合という方向で最近はやや下り坂なバイオインフォマティクスに予算がつけばありがたいし、みんながデータがリンクされ公開され、セマンティックスがつく事が大事だと、緩く意識の共有ができていけばいいと思う。そのためには、いろいろな「セマンティックウェブ」や「Linked Data」の解釈を許して、みんなの「セマンティックウェブ」や「統合データ」を許しつつ、元気に議論していけたらいいんじゃないだろうか。システムバイオロジーから学ばせてもらえる、学ぶべき点はいろいろあるんじゃないかな。
[iTunes]
| [歌詞]
|
[permalink]
BioHackathon 2010
2010.02.12
BioHackathon2010終了。dokky, cory, それから遠隔参加で大量のアイコンを作ってくれたyvesたちと4日間で開発したG-language Bookmarklet(コードネームCube)を公開開始。ただ、まだ作りたいものの20%もできていない感じなので、バグレポートなどはもうちょっと待って下さい。6月までに正式公開できるよう開発を続けていきます。まぁでも非常に反響は良いし、「こんなことできたらいいな」という意見も多く、想像をかきたてることができるツールだとうけとめられているのは嬉しい。BioHackathonももう3回目なので、「今年もプレゼン素晴らしかったよ」と、"again"という単語でみんなにほめられるのもありがたい。今年も大変楽しませてもらいました。スタッフの皆様、ありがとうございました。さて、Cubeは楽しいオモチャだけれど、その設計思想は過去5年間以上練ってきた構想に基づいている。知っておいてもらいたいので、以下にまとめます。
セマンティックウェブが解決を試みる重要な点は主に三点。1.RDFによるシンタックスの共通化、2.URIやpredicate推論によるデータのリンク、そして3.セマンティックスの追加だ。全てのデータが、関連する他のデータとつながり合う膨大なグラフを想像すると分かりやすい。僕らは既に、WWWを知っている。幾億ものウェブサイトがリンクによってつながり合うウェブのように、その中の(本当はWWWにまだ含まれていないデータの方が多いが、それらを含めた)データまでもがつながり合う膨大なグラフ。
僕らはWWWを知っているから、さらに膨大なセマンティックウェブに関しても容易に想像することができる。まず、セマンティックウェブはスケールフリーネットワークであり、スモールワールド性を持つだろう。よって、WWWと同じように非常にたくさんのリンクを持つオブジェクトとpredicateが少数存在し、それらを介して意外に少数のステップ数で全てのデータにアクセスすることができるはずだ。そして、ネットワークには非常にたくさんの、いわゆるロングテールといわれるリンク数の少ないオブジェクトやpredicateが存在し、数としてはこれらが大半を占めるだろう。
このようなデータやネットワークにあるべき検索のインターフェースとは何だろうか。まず、絶対的に、データの繋がりを利用して、グラフをたどっていけることが必要だ。これまでのデータはつながっていなかったのだから、繋がりを探せることは大前提である。しかも、スモールワールド性を利用すれば、大多数のデータに限られたステップ数でアクセス出来るはずだ。しかし、ここで問題になるのが、前から言っている通りに、ハブが膨大であるために情報の選択が困難であることだ。何から何までデータがつながっているし、スケールフリーなネットワークなので、ハブには膨大な数のリンクがある。つまり、グラフをたどろうにもハブについた途端に数万もの分かれ道に遭遇し、どこに進んでいいか分からなくなってしまうのだ。だからこそ、セマンティックウェブでの情報探索には、思い切ったスコアリングとフィルタリングが不可欠だ。SPARQLでの検索がフィルタリングベースであり、Virtuosoの検索インターフェースがファセットベースであることを知れば、この点はすでに体感できる。
さて、そう考えると、もう一方のロングテールを活用する検索は、スモールワールド性を活用する探索とは相入れないことに気づくのではないだろうか。そう、ロングテールではフィルタリングをしてしまってはいけない。Amazon.comが普通の本屋では見かけない、数冊ずつしか売れないレアな本で稼げているように、複数の疎に繋がったリンクをたどった末に辿り着ける情報、つまり既存のリンクされていないデータでは繋がることがあり得ない情報を見つけるためには、ノードの度数ではなく、エッジのbetweennessのようなものを考慮する必要がある。ただし、ロングテールな検索なので、問われる内容もまたロングテールになる。つまり、セマンティックウェブでしか解けない問題で、その問い独自の問題設定が求められる。このようなケースでは、データがセマンティックウェブとして存在してさえいれば、その問に適したSPARQLクエリをユーザが独自に設定して投げるのが一番効率が良い。つまり、クエリを簡単にするためのユーザーインターフェースが適している。
このように考えると、多くの人にとって便利なセマンティックウェブ探索インターフェースは、ロングテールを思い切って切り捨て、スコアリングとフィルタリングを大胆に行うものになる。Cubeの設計思想は、そもそもセマンティックウェブではなくLinked Dataを念頭に置いていたこともあり、このような背景の上にある。
現在、生物学のデータは、主にNCBI、EBI、そしてKEGGなどの巨大データプロバイダに集約されている。これらはデータのハブであり、ハブである状況が今後二十年の間に大きく変わるかといえば、予算のつきかたという政治的な部分を含め、スケールフリーネットワークのrich-get-richerモデルからも可能性は限りなく低いと考えるのが妥当だろう。これらのデータプロバイダはそれぞれ内部で多岐に渡る多数のデーベースを持ち、それらのデータベースは相互にリンクされている(つまり、クリークを形成している)。また、これらのデータプロバイダ間でも、データのリンクは張られているので、ハブ間のリンクが存在する。これらのリンクは極めて重要度が高く利用頻度が高いものであり、さらに各データプロバイダ内での検索は既存の検索エンジンとスコアリングがあるため、Cubeではデータの入り口をこれらのハブに限定し、さらにその中のカテゴリや検索語のヒットを強制的にトップ8個にまとめあげている。かなり強烈なフィルタリングだと言えるが、逆に日常使う80%の用途には満足できる可能性がある。また、その8個をリング上で一覧できることで、これがある入力を起点としたエッジであることを暗黙に示している。
HTML 5/Javascriptでの実装、インストール不要でクロスブラウザ、特定のアプリケーションではなく、コンテキスト依存で誰もが日常使うブラウザでどのページでも瞬時に使える実装、きびきびとした動きと音によるインタラクションなど、実装上の工夫も他数存在するが、リングコマンドがセマンティックウェブに有効な理由としてはもう一つある。それは、セマンティックウェブがTripleに基づいていることだ。RDFモデルはSubject->Predicate->Objectという、二つのデータ(ノード)を結ぶ関係(エッジ)の三者関係(Triple)で表現されている。つまり、セマンティックウェブでグラフをたどるということは、あるデータから出発し、そのデータとある関係を持つ次のデータに向かう、ということを繰り返すことになる。リングコマンドでは、コンテキスト(入力データ)をもとに、提示される8個の関係の中から一つを選び、その結果あるデータが表示される。つまり、このインターフェースは、データのTriple関係を抽象化していて、Linked dataを扱う上で適したユーザーインターフェースなのである。そして、データベース名はVirtuosoファセットブラウザでいうところの#Typeのpredicateであり、データベースカテゴリはReferencing propertiesに相当するpredicateである。
セマンティックウェブは実現できれば素晴らしいが、predicateのマッピングや、そのためのテキストマイニング技術など、まだいくつかの大きなハードルが残っている。これらの問題の解決にも、リングコマンドのインターフェースは適している。Cubeでは、NCBI、EBI、KEGGなどの主要サービスプロバイダのデータを、Tripleの概念で上述の通り検索できる。検索が終了すると、検索結果のURL(locatableなresourceを示すURI。つまりこれはSubjectに相当する。実はリングコマンドではObject->Predicate->Subjectという、RDFモデルの逆方向に進む点に注意)に辿り着く。例えば"Hexokinase"でKEGGを検索し、humanのKEGG GENEエントリを含むReactionを得たとしよう。この反応の基質を詳しく知りたい場合、1. Reactionをパースし、2. 基質が書かれている場所を同定し(テキストマイニング)、3. それが基質だというセマンティクスを認識し(アノテーション)、4. Pubchemのネームスペースで同じエントリ(same_as関係)を得なければならない(predicateマッチング)が、生物学をわかっている人がそのページを見ればalpha-D-glucoseが基質である事は一目瞭然で、そこから再度リングコマンドを呼び出し、Pubchemを検索すれば良い。さらに、十分に多くのユーザが見込める場合、Cubeのログをとることによって、半自動的にセマンティックな関係をつけることができる。
このように、Cubeは、とにかく80%の日常の検索用途を効率よく満たす、現実的なツールを目指している。そのために大胆なデザイン上の引き算を行っているし、機能はその分制限されている面もある。ただし、リングコマンドはTriple関係からデータ探索をする上で有効なインタフェースであり、データだけでなくG-language REST Serviceにみられるような、ウェブサービスの連携にも力を発揮できる。
[iTunes]
| [歌詞]
|
[permalink]
光、再考
by amazarashi
2010.02.09
だから、ああそうなのかもしれない、と、言語化できないながらも少しわかった気がするんだ。ねぇ、大きな空めいっぱいに広がる、抱えきれないばかりの美しくもこの世ではなくなってしまったかのような、錯覚ともリアルともいえない、あの雲を妖艶な桃色と橙色に染め上げ燃える夕陽のように。炎立つ羽をはためかす不死鳥のようかと思えば、巨大な生物に飲み込まれ、包み込まれた生暖かい胃袋を内側から見上げるかのような。
久しぶりに両耳を包みながら、眼を閉じてイヤホンから流れ込む音に身をゆだねる。肩をはり少し疲れた日々。君と生きる同じ時代。同じ空。変わらない、変わりゆく、代わりのない時。
光。
スマトラ警備隊
by 相対性理論
2010.02.03
Lyon (France)に行きたい。世界中いろいろなところに好きな街はたくさんあるけれど、Lyonには不思議な懐かしさを感じる。一カ所に数年以上住んだ事がない僕にはよくわからないし、住んでいた土地以外への感覚としては適切ではないのだろうが、郷愁というのはこんな感じだろうか?なんだろう、西ヨーロッパのエッセンスを集めたような、そんな街だと思う。一応約束していたタスクは一つ終了。去年の今頃のように予定の3倍ほど時間はかからなくなった(見積もりがまともになってきた)けれど、やっぱりまだ予定よりはビハインド。
修士の最終試験が終了。明日からのゼミ合宿が終われば今学期の作業としてはほぼ終了。
[iTunes]
|
[歌詞]
|
[permalink]