NABE

Takeru Elysia

生物医学研究向け大規模データ解析環境

Takeru: Beowulf Cluster Reference System   

ビッグデータ解析の技術を、生物医学研究へ。

HPC/テクニカルコンピューティング

HPC(ハイパフォーマンスコンピューティング)やテクニカルコンピューティングと呼ばれる大規模科学技術計算においては、並列処理が長らく標準とされてきました。一つのジョブを複数のタスクに分割して各ノードに配置し、ノード間通信を密にジョブを高速処理する標準的な並列処理に対し、膨大なデータを多数のジョブに分割し、それぞれを独立に処理する(ノード間通信をほとんど行わない)手法はデータ並行処理と呼ばれます。

ナベ インターナショナルは、ゲノムをはじめとする生物医学データ解析における問題解決を第一義として、コストパフォーマンスに優れたデータ並行処理システムを中心にお客様へ提案してまいりました。

限界の存在

パソコンの世界でおなじみの4GBの壁や2TBの壁のように、計算機の世界では常に新しい技術と従来の技術における互換性の問題がありました。新しい技術により革新的な処理能力や容量を獲得できますが、一方で過去の資産を捨てきれずその革新的な性能を十分に活かせない、ということが往々にしてありました。ここでいう過去の資産には、ハードウェア、ソフトウェアももちろんですが、習得した技術や学習コストも含まれます。

次世代シーケンシングによるゲノムデータに照準をあてて考えると、従来からあるわかりやすい解析基盤にて、かつわかりやすい操作方法で解析できるように、さまざまな取り組みが行われてきました。しかし、世界各地で開発されたオープンソースのソフトウェアを組み合わせ、標準的な形式ではあるものの巨大なファイルを変換に変換を重ねて解析をし、多くのエンジニアが知っているリレーショナルデータベースで結果を結びつけるというやり方には、大量のデータを取り扱うケースにおいてそろそろ限界があるのかもしれません。知識を蓄積する、そしてその蓄積を用いて従来不可能であった大規模な解析による新しい知見を得ることを目指す場合に、まさにこれは「壁」にあたっていると言えます。

商用コンピューティングとビッグデータ解析

一方、クラウドなどウェブベースの技術を中心とした商用コンピューティングの世界においては、典型的なデータベースに整然と蓄積されるデータにとどまらない、いわゆるビッグデータ解析の盛り上がりが年々大きくなっています。

このビッグデータ解析の処理基盤として近年主流になりつつあるのが、大規模分散処理フレームワークApache Sparkです。従来の主流であったHadoop/MapReduceに比してインメモリ技術により処理を高速化したApache Sparkは、構造化データ処理・ストリーム処理・機械学習・グラフ処理など多様なコンポーネントを備えているメリットもあり、多数のパブリッククラウド事業者が採用しています。

HPC/テクニカルコンピューティングと商用コンピューティングでは、ファイルシステムやストレージの置き方など考え方が異なることもあり、HPCシステムとして商用コンピューティングの技術が大規模に採用されるケースはこれまで稀でした。

生物医学データ解析におけるApache Sparkの可能性

しかし、実験や計測、医療情報などの各機器が高性能化するに従い、産出されるデータ量は爆発的に増えていきます。次世代シークエンシングデータ解析者は、シーケンサーの進化がムーアの法則を凌ぐという図表を何度も目にしているでしょう。さらに、大量の画像やテキストを対象にディープラーニングなど人工知能の手法を適用する研究が、生物医学分野においても盛んになってきました。例えば、機械学習の有名なコンペであるKeggleのData Science Bowlにて、2017年の学習対象は肺がんCT画像データでした。

つまり、ビッグデータ解析を中心とした商用コンピューティング技術を生物医学研究に導入する必要性が増し、また導入によって新しい手法への可能性が広がることが期待できます。その鍵となる技術がApache Sparkである、とナベ インターナショナルでは考えています。

実際、次世代シークエンシングデータの変異解析に広く使用されるGATK(Genome Analysis Toolkit)が、オープンソース化されたバージョン4(2018年初頭リリース)からApache Sparkを採用。ゲノムデータ解析にApache Spark導入の潮流が生まれていることを示しました。

Takeru Elysiaへ

ナベ インターナショナルは、コストパフォーマンスに優れた生物医学研究向け大規模データ解析環境として、Apache Sparkを採用したTakeru Elysiaをリリースいたしました。

食べた藻の葉緑体を自らに取り込み光合成する動物 Elysia chlorotica のように、Takeru Elysiaは、ディープラーニングなどビッグデータ解析の技術を生物医学データ解析に取り込む環境を構築します。継続的にアップデートを行うTakeru Elysiaを基盤として、ユーザーは成長途中の生物医学データ解析エコシステムを形成する新技術および新手法を検証・採用しながら、爆発的に増加するデータに対して新たな解析手法の扉を開くことができます。

Apache Sparkについて

Apache Sparkは、オープンソースのビッグデータ並列分散処理基盤です。エンジン部分のSpark Coreと、用途別ライブラリ群(構造化データ処理Spark SQL、ストリーム処理Spark Streaming、機械学習MLlib、グラフ処理GraphX)にて構成されています。

高速処理

「ストレージのデータ(ファイル)をreadし、分散処理し、ストレージにwriteする」というデータ処理フローにおいて、同様の分散処理基盤であるMapReduceが処理毎に読み書きを繰り返すのに対し、Apache Sparkは分散処理の中間結果をメモリ上に置くことでストレージI/OやネットワークI/Oを減らし、処理を高速化させます。

ディープラーニング向け

さまざまな機械学習アルゴリズムを利用可能なライブラリMLlibがApache Sparkには標準で含まれている(2018年5月現在、spark.mllibよりspark.mlのほうが最新)他、TensorFlow、Caffe、Keras等の主要な深層学習フレームワークやAmazon、Google、Microsoft等の主要なパブリッククラウドがApache Sparkに対応しており、「AIによるビッグデータ解析」基盤のいわばデファクトスタンダードとなっています。

世界の研究予算

2018年、世界で深層学習を中心とした人工知能技術に多額の研究予算が分配され、また技術の社会実装が進む中、日本でも例えば保健医療AI研究の国家予算が倍増しています。Takeruをご使用の研究者の皆様からも、データインテンシブな生物医学研究の隆盛をもたらした次世代シークエンシングに加え、その他の様々なデータを統合的に解析するための機械学習・深層学習技術の導入について、ご相談を受けるケースが増えてきました。

Takeru Elysia 仕様

Takeru Elysiaは、以下4つの層から構成されています。

Takeru Elysia アプリケーション

GATK4構築済み(Apache Spark対応)

※2018年5月末現在、HaplotypeCallerSparkを含めてbeta版のモジュール多数

Takeru Elysia フレームワーク

Apache Spark(Spark Core)、HDFS構築済み

Takeru Elysia 構成図

Takeru Elysia 解析サーバー

ハードウェア:CPU重視構成
ラックマウントサーバー(12-core CPU、128GBメモリ、128GB SSD - システム用、6TB HDD×4 - HDFS用、10GbEネットワーク×2)×4台
ネットワークスイッチ、無停電電源装置
搬入・設置・動作確認含む
システムオンサイト保守(納入後1年間)およびTakeru Project-Lifetime Support含む
ハードウェア:ノード数重視構成
miniタワーサーバー(8-core CPU、64GBメモリ、128GB SSD - システム用、6TB HDD×2 - HDFS用、10GbEネットワーク×2)×8台
ネットワークスイッチ
搬入・設置・動作確認含む
システムオンサイト保守(納入後1年間)およびTakeru Project-Lifetime Support含む
ハードウェア:GPU構成
ラックマウントサーバー(12-core CPU、NVIDIA GeForce GTX 1080 Ti 相当GPU×2、128GBメモリ、128GB SSD - システム用、8TB HDD×3 - HDFS用、10GbEネットワーク)×4台
ネットワークスイッチ、無停電電源装置、PDU
搬入・設置・動作確認含む
システムオンサイト保守(納入後1年間)およびTakeru Project-Lifetime Support含む

Takeru Elysia サポート

システムオンサイト保守1年間(Takeru Project-Lifetime Support含む)


Linuxは、Linus Torvaldsの米国およびその他の国における登録商標または商標です。その他記載された会社名及び製品名等は、該当する各社の商標または登録商標です。
© 1998 NABE International Corp.