Takeru Elysia news!¶
大規模GWASやPRS研究を可能にするHail(4)¶
Takeru ElysiaはApache Sparkが利用可能な大規模計算プラットフォームです。従来のジョブスケジューラーを用いたものと異なり、複数台の計算機を使う同じcluster構成でも、次のような特徴を持っています。
- 自分でデータ分割をする必要がない
- 並列処理を自動実行してくれる
- 計算にnfsを使用しないため、ファイルI/Oがボトルネックになりにくい
- 高い拡張性を持っており、数ノードからスタートして数百ノード以上にスケールすることができる
動作するソフトウェアやライブラリの中にはGATKといったメジャーなものもありますが今回は大規模なGWASやPRS(Polygenic Risk Score)を用いた研究ができる、Hailについてお話しします。近年、各種バイオバンクが充実してきており、数年まではできなかったことが可能になってきているようです。Apache Spark上で動作するHailなら、いくつものバイオバンクのデータを読み込み、自在にフィルターや変換、アノテーションをしていくことで新しい知見をより早く得ることができます。
今日の内容: 4node(注1)構成のhai上に1.3TBのvcfファイルをロードし、gwasの過程をモニターする
(注1: 正確にはerasure codingを実現するためにhadoop datanodeだけは5node動作しています)
(注2: 今回は大きめのデータを使って実際に動作させることを目的にしますので、生物学的な意味あいは考慮しないデモとします)
ハードウェア構成
テストに使用したSpark Clusterは下図の構成を縮小したもので、
ノードあたりの仕様は次のとおりです
|
CPU |
Memory |
SSD |
Network |
spk000-003(k8s cluster, hdfs datanode) |
Intel Xeon x2 32core |
384GB |
2TB SSDx5 |
10GBase-T |
spk000-003(hdfs datanode) |
Intel Xeon x2 12core |
16GB |
2TB SSDx5 |
10GBase-T |
4node合計で、128coreのCPU、1.5TBのメモリ、50TBの物理容量のSSDが利用可能です。
今回は動画での紹介です。ぜひご覧ください。
[video width="1280" height="720" mp4="http://www.nabe-intl.co.jp/takeruboost/wp-content/uploads/2020/06/Takeru-Boost-Hail紹介4.mp4"][/video]