Nabe International | Takeru Boost >> Takeruを回せ! >>

Galaxyをわかりたい!(1) Galaxyのキホン

webベースのバイオメディカル解析プラットフォームとしてもはや定番と言ってもいいGalaxyですが、「名前は聞いたことあるけれど使ったことはない。」「便利らしいけれどどう使うのかわからない。」という方も多いと思います。ここで基本に立ち返って、Galaxyとは何なのか、大まかにご紹介します。

Galaxyの生い立ち

Galaxyは2005年に開発がスタートし、2007年に公共サーバーが公開されました。以降Penn State University, Johns Hopkins university , Oregon Health & Science University, Cleveland Clinicの共同コミュニティを中心にオープンソースで開発が続けられています。また開発者やユーザーが参加するカンファレンスやワークショップが世界各地で行われています。 Galaxyにはツールを追加するためのToolShedという仕組みがあり、GalaxyにおけるAppStoreとも言えるものです。開発元のToolShedでは、2019年9月の時点で 7354のツールが配布されています。これらのツールは開発者が自由に公開でき、ローカルやクラウドの自前Galaxyの管理者は自由にインストールできます。各地の開発者がさまざまなツールを作ることで、対応ツールの増加を加速させていると言えるでしょう。

本家の公共Galaxy

Galaxy開発元の公共サーバーです。インターネット経由で誰でも無料で使うことができます。ユーザーアカウントを作らずに使うこともできますが、ワークフローの機能を使うにはアカウントが必要です。またアカウントを作ることで、別の場所からでも持続した解析を行うことができます。 https://usegalaxy.org 基本的には以下のような流れで解析を行います。
    1. データを右側のヒストリーにアップロードする
    2. 左側のツールパネルからツールを選ぶ
    3. 中央のパネルで入力データやパラメータを選ぶ
    4. ジョブを実行
    5. 実行結果が右側のヒストリーに表示される
開発元でも基本的な使い方のハンズオン資料を提供しています。 https://galaxyproject.github.io/training-material/topics/introduction/tutorials/galaxy-intro-short/tutorial.html

その他の公共Galaxy(地域別、目的別)

開発元が公開しているものの他にも多くのサーバーが公開されています。基本的な使い方はいずれも同じですが、サイトによってはユーザー登録が必要な場合があります。 Galaxy Platform Directoryで目的別に探すことができます。 https://galaxyproject.org/use/ ツールが多くインストールされているUseGalaxyは、本家の他にヨーロッパ、オーストラリアで公開されています。 https://usegalaxy.eu (Europe) https://usegalaxy.org.au (Australia) そのほか、ある解析に特化したGalaxyも多数公開されています。ツールが絞られているかわりに、UseGalaxyには入っていないツールや独自に開発されたツールがインストールされています。以下がそのようなサイトの例です。 最近の動向としては、EBIがシングルセル向けのGalaxyツールを複数開発し下記のHuman Cell Atlas Galaxyに乗せています。 https://galaxyproject.org/use/human-cell-atlas/ (シングルセル解析に特化) https://hicexplorer.usegalaxy.eu (Hi-C解析に特化) http://huttenhower.sph.harvard.edu/galaxy/ (メタゲノム解析に特化)

公共Galaxyでできること、できないこと

多数のツールがインストールされた公共Galaxyをインターネット経由で使えるのは大変便利ですが、一方で制限もあります。たとえばusegalaxy.orgの場合のできることとできないことを見てみましょう。
できること 制限 or できないこと
900以上のツールがインストール済
レファレンスが多くの種から選べる
誰でも無料で利用可
公開データライブラリの利用
公開ヒストリー,  公開ワークフローの利用
ワークフローの作成
データライブラリの作成
ToolShedからのツール追加
レファレンスの追加
ユーザーあたり同時実行のジョブは6つまで
ユーザーあたり使用可能なストレージは250GBまで
当然ながら、公共Galaxyでは管理者権限の必要な操作はできません。たとえばユーザーごとの使用リソースに上限がありますが、それを増やすことはできません。公開されているデータライブラリを使用することはできますが、自分用に作ることはできません。 このほか、公共Galaxyは不特定多数のユーザーがアクセスするサービスですので、どうしても応答が悪かったりジョブ実行が遅かったりすることがあります。また実験データの内容によっては、セキュリティ上インターネット経由での解析は難しい、ということもあるでしょう。 このように公共Galaxyは、個人ユーザーがあまり大きくないデータで試す、といった用途には良いのですが、チームで共有しながら本格的に解析を進めるとなるといろいろと縛りがあります。以下は開発元が提供しているGalaxy選択のヒントです。公共サーバー、ローカルインストール、クラウド、コンテナ、VMを比較しています。近年はGalaxyのDockerイメージも配布されておりそれも選択肢の1つです。 https://galaxyproject.org/choices/

ダウンロードしたばかりの素のGalaxyはこんな感じ

Galaxy本体をローカルにインストールすること自体はあまり難しいものではなく、開発元のインストール手順に書かれているミニマムなrequirementはOS(Unix/Linux or Mac OSX)とpython2.7のみです(※実際にはgitコマンドも必要です)。 https://galaxyproject.org/admin/get-galaxy/ しかし書いてあるとおりにインストールし、webブラウザからアクセスしてみると...。 公共サーバーとは見た目からしてだいぶ違っています。ダウンロードした素のGalaxyは、ツールがとても少なく、レファレンスも設定されておらず、標準ではオフになっている機能が多くありミニマムな状態です。シングルユーザーが手元で試してみたい、という場合にはMacでも動作します。しかしwebサーバー、データベースサーバーとしての機能も最小限ですので、このままの状態だとチームで共有するための解析プラットフォームとしては実用的ではありません。なおDocker版も最初は同じようにミニマムな状態のGalaxyです。 逆に言えば、カスタマイズの自由度が高いということでもあります。前述した3つの地域別公共サーバー(UseGalaxy)を見比べてみても、デザインやインストールされているツールはそれぞれ違っています。自分専用のミニマムなものから、多数ユーザーがアクセスする公共サーバーまで使い方はさまざまです。カスタマイズに必要な材料は開発元から提供されていますので、ローカルにインストールしたGalaxyに対して目的や環境に合わせて必要な機能やツールを加えることで、理想の解析プラットフォームに近づいていくというわけです。

この状態から機能追加・ツールを揃えて構築していく

Galaxy導入にあたり考慮するポイントは
  • ユーザー数
  • 解析内容(分野、どんなツールを使いたいか)
  • ユーザーの範囲 (ラボ内だけか、共同研究者など外部からのアクセスがあるか)
  • データの種類 (サイズ、数、新しいものが続々と来るか、同じものを繰り返して使うか、など)
  • 使用パターン (ルーチンで同じツールを繰り返し実行するか、いろいろなツールをインタラクティブに使うか、など)
  • ハードウェア環境 (計算ノードが何台もあるクラスターシステムか、ワークステーション1台か、など)
といったものでしょうか。 しかしそもそもGalaxyにどのような機能があるのか、どんな設定ができるのかを知っていないと完成形が想像できないものです。先に書いたように、Galaxyには標準ではオフになっている設定や機能がたくさんあります。それらはユーザーとしてwebUIから使うときにわかるものもあれば、管理者のみ知ることのできる設定やバックエンドのサーバーの機能でユーザーからは見えないものもあります。次回のポストで、どのような機能があるのかをご紹介したいと思います。