Nabe International | Takeru Boost >> Takeruを回せ! >>

大規模ゲノムシークエンシングデータ解析におけるApache Sparkの応用例

技術ブログにひょっこり顔を出すマーケティング担当(渡辺り)です。執筆内容の前に表示フォントが気になって仕方ないため、なんとか変更できるようこれから調べてみます(弊社公式サイトでは、少しずつですがフォントのユニバーサルデザイン化を進めております)。   さて今回は、大規模ゲノムシークエンシングデータ解析におけるApache Sparkの応用例として、Cell誌の論文Large-Scale Exome Sequencing Study Implicates Both Developmental and Functional Changes in the Neurobiology of Autism (Satterstrom et al., 2020, Cell 180, 568–584. https://doi.org/10.1016/j.cell.2019.12.036) を紹介します。   論文本体は計35,000以上のサンプルを用いた大規模なエクソーム解析に関するものであり、データ解析ソフトウェアの名前が一部出現する程度ですが、Cell誌は2016年頃から詳細な手法をSTAR(Structured, Transparent, Accessible Reporting) Methodsとして解説せよとしており、そこで使用されたソフトウェアやアルゴリズムを確認できるようになっています。例えば本論文では、STAR Methodsに本文とほぼ同分量のA4サイズ12ページ分を費やしています。このSTAR Methodsを読むと、データ処理・解析のさまざまな段階にて、Apache Sparkに対応したGWAS解析ソフトウェアHailを使用していることがわかります。   では、このSTAR Methodsを細かく見ていきましょう。まず、解析対象データの前処理を終え(Illumina社Hiseqから出力されたデータをBWAでGRCh37/hg19データベースにアライン→できたBAMファイルをPicardで重複除去→GATKで変異をコールしてVCFファイルを出力)、いよいよ定量化および統計解析となるわけですが、ここでのデータ取扱いはほぼHail上にて行われているとのことです。約29,000個のエクソームを含むVCFファイルはHail 0.1に流し込まれ、基礎的なQC(クオリティコントロール)が実施されています(※”Dataset Quality Control, QUANTIFICATION AND STATISTICAL ANALYSIS” より)。   本論文では、サンプルレベルのQC+バリアントレベルのQCが各2回実施されていますが、まず1回目のサンプルレベルQCにて早速Hailの機能が使用されています。家系や性別のimputationにHailのibd() functionやimpute_sex() functionを用い、血統情報の正確性をチェックしています(※”Round 1, sample-level quality control, Dataset Quality Control, QUANTIFICATION AND STATISTICAL ANALYSIS” より)。   その後、1回目のバリアントQC(ジェノタイプのQCを含む)、2回目のサンプルQCと2回目のバリアントQCを経て最終的なVCFファイルを確定し、新規や希少のバリアント解析に進みます。最終VCFファイルの26,000を超えるサンプルデータセットについて、GQ(genotype quality)が一定値以下のものをフィルタリングしてから、Hail 0.1のde_novo() 機能を用いてde novoバリアントをコールします(※”De novo variation, Defining rare and de novo variants, QUANTIFICATION AND STATISTICAL ANALYSIS”より)。   希少バリアントについても、自分達の持つ生データセットと1000 Genomesプロジェクトのジェノタイプをマージし、5,000個の共通SNPに対しHailにて主成分分析を実行、probable ancestryを計算するという過程があります(※Rare case-control variation, Defining rare and de novo variants, QUANTIFICATION AND STATISTICAL ANALYSIS”より)。   Apache Spark上にての主成分分析は大規模データ解析における次元圧縮の手段として一般的な使い方ですが、ゲノムシーケンスデータのQCにもApache Spark/Hailを使えることが、本論文のSTAR Methodsから窺い知れます。今後も、ゲノムを中心とするバイオメディカルデータにおけるApache Sparkの活用に、マーケティング担当として注目していきたいと思います。