全エクソーム解析とは

全エクソーム解析(Whole Exome Sequencing;WES)とは、ゲノム全体のうち主にタンパク質をコードする領域であるエクソン領域を対象にした次世代シーケンス解析です。

ヒトゲノム全体をすべて読む全ゲノム解析(Whole Genome Sequencing;WGS)とは異なり、WESでは疾患や表現型に関係しやすいコード領域を中心に解析します。
そのため、WGSよりもデータ量を抑えながら、遺伝子変異や疾患関連変異を効率よく調べることができます。
WESは、がん研究、遺伝性疾患研究、細胞機能解析、表現型に関わる変異探索など、さまざまな生命科学研究で用いられています。

WESでわかること

WESでは、主に遺伝子のコード領域に存在する変異を解析します。
具体的には、一塩基置換(SNV)短い挿入・欠失(indel)がん細胞に生じた体細胞変異生殖細胞系列変異などを検出します。
これらの変異を既知のデータベースや遺伝子機能情報と照合することで、どの遺伝子変異が表現型や疾患に関係している可能性があるかを調べます。

WESの目的は、単に塩基配列を読むことではありません。
得られたデータから信頼できる変異を選び出し、その変異が生物学的にどのような意味を持つのかを解釈することが重要です。

WES解析の流れ

まずwetの実験工程では、細胞や組織などからゲノムDNAを抽出し、DNAを断片化してシーケンス用のライブラリを作成します。
その後、エクソン領域を中心としたターゲット領域を濃縮し、次世代シーケンサーで配列を読み取ります。

シーケンシング後には、FASTQファイルと呼ばれるデータが得られます。
FASTQには、各リードの塩基配列と品質スコアが含まれています。
ここからdryの実験工程として、リードの品質評価、リファレンスゲノムへのマッピング、重複リードの処理、変異検出、フィルタリング、変異アノテーション、統計解析、可視化、生物学的解釈へと進みます。

WESと他のオミクス解析の違い

WESはDNA配列のうち主にエクソン領域を解析する手法です。
WGSはゲノム全体を解析するため、非コード領域や構造変異も含めて広く調べることができます。
ターゲットシーケンスは、特定の遺伝子や領域だけを高深度に解析する手法です。

それぞれの解析には得意な目的があります。
WESは、コード領域に存在する変異を網羅的に探索したい場合に適しています。
一方で、遺伝子発現の変化を知りたい場合にはRNA-seq、クロマチン状態を知りたい場合にはATAC-seqやCUT&Tagなど、研究目的に応じて解析手法を選択します。

WES解析で重要な品質評価

WES解析では、シーケンスデータの品質を確認することが非常に重要です。
例えば、リードの塩基品質、アダプター混入、GC含量の偏り、マッピング率、重複率、オンターゲット率、平均カバレッジ、ターゲット領域のカバー率などを確認します。
これらの指標は、解析結果が信頼できるかどうかを判断するために必要です。

WESでは、検出された変異がすべて真の変異とは限りません。
シーケンスエラー、マッピングエラー、低カバレッジ領域、PCR重複、サンプル品質の違いなどにより、偽陽性や偽陰性が生じることがあります。
そのため、dry解析では単にツールを実行するだけでなく、QC結果を読み解き、解析条件や結果の妥当性を判断する力が求められます。

WES解析に必要なスキル

WES解析には、生命科学と情報科学の両方の知識が必要です。
具体的には、分子生物学/遺伝学/ゲノム科学/統計学/Linux環境での解析/PythonまたはRによるデータ処理/ゲノム解析ツールの利用/データベース検索/可視化/論文をもとにした生物学的解釈などです。

また、FASTQ、BAM、CRAM、VCFといったファイル形式の理解も重要です。
WES解析では、データの前処理から変異検出、アノテーション、統計解析、可視化までを一連の流れとして扱うため、再現性のある解析ワークフローを構築する力も必要になります。

当研究室におけるWES解析

当研究室はwetの研究室ですが、バイオインフォマティクス/データサイエンス分野のdry研究を行う大学院生を募集しています。
さまざまなオミクス解析を行っており、シーケンシングそのものは外部機関に委託していますが、ライブラリ作成までのwet工程と、FASTQ以降の解析は研究室内で行っています。

そのため、dry解析を担当する学生も、データがどのような実験工程から生まれるのかを理解しながら解析に取り組むことができます。
WES解析では、実験条件、DNA品質、ライブラリ作成、シーケンス深度、ターゲット領域のカバレッジ、変異検出、統計解析、生物学的解釈がすべてつながっています。
wetの現場を理解したうえでdry解析を行うことは、オミクス研究において大きな強みになります。

WESはバイオインフォマティクス研究の入り口になる

WES解析は、バイオインフォマティクスを学ぶうえで非常に良いテーマです。
FASTQ品質評価、マッピング、variant calling、VCF解析、変異アノテーション、統計解析、可視化という、ゲノム解析の基本的な流れを一通り経験できるためです。
一方で、実際のWESデータにはカバレッジの偏り、サンプル間のばらつき、偽陽性変異、解釈の難しい変異などが含まれるため、研究としての奥深さもあります。

当研究室では、WESを含むゲノム解析だけでなく、RNA-seq、single-cell解析、空間トランスクリプトーム解析、エピゲノム解析など、さまざまなオミクスデータを扱います。
生命科学の問いをデータ解析の問題に落とし込み、解析結果を再び生物学的な仮説へ戻す研究に興味がある方を歓迎します。

技術記事一覧へ戻る