データサイエンスとは

データサイエンスとは、膨大なデータを分析し、解釈・予測する研究分野です。
そのためにデータの前処理、特徴量設計、モデル構築、評価、可視化などを行う必要があります。

データサイエンスでは統計学や情報工学を用いますがそれだけでは足りず、分析結果を活用するためにその分野の専門知識(ドメイン知識と呼ばれます)が必要になります。
専門知識が生物学分野の場合、バイオインフォマティクスとなります(厳密にはデータの収集・保存もバイオインフォマティクスに含まれますので完全な内包関係にあるわけではありません)。 ちなみに、データサイエンスに類似した言葉としてデータアナライシス(データ分析)がありますが、こちらは名前の通りデータの分析に特化しています。
データサイエンス的手法を使うのでデータサイエンスの一分野でありますが、データサイエンスが未来の予測も含むことが多いのに対しデータから過去の知見を得ることが多いのがデータアナライシスです。

当研究室におけるバイオインフォマティクスとデータサイエンスの使い分け

前述したように、本来はバイオインフォマティクスはデータサイエンスの一分野で、データサイエンス的手法を生物学分野のデータに適用したものです。
しかし、当研究室では過程を4つに細分し、図1のような関係でバイオインフォマティクス、データサイエンス(、データアナライシス)という言葉を使っています。
なぜなら当研究室は主にwet実験の研究室であり、dry研究の結果をwet研究に還元することが目的だからです。
言い換えると、dry研究で得られた結果を同じ研究室内でwet研究に還元できることが当研究室の強みとも言えます。

当研究室におけるバイオインフォマティクスとデータサイエンスの使い分け
図1. 当研究室におけるバイオインフォマティクスとデータサイエンスの使い分けを図示したものです。


4つに細分された過程とは、次のとおりです。
まず理論生物学があり、数理モデラがデータ解析をするための基盤となる数学的理論の開発を行います。
次にツール作成があり、プログラマがその数学的理論をツール化します。
なお一般的にも、数理モデラがプログラマを兼任することがほとんどですし、理論生物学に基づかないツールの開発を後述するデータサイエンティストがプログラマを兼任して行うことも多いです。
それからデータサイエンスがあり、データサイエンティストがツールを駆使してデータ分析のための基盤を構築します。
通常、上流解析と呼ばれる過程です。
最後にデータアナライシスがあり、未来の予測、過去の知見の取得に限らず、何らかの生物学的解釈をデータアナリストが得ます。
通常、下流解析と呼ばれる過程で、一般的にもデータサイエンティストがデータアナリストを兼任することが多いです。
当研究室では「バイオインフォマティクス」といった場合はこの「上流解析と下流解析を合わせたもの」を指すことが多く、「データサイエンス」といった場合は「上流解析」または「上流解析+機械学習による予測」を指すことが多いですが、場合によっては「ツール開発(理論生物学+ツール作成)」を指すことがあります。

当研究室におけるデータサイエンス

現在、各記事準備中

  • ツール開発
    • ネットワーク解析系
      • SGCRNA
      • miRNA-mRNA-タンパク質データを基にした翻訳制御ネットワーク解析
    • 機械学習系
      • RNA発現量からタンパク質発現量を予測するモデル
技術記事一覧へ戻る