医学科のキリル・クリュコフ奨励研究員らが開発したゲノムデータ圧縮プログラム「NAF」が生命情報学分野の最有力誌である『Bioinformatics』のデジタル版に掲載されました

医学部医学科のキリル・クリュコフ奨励研究員(基礎医学系分子生命科学)らが、新たなゲノムデータ圧縮プログラム「Nucleotide Archival Format=NAF」を開発。2月25日、生命情報学分野の最有力誌である『Bioinformatics』のデジタル版に掲載されました。

ゲノム配列のデータベースの圧縮には、一般的に「gzip」プログラムが使われています。しかし、急速にゲノムの解析が進みつつある昨今、膨大なゲノム配列データの保存に必要な容量の確保や圧縮したデータの解凍速度の遅さが、データの保管者、利用者の双方にとって課題となっていました。クリュコフ研究員らはこうした問題を解決するため、世界トップレベルの圧縮率と圧縮・解凍速度を実現したゲノムデータ圧縮プログラム「NAF」を開発。NAFは、ゲノム解析に関する研究の作業効率を向上させ、研究の加速に大きく貢献すると期待されています。

クリュコフ研究員が所属する今西規教授の研究グループでは、独自に作成した206,000以上に及ぶバクテリアの全ゲノム配列データを蓄積した「GenomeSync」を構築しており、ここには毎週数百の新たなゲノムデータが追加されています。これらのデータをgzipで圧縮した際の容量は744GBですが、NAFを使えば548GBで済み、データの解凍も約3分の1の時間で完了。また、gzipでは177MBが必要な「SILVA」(バクテリアのリボソームRNAを網羅的に提供するデータベース)は、NAFなら容量を約5分の1に圧縮し、解凍時間を約4分の1に短縮できます。さらに、全データを正確に圧縮・解凍できることに加え、世界で標準的に用いられている主要なデータ形式に対応しているため、世界中の研究者が利用できる点も特徴です。

クリュコフ研究員は、「感染症の原因を素早く特定して治療につなげるための病原菌のゲノムデータベースの作成に取り組む中で、必要性を感じてNAFを開発しました。現在、世界中で使用されている13種類のゲノムデータ圧縮プログラムと比較しても、トップの圧縮率と解凍スピードを誇ります。より多くの研究者に利用してもらうため自由にダウンロードできるようにしたところ、ゲノムデータを扱う国内外の研究機関や研究者から数多くの問い合わせがあり、すでに200件以上ダウンロードされました。また、3月6日に首都大学東京南大沢キャンパスで開催された第13回日本ゲノム微生物学会年会でNAFについて講演したところ、大きな反響があり、手応えを感じています。今後は、データを圧縮したままゲノム配列の検索を行える方法も研究し、本来の目的であるゲノムを用いた診断システムの構築を加速・進展させたい」と意欲を見せています。

キリュコフ研究員サマリー_525.jpg

クリュコフ研究員_525.jpg

PDFダウンロード