インタビュー

理研が目指す「科学のためのAI」とは何か? 科学研究AIの最前線

生成AIと大規模研究データを組み合わせた「科学研究基盤モデル」とは?

 CEATEC 2024の25周年特別企画である「AI for All」に、理化学研究所(理研)が出展する。「理研がめざす『AI for Science』-科学研究の革新-」をテーマに、科学研究におけるAIの活用について紹介。コンファレンスや特設ステージでの講演を通じて、AIの最前線の取り組みを公開する。

 そして、スーパーコンピュータ「富岳」の後継として注目される、我が国の「次世代フラッグシップシステム」が果たす役割にも触れる予定だ。

 同研究所の松岡聡氏(計算科学研究センター センター長)と泰地真弘人氏(最先端研究プラットフォーム連携事業本部科学研究基盤モデル開発プログラム プログラムディレクター)に、CEATEC 2024に出展する狙いなどを聞いた。

「AIによる科学支援」の最前線、そして「科学研究の革新」を紹介

理化学研究所 計算科学研究センター センター長の松岡聡氏

 「AI for All」は、CEATEC 2024の25周年特別企画として、展示会場全体の中央部分(ホール4およびホール5)に設置される。23の企業および団体が出展するとともに、コンファレンスや特設ステージでの講演が行われ、AIによって大きく変わるこれからの未来社会や、最新技術を発信する場になっている。

 そのなかでも注目を集めているのが、理研の出展である。

 理研では、CEATECがオンライン開催となった2020年に、稼働したばかりの富岳を中心とした内容で初出展し、CEATEC AWARD 2020総務大臣賞を受賞。2021年には、高度情報科学技術研究機構(RIST)とともにオンラインで出展。スパコン世界ランキングで4冠を獲得した富岳の「性能の高さ」と「裾野の広さ」を訴求してみせた。また、2022年には、幕張メッセ会場でのリアル展示を初めて行い、Society 5.0の実現に向けた理研の研究成果を公開。富岳や量子コンピュータを特設展示で紹介した。

 理研では、科学研究の革新にAIを活用する「AI for Science」に取り組んでおり、今回のCEATEC 2024では、「AI for Science」によって実現するAIの科学支援高度化の最前線動向や、科学基盤モデルの確立からAIによる科学プロセスの実行、AI for Scienceのための計算基盤の確立、それを支える「次世代フラッグシップシステム」の意義や、AIとシミュレーションの融合による計算科学の革新への取り組みなどについて紹介することになる。

 出展するのは、理研の中でも、計算科学研究センター(R-CCS)および最先端研究プラットフォーム連携(TRIP)事業本部 科学研究基盤モデル開発プログラム(AGIS)となる。

 「CEATECは、科学や技術の将来像を見せる展示会である。また、産業界や学術界から、幅広い層の来場が期待され、政府と連携した展示やコンファレンスも行われるユニークなイベントである。今回のCEATEC 2024では、理研としては過去最大となるブース規模で出展し、政府関係者や産業界の経営層、若手技術者および研究者に、理研が取り組んでいる『AI for Science』がもたらす科学研究の革新をぜひ体験してもらいたいと考えている」と語る。

16日にコンファレンス、18日には研究発表を予定

理化学研究所 最先端研究プラットフォーム連携事業本部科学研究基盤モデル開発プログラム プログラムディレクターの泰地真弘人氏

 とくに、注目してほしいと語るのが、開催2日目の10月16日10時30分から、幕張メッセ国際会議場コンベンションホールBで行う「理研がめざす『AI for Science』-科学研究の革新-」と題したコンファレンスだ。

 泰地氏が、特定科学分野指向の生成AIモデルの開発を行う「科学研究基盤モデル開発プログラム(AGIS)」の活動を紹介する。また、松岡氏は、科学研究向け生成AIモデルの開発に必要な計算環境の構築や、シミュレーションとAIとの密連携処理を可能とするシステムの構築を進める計算科学研究センターの活動を紹介。富岳の後継となる、「次世代フラッグシップシステム」にも言及することになる。

 さらに、会期最終日となる10月18日には、展示会場のAI for Allエリアの特設ステージにおいて、「理研の『AI for Science』取り組み最前線」と題して、10時から17時までの終日、7人の研究者が入れ替わりで登壇。生命・医科学、材料・物性、共通基盤モデル、計算基盤、計算科学といった領域におけるAIを活用した研究成果などを発表する。

 「今回は、コンファレンスを軸にした出展内容とした。特にコンファレンスや特設ステージでの講演をぜひ聴いていただきたい」とする。

 理研の展示ブースでは、「AI for Science」コンセプトであるAIによる科学支援からAIによる科学プロセス実行(Science by AI)に向けた取り組み、「富岳」によるシミュレーション+AIの成果、バーチャル富岳の取り組み、「次世代フラッグシップシステム」の意義に関する展示などが行われる。

「AIによる科学研究の加速」は必要不可欠

 では、理研が、CEATEC 2024の出展のテーマに掲げた「AI for Science」とは何か?

 泰地氏は、「ひとことで言えば、科学研究を加速するためのAIである」と前置きし、AIを活用する利点、というよりも、AIを科学研究に取り込まずにいることの危機感を語った。「ChatGPTの登場以降、知的労働の自動化が議論されており、知的労働の中核となる研究活動においてもAIの活用が議論されている。イノベーションの源泉となっているのは基礎研究であり、基礎研究の成果を高速に、大量に出していくことがイノベーションには重要になる。AIを取り込んだ科学研究と、AIを取り込まない科学研究では、成果に大きな差が出る。ここに踏み込んでいかないと、日本の研究が立ち遅れ、日本からイノベーションが生まれないことにつながる」。

 一方、松岡氏は、「科学が社会を発展させてきたのは、過去の歴史からも明らかだ」としながら、AIによる加速の必要性を語る。「1960年から2023年までで、世界のGDPは60倍に拡大している。これを牽引したのは、科学とテクノロジーの進化である。もちろん、グローバリゼーションも大きな影響を与えているが、グローバリゼーションを支えたのも、突き詰めれば、科学とテクノロジーである。そして、これからの科学とテクノロジーの進化を支えるのは、AIになる」。

 科学研究の進化を加速させるため、AIという新たなテクノロジーの活用は不可欠であり、そのための転換点は今、というわけだ。

 海外では、Google DeepMindやMicrosoftをはじめとして、大手IT企業を中心に、科学にAIを取り込む先進的な動きが活発化している。

 泰地氏は、「理研の役割は、基礎研究における成果をあげ、それをイノベーションにつなげていくことである。研究活動におけるAI活用は不可欠であり、同時にこの分野に関心を持つ若い研究者のためにもAI for Scienceに取り組む必要がある」と述べた。

 現在、理研では、ドメイン固有の基盤モデルに注目し、生命科学の多様なデータのモデル、材料・物性などを対象にした取り組みを開始しているところだ。

ポイントは「科学プロセスの自動化」「論文作成でのAI活用」「知の蓄積と活用」

 松岡氏は、「AI for Science」には3つのポイントがあるとする。

 1つ目は、AIによって、科学プロセス全体を自動化することで、科学研究の進化の速度を高めることだ。「AI for Scienceが進めば、実験やシミュレーションの自動化だけでなく、仮説生成や実験のプランニングというところにもAIが関与するようになる」と予測する。

 2つ目に、分析して結果をまとめて論文にするといった作業において、AIを活用するというものだ。ここでは、AIが書いた論文に対して、さらにAIがレビューを行うことで、内容をさらにブラッシュアップすることができるようになる。

 そして、3つ目は、これらの成果を人類の「知」として蓄積し、活用することになる。「AIと実験、シミュレーションが自動化し、結びつくことで、科学における真実を取り込むことができ、ファクトチェックができる。AI for Scienceによって、科学を進化できる」とする。

 一方で、こんなことも語る。

 「AIが学習するためのデータが枯渇しはじめており、ある論文では2028年にはそうした状況が生まれると指摘している。これまでのやり方のままでは、AIを賢くするのには限界が生じる。AIを進化させるためには新たなファクトを生成しなくてはならない。だが、そのためには、科学を進化させることが近道であり、それが新たなデータの源泉となる」

 特定の科学領域に限定しても、三次元高解像度医療画像などが活用されると、1PBのデータが、すぐに生成されてしまう。現在、注目を集めている大規模言語モデルが学習したデータ量とは、まったく次元が異なる規模のデータが、科学研究領域には存在することになる。これまでは利用されてこなかった新たなデータを創出し、それを活用し、社会課題を解決するという点でも、AI for Scienceが重要な役割を果たすことになる。

生成AIと大規模研究データを組み合わせた「科学研究基盤モデル」とは

 今回のCEATEC 2024への出展では、科学研究基盤モデル開発プログラム(Advanced General Intelligence for Science Program (AGIS))の取り組みにもフォーカスすることになる。

 AGISは、特定科学分野指向の生成AIモデルの開発を目指す。これにより、科学研究のサイクルを、さらに加速できるという。AI for Scienceの具体的な取り組みのひとつに位置づけられるものだ。

 理研では、2023年4月に最先端研究プラットフォーム連携(TRIP=Transformative Research Innovation Platform of RIKEN platforms)事業本部を立ち上げ、基礎科学の多様な分野の優れた研究者たちと豊かな研究プラットフォーム群を有機的につなぎ、新たな知を創造し、より良い未来への道筋を拓くことを目的に「つなぐ科学」を推進している。AGISは、TRIP事業本部で推進するプログラムのひとつとなる。

科学研究基盤モデル開発プログラム
AGISの全体像

 泰地氏は、「特定科学分野に強みを有する研究機関と連携し、大規模言語モデルなどの汎用的な基盤モデルを活用しながら、科学研究データを系統的に学習させ、各分野における科学研究向け基盤モデルを開発することを目指している。科学分野におけるさまざまなデータを組み合わせたマルチモーダル基盤モデルを構築するほか、この基盤モデルを活用し、実験やシミュレーション、解析を自動化することでも、科学的成果の創出に貢献し、深刻な社会課題の解決につなげていく」とする。

 マルチモーダル基盤モデルは、これまでバラバラだった研究分野ごとのデータを統合することができ、複雑なシステムを、複雑なままモデル化し、将来は「生命のデジタルツイン」の構築にもつなげることができると予測する。

 「AIをフル活用することで、生命科学分野での予測を可能にするだけでなく、長期的には自然科学全般、ひいては社会科学までも統合できる可能性を持ち、社会課題を総合的観点から解決できる基盤モデルになるだろう」と位置づけた。

様々なAIモデルへの取り組みも、「自動実験」「細胞動態の予測」「行動から疾患を理解」……

 AGISに関連する具体的な取り組みをいくつかみてみよう。

 「基盤モデルに多様な科学研究データを学習させる手法の開発」では、大規模言語モデルに科学研究データを学習させ、科学研究向け生成AIモデルを構築。AIが生成した実験条件をもとにした自動実験をロボットに行わせたり、生成されたデータをシミュレーションに利用したりするためのインターフェースの開発も推進する。

基盤モデルに多様な科学研究データを学習させる手法の開発

 「基盤モデルが必要とする膨大かつ良質なデータを自律的に取得する実験自動化技術の開発」では、モデル自らがより賢くなるために、実験条件を生成する能動学習技術を開発して、学習の大幅な効率化を実現。将来は、モデル自体が自律的に科学研究の一部を推進するシステムに発展させることを目指している。取り組みの一例として、双腕ロボットを利用し、ロボット自らが自動的に実験を行う研究を進めているところだ。

基盤モデルが必要とする膨大かつ良質なデータを自律的に取得する実験自動化技術の開発

 「細胞レベル応答モデルの開発」では、理研が持っている細胞の遺伝子状態を高速に計測する技術を活用して、良質なデータセットを取得。得られた細胞やRNA発現、タンパク質の翻訳の時系列データと、ゲノムDNAデータを統合して、細胞動態を予測するモデルを開発。創薬への貢献や、再生医療への応用が可能になるという。

細胞レベル応答モデルの開発

 また、「個体レベル行動・特性モデルの開発」では、健常モデル動物と疾患モデル動物の日常的行動データを数カ月単位で大規模に取得して解析。これらの行動データと、ゲノムデータ、身体構造データを組み合わせて、行動から疾患を理解したり、各行動の意味の解釈や予測ができたりするモデルを開発している。このように、モデル開発に必要なデータを自ら用意する点が、理研の特徴のひとつだといえる。

 AGISでは、生命科学分野で3つのテーマを推進。材料・物性分野では2つのテーマが推進されている。CEATEC 2024のAI for Allエリアの特設ステージでは、これらの内容についても研究者から説明が行われることになる。

 泰地氏は、「AGISの成果として、2025年度末(2026年3月)には、最初のドメイン基盤モデルをリリースし、科学研究に利用できるようにしたい。さらに、対象とするドメインも追加し、成果が出たものから、産業界にも展開していきたい。5年後にはマルチモーダル基盤モデルの開発を完了させ、2031年度には、科学研究への応用において、信頼できるAIモデルとして利用できる環境を作り上げたい」と抱負を述べた。

 また、将来的には理研全体として、ナノサイエンスやエネルギー、基礎科学、ライフサイエンス、創薬、デザイン・製造、脳科学、自然災害などにおいてもAI for Scienceを展開。これらの分野での研究活動にAIを活用したい考えだ。

富岳では“想定外”だった幅広いAI活用、だからこその「次世代フラッグシップシステム」

 理研では、AI for Scienceを実現するための計算基盤の確立にも取り組んでいる。

 松岡氏は、「富岳が設計されたときには、ここまでAIが活用されることは想定していなかった。AIの利用を前提に開発したものではないが、いま、富岳を利用している人のほぼ全てがAIとシミュレーションを組み合わせた利用になっている」とする。

 だが、その一方で、将来のAI for Scienceを実現するためには、科学研究で利用するAIに、これまでとは比較にならないほどの大量のデータを学習させる必要があり、そのためにより多くの計算資源が必要になるのは確かだ。

 「世界のトップ性能を持つスパコンや、米国の大手IT企業が持つコンピュータを利用しても、ひとつの科学領域のデータを学習させるだけでも数年かかる。さらに、開発されたAIは、保護された環境で利用されなくてはならない。兵器の開発などに自由に利用されるようになってはいけない」と課題をあげる。

 つまり、科学研究の進歩を支えるAI for Scienceを実現するには、一般ユーザーや企業が利用するAIとは比較にならない計算資源や最先端のシステム技術などが必要になり、同時に規制された環境で利用される必要があるのだ。

富岳にAI専用計算機を付加

 課題のひとつであるAIにデータを学習させるための計算基盤の整備を解決する手段が、富岳に付加する形で、2025年に稼働させるAI専用計算機である。

 まずは、2024年末に数100GPUの規模で試験的に稼働させ、2025年度後半に本格的に稼働させる。基盤モデル学習では、富岳の4倍の性能を発揮しながら、運用電力は富岳の10分の1程度に収めることができる。また、基盤モデルの推論を重視した設計を行っているのが特徴だという。

「AI for Science」を支える基盤となる「次世代フラッグシップシステム」

 そして、松岡氏は「ここでの成果が、次世代フラッグシップシステム(富岳NEXT)につながることになる」と語る。

 2030年の完成を目指している「富岳NEXT」は、富岳に比べ、既存のシミュレーションアプリで現行の5~10倍以上の実効計算性能、AI処理ではZettaスケールのシステム性能を念頭に置いたものになる。そして、単にAIの学習のために利用する計算基盤ではなく、「AI for Science」を支える基盤を目指しており、AIとともに、シミュレーションにも効果を発揮するものになる。

 たとえば、「AI for Science」を飛躍的に進化させるには、AIモデルの大規模学習だけでなく、デジタルツインに代表されるような大規模シミュレーションによる学習データの高速生成と、蓄積したデータや新たに測定したデータなど、多様な科学データの高速転送が求められる。さらに、AIモデルの推論による科学実験や観測の自動化も求められる。これからの全てを加速するには、「富岳NEXT」の性能が必要になるというわけだ。

 「通常のシミュレーションでは5~10倍の高速化、AIを活用したシミュレーションでは100倍近い速度向上を目指す。また、推論の能力を高めることで、AIが計画を立てられるようになったり、高次元の推論を繰り返すことで、よりAIを賢くできたりする。データの学習に頼ったAIの進化とは異なる新たなAIの進化ができる。これは、AI for Scienceに適したAIに不可欠となる性能である。 AIと大規模シミュレーションの融合によって、科学研究の自動化が可能になる」と語った。

 科学研究の進歩を支える「次世代フラッグシップシステム」の意義はここにある。今回のCEATEC 2024のコンファレンスでは、次世代フラッグシップシステムである「富岳NEXT」の狙いについても詳しく言及することになる。

科学研究の最前線で活躍するAIを、企業のイノベーションのヒントに

 最後に、CEATEC 2024の理研のブースへの来場、およびコンファレンスへの参加で、どんな学びがあるのかを聞いてみた。

 松岡氏は、「科学の最前線でAIがどう機能しているのかを知ってもらえるだろう。業務効率化のためのAIとは異なるAIが科学研究に貢献し、社会にインパクトを及ぼし始めていることを目の当たりにしてもらえる」とし、「価値創造につなげるAIにおいて、理研は中心的な役割を果たしている。だが、理研だけではやれることにも限界がある。自社のビジネスやイノベーションにつなげることを考えてもらい、また、さまざまな企業や研究機関との連携によって、イノベーションを、より大きなものにしていきたいと考えている。さらに、研究者や技術者を目指している若い人たちにもぜひ来場してもらいたい」と語る。

 また、泰地氏は、「AIというと言語モデルが話題の中心となっているが、科学研究におけるAIというものを知ってもらい、これが社会に大きなインパクトを与えることを認識して欲しい。私自身も、中学生や高校生のときに、CEATECの前身となるエレクトロニクスショーなどに行っていた。とくに若い人たちに、コンシューマ向けAIとは違う世界があることを体験してもらいたい」と語った。

 CEATEC 2024の理研のブースとコンファレンスは、AI for Scienceの進展を実現し、社会課題の解決につながる「科学研究に最適化したAI」の存在に触れる貴重な場になりそうだ。