NVIDIA×NAIRR、米国の科学研究を変える基盤AI──Walrus・MIST・BEACONの最前線

米国国立科学財団(NSF)が主導する国家人工知能研究リソース「NAIRR」のパイロットプログラムは、過去2年間で全米700件を超えるプロジェクトを支援してきました。

NVIDIAは、最低4基のNVIDIA DGXノードへ1カ月以上の専有アクセスを提供するクラウドリソースと技術支援を通じて、これに貢献しています。Polymathic AIは大規模データセット「Well」を用いて流体的な物理現象を学ぶ基盤モデルWalrusを構築し、データ・コード・重みを公開しました。ミシガン大学のヴェンカット・ヴィスワナサン教授らは、独自トークナイザーSmirkを用いた分子基盤モデルMISTを開発し、400を超える構造-物性の関係でファインチューニングしています。MISTは40基のGPUからなるNVIDIA DGXクラスタと、ALCFのPolarisクラスタにおける20万GPU時間を用いて開発されました。ボストン大学のHariri Instituteは、感染症監視プログラムBEACONを支援する大規模言語モデルの学習を進めており、同所長のイオアニス・パスカリディスによれば、従来は数時間を要した報告書作成が約2分に短縮されたといいます。

From: NAIRR Science Program Reshapes Scientific Research, Powered by NVIDIA AI Infrastructure

【編集部解説】

このニュースの主役は、一見すると個別の研究成果に見えます。しかし innovaTopia が注目したいのは、その背後にある「NAIRR(国家人工知能研究リソース)」という、米国が国家規模で進める計算資源の民主化構想です。なぜ今これを取り上げるのか。それは、NAIRRがちょうど大きな転換点を迎えているからです。

NAIRRは2024年1月、NSF(米国国立科学財団)を中心に、13の連邦機関と28の民間・非営利パートナーが連携して発足した「パイロット(試験運用)」事業でした。NVIDIAの記事は「700件超のプロジェクト」を支援したと述べていますが、NSF自身が2026年3月に公表した2周年報告では「600超の研究チームと6000人の学生、全50州に展開」とされています。集計の対象(プロジェクト単位か研究チーム単位か)や時期によって数字が異なる点には、留意が必要です。

注目すべきは、このパイロットが2026年に恒久組織「NAIRR運用センター(NAIRR-OC)」へと移行しつつあることです。試験段階から「国家インフラ」への格上げが進んでおり、ホワイトハウスのAI行動計画にも位置づけられています。つまり今回の記事は、その移行を正当化する「成果のショーケース」という側面を持っています。報じる側としては、この文脈を踏まえておくことが公平性につながります。

技術面を補足します。Polymathic AIの基盤モデル「Walrus」は、論文によれば13億パラメータの時空間トランスフォーマーで、「Well」という15テラバイト・19シナリオ・63の物理変数(フィールド)から成るデータセットで学習されています。言語ではなく物理現象そのものを学ぶ点が新しく、ある流体現象で得た知識を別の物理系へ転用できる「転移学習」が核心です。中性子星の合体から大気の層構造まで扱える汎用性は、シミュレーションの常識を変える可能性を秘めています。

ミシガン大学の「MIST」も示唆に富みます。これは分子をSMILESという文字列で表現し、「Smirk」という独自トークナイザーで核・電子・幾何構造の情報を取りこぼさず学習する分子基盤モデルです。研究チームの資料では20億超の分子表現で学習されたとされ、電池材料(リン酸鉄リチウムなど)から医薬品まで幅広く扱えます。汎用LLMと融合させることで、専門家でなくとも自然言語で化学空間を探索できるようになる——これは材料開発の入り口を大きく広げる発想です。なお、ヴィスワナサン教授の研究グループは現在カーネギーメロン大学にも拠点を持ち、研究は複数機関にまたがって進められています。

ボストン大学の「BEACON」は、社会的インパクトという点で最もわかりやすい事例でしょう。元記事では基盤となるモデルは単に大規模言語モデルとされていますが、ボストン大学の公式発表によれば、その実体は「PandemIQ Llama」と名付けられた独自調整モデルです。Boston Children’s HospitalのHealthMapと連携し、ニュースやSNSから感染症の兆候を拾い上げます。WHOの公開情報インテリジェンス(EIOS)や世界動物保健機関とも連携し、すでに600万ドル(1ドル=150円換算で約9億円、2026年6月時点)の資金を得て運用されています。報告書作成が数時間から約2分へ——というパスカリディス(通称ヤニス)所長の言葉は、平時の監視能力そのものを底上げする変化を示しています。

ポジティブな側面は明確です。これまで巨大テック企業しか持ち得なかった計算資源を、大学や中小の研究者が使えるようになる。それは創薬、エネルギー、感染症対策といった「公共性の高い領域」での発見を加速させます。NAIRRが成果を原則オープンに公開させる方針を取っている点も、知の共有という観点から評価できます。

一方で、潜在的な論点も見えてきます。第一に、これらの成果はNVIDIAのGPUとDGXアーキテクチャに強く依存しており、計算資源の民主化が結果として特定企業のプラットフォームへの依存を深める構図にもなり得ます。第二に、BEACONのような感染症監視AIは、生物学的脅威の早期検知という防御目的と、生物学的情報の取り扱いという機微さが背中合わせです。誰がどこまでアクセスできるのか、ガバナンス設計が問われます。

長期的に見れば、NAIRRは「AIの基礎研究を国家がインフラとして支える」というモデルの実験場です。日本でも産総研や大学を中心に計算資源整備の議論が進むなか、米国のこの動きは、研究の競争力が個々の才能だけでなく「誰が計算資源にアクセスできるか」で決まる時代の到来を示しています。innovaTopia が読者とともに見つめたいのは、その地殻変動の輪郭です。

【用語解説】

NAIRR(国家人工知能研究リソース)
米国の研究者・教育者に、AI研究に必要な計算資源・データ・モデルへのアクセスを提供する国家規模の取り組み。2024年1月にパイロットとして開始し、2026年に恒久的な運用センター(NAIRR-OC)への移行が進んでいる。

基盤モデル(ファウンデーションモデル)
大量のデータで事前学習し、さまざまな下流タスクに転用できる汎用的なAIモデル。言語向けのものが有名だが、Walrusのように物理現象を学ぶものも登場している。

シミュレーション・トゥ・リアル
仮想環境でのシミュレーションで得た知見を、現実世界へと橋渡しする手法。実機での試行錯誤に伴うコストや危険を抑えられる利点がある。

転移学習
ある領域で学んだ知識を、別の領域の問題解決に応用する学習手法。Walrusが流体力学で得た「回転」の概念を別の物理系に適用できるのは、この考え方による。

スケーリング則
モデルの規模・データ量・計算量を増やすほど性能が向上するという経験則。Polymathic AIは科学向けモデルでこの法則の探究を計画している。

SMILES
分子の構造を文字列で表現する記法。MISTはこの文字列をAIに学習させることで、分子の性質を予測する。

トークナイザー
文章や記号列を、AIが処理できる最小単位(トークン)に分割する仕組み。MISTが用いる「Smirk」は、SMILES記法の仕様を漏れなく扱える点が特徴である。

ファインチューニング
事前学習済みのモデルを、特定の用途に合わせて追加学習し、調整すること。MISTは400を超える構造と物性の関係でこの調整を受けている。

GPU時間
GPUを1基1時間使用する量を1単位とする計算資源の指標。MISTは追加で20万NVIDIA GPU時間をPolarisクラスタで使用した。

PandemIQ Llama
BEACONが用いる大規模言語モデル。MetaのLlamaを、感染症のアウトブレイク分析と報告書生成に最適化するよう独自に調整したもの。元記事では固有名は明示されず、ボストン大学の公式発表で確認できる。

HealthMap
Boston Children’s Hospitalが運営する、世界規模の感染症監視データベース。Web上の情報を収集し、BEACONの情報源の一つとなっている。

ALCF(アルゴンヌ・リーダーシップ・コンピューティング・ファシリティ)
米国エネルギー省(DOE)傘下のアルゴンヌ国立研究所が運用する計算施設。MISTの開発に用いられたPolarisクラスタを擁する。

【参考リンク】

NAIRR Pilot 公式サイト(外部)
NAIRRパイロットの公式ポータル。リソース申請やプロジェクト一覧、最新ニュースを掲載している。

NSF「National Artificial Intelligence Research Resource」(外部)
NAIRRを主導するNSF(米国国立科学財団)の公式解説ページ。参加機関や目的を説明している。

Polymathic AI(外部)
科学向け基盤モデルとデータセットを開発する国際研究連合の公式サイト。Walrusや「Well」を公開している。

polymathic-ai/walrus(Hugging Face)(外部)
基盤モデルWalrusの公式配布ページ。モデルの仕様や事前学習済みの重みが公開されている。

Smirk(GitHub)(外部)
ミシガン大学チームが開発したトークナイザーSmirkのソースコードを公開するリポジトリ。

BEACON(Boston University Hariri Institute)(外部)
感染症監視プラットフォームBEACONの立ち上げを伝えるボストン大学Hariri Instituteの公式発表。

NVIDIA DGX Platform(外部)
研究者に提供されたDGXノードの製品情報を掲載するNVIDIA公式ページ。

【参考記事】

These New AI Models Are Trained on Physics, Not Words(Simons Foundation)(外部)
WalrusとAION-1を紹介。Wellが19シナリオ・63フィールド・15TBの流体力学データから成ることを数値とともに説明している。

New AI models trained on physics, not words(University of Cambridge)(外部)
ケンブリッジ大学公式。Walrusが物理過程の基礎を学び、別分野へ知識を転用する仕組みを規模の数値とともに解説する。

NAIRR at 2 years(NSF)(外部)
NSF公式の2周年報告。NAIRRが600超の研究チームと6000人の学生を支援したことを示し、「700件超」との差の検証に用いた。

PRESS RELEASE – BEACON launches(Boston University CEID)(外部)
BEACONの公式発表。モデル名がPandemIQ Llamaであること、計600万ドルの資金とWHO等との連携を明記している。

Foundation Models for Discovery and Exploration in Chemical Space(arXiv)(外部)
MISTの原論文。Smirkが核・電子・幾何情報を捉え、400超の構造-物性関係でファインチューニングされたことを記す。

Walrus: A Cross-Domain Foundation Model for Continuum Dynamics(arXiv)(外部)
Walrusの原論文。13億パラメータで19シナリオを事前学習し、コードと重みを公開したことを述べる。

NSF Moves to Establish Permanent National AI Research Hub(GovCIO)(外部)
NAIRRがパイロットから恒久的な運用センターへ移行する動きを報道。数字が報告時期で変動する点の裏付けに用いた。

【編集部後記】

計算資源の話は、ともすれば「どれだけ大きなGPUを並べたか」という規模の競争に見えてしまいます。けれど今回の3事例を追いながら私たちが感じたのは、むしろ「誰の手に届くか」という問いの大きさでした。流体を学ぶモデルも、分子を読むモデルも、感染症の兆しを拾うモデルも、その入り口が一部の巨大組織から研究者一人ひとりへと開かれていく。その地殻変動の手前に、いま私たちは立っているのかもしれません。日本にいる私たちにとっても、これは決して対岸の話ではないと考えています。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です