Moonshot AI「Kimi K2.5」、HLEで50.2%達成|中国AIの新潮流

Moonshot AI「Kimi K2.5」、HLEで50.2%達成|中国AIの新潮流

中国のMoonshot AIは2026年1月27日、マルチモーダルモデルKimi K2.5をリリースした。

K2.5は約15兆規模の視覚・テキストトークンを用いた継続事前学習を実施し、Humanity’s Last Exam(HLE-Full)でツール使用時に50.2%を記録した。公式技術ドキュメントに掲載された比較表によれば、このHLE指標においてはGPT-5.2、Claude Opus 4.5、Gemini 3 Proを上回る結果となっている。

一方で、すべてのベンチマークで一貫して最高性能を示しているわけではなく、評価軸ごとにモデル間の優劣は分かれている。K2.5のその他のベンチマークは、BrowseCompでコンテキスト管理時74.9%、Agent Swarm使用時78.4%、DeepSearchQAで77.1%、MMMU Proで78.5%、VideoMMMUで86.6%、SWE-Bench Verifiedで76.8%、SWE-Bench Multilingualで73.0%を記録している。

K2.5のAgent Swarm機能は最大100のサブエージェントを並列実行し、最大1,500のツール呼び出しを調整することで、完了時間を最大4.5倍短縮する。K2.5はKimi.com、Kimi App、APIを通じて利用可能で、オープンソースとして公開されている。

From: 文献リンクMoonshot AI Releases Open Kimi K2.5 Model, Beats All US Models On Humanity’s Last Exam, BrowseComp Benchmarks

【編集部解説】

中国のAI企業による攻勢が、2026年初頭も止まる気配を見せていません。Moonshot AIが発表したKimi K2.5は、単なる性能向上モデルではなく、AI開発における重要なパラダイムシフトを示しています。

最も注目すべきは、Agent Swarm機能の実装です。従来のAIモデルは単一のエージェントで逐次的にタスクを処理していましたが、K2.5は最大100のサブエージェントを並列実行し、1,500回ものツール呼び出しを調整します。これは人間の組織における分業体制をAIが再現したようなもので、完了時間を最大4.5倍短縮できるとされています。

このアプローチは、Parallel-Agent Reinforcement Learning(PARL)という技術によって実現されています。オーケストレーターエージェントが複雑なタスクを並列実行可能なサブタスクに分解し、各サブタスクを専門的なサブエージェントが同時に実行します。重要なのは、Critical Stepsという指標を用いることで、単にサブタスクを増やすのではなく、実際に処理時間を短縮できる場合にのみ並列化を行う点です。

ベンチマーク性能については慎重な解釈が必要です。Humanity’s Last Exam(HLE)は2,500問の専門家レベルの問題で構成され、数学、物理学、生物学などの幅広い分野をカバーしています。元記事では50.2%という数値が示されていますが、これはテキストと画像を含む完全版でのスコアと見られます。この数値は非常に高い水準ですが、依然として50%前後という事実は、現在のAIが人間の専門家レベルには達していないことを示しています。

コーディング能力も際立っています。K2.5は視覚的なインプットからコードを生成できるだけでなく、自律的にデバッグを行い、ビジュアル出力を見ながらコードを改善する能力を持っています。これはフロントエンド開発において特に有用で、デザインモックアップや動画からウェブサイトを生成できます。

さらに注目すべきは、オフィス生産性への応用です。K2.5はAgent modeで大規模なデータ処理を行い、複数ステップのツール使用を調整し、文書、スプレッドシート、PDF、プレゼンテーションを会話だけで生成できます。これは知識労働の自動化に向けた大きな一歩です。

オープンソースとしてのリリースも重要な意味を持ちます。GPT-5.2、Claude Opus 4.5、Gemini 3 Proといった米国の主要モデルがクローズドソースである中、K2.5はModified MIT Licenseの下で公開されています。これにより、世界中の開発者がモデルを検証、改良、展開できるようになります。

ただし、潜在的な課題も存在します。Agent Swarmのような複雑なシステムは、エラーの連鎖や予期しない動作を引き起こす可能性があります。また、並列実行による高速化は計算リソースの大幅な増加を伴う可能性があり、実際のコスト効率については長期的な検証が必要です。

K2.5の登場は、AI開発の重心が徐々に移動していることを示唆しています。中国企業は、巨額の投資ではなく、効率的なアーキテクチャと革新的なトレーニング手法によって競争力を獲得しつつあります。これは、AI技術が少数の巨大企業に独占されるのではなく、より民主化された形で発展していく可能性を示しています。

今後数ヶ月で、これらの中国製オープンソースモデルが実際の業務環境でどの程度の性能を発揮するかが明らかになるでしょう。もし期待通りの性能を示せば、AI業界のパワーバランスは大きく変化する可能性があります。

【用語解説】

Humanity’s Last Exam(HLE)
Center for AI SafetyとScale AIが共同開発した、2,500問の専門家レベルの質問で構成されるAIベンチマーク。数学、物理学、生物学、人文科学など幅広い分野をカバーし、AIモデルの推論能力を測定する。現在のフロンティアモデルでも正答率は50%前後に留まり、AI能力の限界を測る指標として機能している。

BrowseComp
AIモデルがウェブブラウジング、検索、推論を連続的に行う能力を評価するベンチマーク。人間のベースラインは29.2%とされ、実世界の情報検索タスクにおけるモデルの実用性を測定する。

Agent Swarm(エージェントスウォーム)
複数のAIエージェントが協調して並列実行する仕組み。Kimi K2.5では最大100のサブエージェントが同時に動作し、複雑なタスクを分割処理することで完了時間を大幅に短縮する。

Parallel-Agent Reinforcement Learning(PARL)
複雑なタスクを並列実行可能なサブタスクに分解し、各サブタスクを独立したエージェントが同時処理する強化学習手法。オーケストレーターエージェントがタスク分解と調整を担当する。

SWE-Bench
実際のGitHubの問題を解決する能力を測定するソフトウェアエンジニアリング向けベンチマーク。Verifiedバージョンは厳密に検証された問題セットで構成される。

Modified MIT License
MIT Licenseを基本としつつ、大規模商用利用時には帰属表示を求めるなどの追加条項を含むライセンス形態。オープンソースでありながら、一定の制約を設けることができる。

【参考リンク】

Moonshot AI 公式サイト(外部)
中国の北京に拠点を置くAI企業。Kimiシリーズの大規模言語モデルを開発。

Kimi.com(外部)
Moonshot AIが運営するKimiモデルへのアクセスポイント。4つのモードを提供。

Humanity’s Last Exam 公式サイト(外部)
2,500問の専門家レベルの質問が公開され、リーダーボードも提供。

OpenAI(外部)
GPT-5.2を開発する米国のAI企業。専門的な知識労働向けに最適化。

Anthropic(外部)
Claude Opus 4.5を開発するAI企業。ソフトウェアエンジニアリングに特化。

Google DeepMind – Gemini(外部)
Gemini 3 Proを開発するGoogle傘下の研究組織。推論能力に優れる。

【参考記事】

Moonshot AI Unveils Kimi K2.5: Open-Source Multimodal Models Enter the Agent Swarm Era(外部)
Agent Swarm機能の詳細解説。実行時間を5分の1から4分の1に短縮。

moonshotai/Kimi-K2.5 · Hugging Face(外部)
Kimi K2.5の公式技術ドキュメント。HLEのスコア詳細を記載。

Moonshot AI releases open-source Kimi K2.5 model with 1T parameters – SiliconANGLE(外部)
1兆パラメータのMixture-of-Expertsアーキテクチャを解説。

Introducing GPT-5.2 | OpenAI(外部)
GPT-5.2の公式発表記事。GDPvalベンチマークで70.9%の成績。

Introducing Claude Opus 4.5(外部)
Claude Opus 4.5の公式発表。SWE-Bench Verifiedで80.9%達成。

Gemini 3: Introducing the latest Gemini AI model from Google(外部)
Gemini 3の公式発表記事。月間6億5000万ユーザーを報告。

Kimi K2.5 in 2026: The Ultimate Guide to Open-Source Visual Agentic Intelligence – DEV Community(外部)
Kimi K2.5の包括的なガイド。ネイティブマルチモーダルを詳述。

【編集部後記】

AIが複数のエージェントを同時に動かして仕事をこなす時代が、思ったより早く訪れそうです。みなさんは、こうしたエージェント型のAIを実際の業務で使ってみたいと思われますか。それとも、まだ信頼性に不安を感じるでしょうか。

K2.5のようなオープンソースモデルが台頭することで、AI技術へのアクセスが民主化されていく一方、品質管理や安全性の担保はどうなるのか、私たち編集部も注視しています。みなさんの職場や日常で、AIエージェントに任せたいタスクと、人間が判断すべきタスクの境界線は、どこにあると感じますか。ぜひご意見をお聞かせください。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です