「Baidu ERNIE 5.0」登場|新時代マルチモーダルAIの最新ベンチマーク

「Baidu ERNIE 5.0」登場|新時代マルチモーダルAIの最新ベンチマーク

Baiduは2025年11月、旗艦AIモデルの次世代版ERNIE 5.0を発表した。

ERNIE 5.0は、従来のテキスト生成に加え、画像、動画、音声といった異なるフォーマットのデータを統合的に処理・理解できる“ネイティブマルチモーダルAI”で、OpenAIのGPT-5やGoogle Gemini 2.5 Proなど、世界の最先端モデルと競い合う性能を社内ベンチマークで示している。

特にOCR(光学文字認識)、文書理解(DocVQAなど)、チャート解析分野では業務自動化ニーズに直結する実用性の高さが評価され、イメージ生成や音声タスクにも高い能力を持つ。APIを活用したQianfanクラウド経由の商用提供、GenFlow 3.0やMeDoなど多様な関連AI製品群とともに、エンタープライズや開発者市場の拡大を続けている。価格は米国系大手AIモデルと比較しコストパフォーマンスにも配慮され、柔軟なユースケース対応が特徴となっている。

一方でSVG生成時の利用における不具合や、ベンチマークの大半がBaidu自身の発表に基づくものであるなど、真の実力評価には今後の第三者検証が求められている。中国語での優位性、多様なモダリティの融合、産業・社会全体へのAI最適活用促進など、AIインフラの次なるスタンダードとして国内外で注目されている。

From: 文献リンクBaidu unveils proprietary ERNIE 5 beating GPT-5 performance on charts, document understanding and more

【編集部解説】

ERNIE 5.0はBaiduが2025年11月13日に発表した最新の「ネイティブ・オムニモーダル」基盤AIモデルであり、テキスト、画像、音声、動画といった多様なモダリティを統合的に処理・生成する革新的な技術が特徴です。従来のAIモデルが一つのモダリティに特化していたのに対し、ERNIE 5.0は設計段階から多様な情報を同時に理解・生成することを目的にしており、多様な実世界シナリオに対応できる実用性を兼ね備えています。モデルサイズは最大2.4兆パラメータに達し、複雑な推論、論理的思考、記憶力、説得力のある説明能力の向上を果たしました。これらの能力は企業向けのOCRや文書理解(DocVQA)、チャート解析など、業務自動化に直結する分野で特に際立っています。

社内の40以上の権威あるベンチマークテストで、BaiduはERNIE 5.0の言語・多モーダル理解能力がOpenAIのGPT-5やGoogleのGemini 2.5 Proと肩を並べるか、それを上回る可能性があることを示しました。これは中国発のAIモデルがグローバルAI市場の最前線に迫っていることの証左として注目されます。さらに、AIエージェントの計画やツール活用能力も向上しており、単なる生成AIを超えた「知的主体」として機能することを目指しています。

API形態での商用提供は既に始まり、Qianfanクラウド経由で企業や開発者へのサービスが拡充されています。価格帯も競争力を意識して設計され、中国国内のみならずグローバルな市場でのAI活用拡大に貢献しています。同時に、Baiduは関連AIプロダクトであるGenFlow 3.0やMeDoなど多様なサービスを強化し、多くのユーザー獲得に成功しています。これにより、単一モデルだけでなくエコシステムとしての競争力強化も図っています。

ただし、まだ改善の余地もあります。ユーザーからの報告に加えBaidu自身も認めているように、SVG生成時に意図しないツール呼び出しが起きるといったバグが報告されており、Baiduは迅速に対応中です。また、多くのベンチマーク結果がBaidu自身の発表に基づいており、独立した第三者評価や透明性確保は今後の課題です。これらはグローバル市場展開とAIの信頼性確保において重要なポイントとなります。

Baidu創業者Robin Li氏も技術の急速な進化を認め、AIエージェントが最も重要な応用分野であること、技術革新のスピードこそが競争力の源泉であると述べています。Baiduは今後も先端AIモデル開発に投資を継続し、AIインフラの高度化と社会全体の生産性向上を目指しています。ERNIE 5.0の登場は、中国発のAIが単なるコスト削減のツールとしてではなく、知的創造と意思決定を支援する社会的基盤へと昇華していることを示す象徴的な一歩と言えるでしょう。

【用語解説】

OCR(Optical Character Recognition)
画像内の文字を読み取り、テキストデータに変換する技術。

VQA(Visual Question Answering)
画像や図表を用いた質問にAIが答えるタスク。

API(Application Programming Interface)
ソフトウェアやサービス同士が機能やデータをやり取りするためのインターフェイス。

混合専門家モデル(MoE, Mixture-of-Experts)
複数のニューラルネットワークを組み合わせ、情報処理を効率化するAI手法の一つ。

参考リンク】

Baidu公式サイト(外部)
中国最大手の検索エンジン運営企業で、先端AI技術や自動運転分野に注力している。

ERNIE Bot(百度文心一言)(外部)
Baidu開発の大規模言語モデルを体験できるチャットボットサービス。

Qianfanクラウドプラットフォーム(外部)
Baiduの商用向けAI APIプラットフォーム。ERNIEシリーズのAPIも提供。

OpenAI公式サイト(外部)
ChatGPTやGPTシリーズを開発する米国のAI研究・開発企業。

Gemini(Google AI)(外部)
Googleが開発するマルチモーダルAIモデル群で、テキストや画像、動画に対応する。

参考記事】

Baidu ERNIE multimodal AI beats GPT and Gemini in benchmarks(外部)
Baidu ERNIE 5.0が複数のベンチマークでGPTやGeminiを上回ったニュースを解説し、性能や料金体系、事業戦略を示す。

Baidu Launches the New Native Multimodal Large Model ERNIE 5.0(外部)
BaiduのERNIE 5.0発表イベントの技術的特徴や競合製品との比較を解説。

Baidu challenges top AI models with Ernie 5.0 multimodal AI model release(外部)
ERNIE 5.0の競争力やビジネス活用事例、AI業界内の位置づけについて紹介。

【編集部後記

テクノロジーの進化は日々加速していますが、みなさんは最新のAIモデルやその活用事例にどう関わっていきたいと感じますか。ERNIE 5.0のようなマルチモーダルAIは、業務の自動化やクリエイティブ分野にも変革をもたらす可能性があります。私自身もまだ日々学びの連続ですが、「この技術が自分の生活や仕事にどう役立つか」「他のAIサービスと何が違うのか」を一緒に考えていけたらと思います。みなさんが今気になっていることや、具体的に知りたい分野があれば、ぜひ教えてください。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です