リコー、生成AIの推論性能を測る日本語ベンチマークを無償公開｜GENIAC第3期の成果

株式会社リコーは2026年5月29日、図表を含む日本語ドキュメント理解におけるAIの推論性能を評価するベンチマークツール「JDocQA Reasoning Benchmark」を開発し、無償公開した。

本件は、経済産業省とNEDOが実施する生成AI開発プロジェクト「GENIAC」基盤モデル開発第3期の取り組みの一環である。日本語の質問応答データセットJDocQAのテスト画像のうち、棒グラフ・折れ線グラフ・財務諸表・路線図など20種類以上の図表を含むサブセットを対象に、リコーが独自の一問一答形式QAアノテーションを付与し、全1,287問で構成する。抽出・計算・比較・補完の各タスクを設計した。

リコーは第3期でマルチモーダルLLMの基本モデル「Qwen3-VL-Ricoh-32B-20260227」「Qwen3-VL-Ricoh-8B-20260227」を開発済みである。評価コードをApache License 2.0、QAアノテーション部分をCC BY-SA 4.0で公開する。

From: リコー、生成AIの推論性能を測る独自ベンチマークを無償公開

【編集部解説】

今回の発表で見落とされがちなのは、リコーが公開したのが「賢いAI」そのものではなく、AIの賢さを測る「ものさし」だという点です。同社は2026年3月30日にリーズニング性能を備えたモデル「Qwen3-VL-Ricoh-32B-20260227」と軽量版「8B」を発表しており、評価用ベンチマークは「後日公開予定」とされていました。今回はその約束が果たされた格好になります。

なぜ「ものさし」の公開が重要なのでしょうか。ベンチマークは、開発者が「何を改善目標とするか」を規定します。英語圏で整備された既存の評価指標は、日本語特有の図表を含む業務文書を十分に捉えきれません。日本企業の現場で使われる資料を題材に据えた共通の評価軸が国内に存在すること自体に、産業的な意味があるのです。

技術的に難しいのは、文書の「読み取り」と「推論」が別物だという点にあります。グラフから数値を抜き出すだけなら従来のOCRでも可能でした。しかし「2つの数値を比較し、欠落した値を周辺の要素から推定する」といった多段階の思考は、視覚情報とテキストを横断する高度な処理を要します。プレスリリースでは抽出・計算・比較・補完が代表例として挙げられていますが、公開データセットを見ると、QAは実際には抽出（579問）・補間補完（275問）・比較（134問）・計算（130問）に、傾向／パターン認識・構造化・予測・その他を加えた8カテゴリに分かれています。今回のベンチマークは、この「考える力」を細かく分解して測ろうとする試みと言えるでしょう。

採点の仕組みもユニークです。本ベンチマークは、モデルの回答を0か1で評価する際に、別のAI（Azure OpenAI）を判定役に据える「LLM-as-a-Judge」方式を採用しています。AIの答えをAIが採点するという構図は、評価そのものをどう自動化し、どう信頼するかという、これからのAI開発に共通する論点を先取りしています。

地味ながら注目したいのが、基盤モデルの系譜です。第2期のモデルは、日本語に強い「Llama-3.1-Swallow-70B」を言語処理の土台に据えつつ、画像の読み取りにはアリババの「Qwen2-VL」の方式を組み合わせた3層構造でした。第3期ではこれを、アリババ系の最新モデル「Qwen3-VL」をベースに、より軽量な32B／8Bへと再設計しています。基盤の中核は海外発のオープンモデルに支えられており、リコーの独自価値は日本語の推論データと評価環境の構築にある——この構図は、優れた海外基盤を賢く取り込みつつ国内向けの強みで差別化するという、現在の「国産AI」の現実的な姿を映し出しているのです。

ライセンス設計も周到です。評価コードはApache License 2.0、QAデータはCC BY-SA 4.0で公開されました。後者の「継承（ShareAlike）」条項は、改変物も同じ条件で公開することを求めます。データを囲い込まず、改良の連鎖を業界全体に広げる意図が読み取れます。

実用面では、契約書や決算資料、設計図面といった非構造化データの自動処理が射程に入ります。これまで人手に頼ってきた図表の読み取りと判断を機械に任せられれば、バックオフィス業務の負荷は大きく変わるはずです。リコーが掲げる「“はたらく”に歓びを」という理念とも、無理なく接続しています。

一方で、楽観だけでは語れません。ベンチマークが公開されると、開発者がテスト問題に最適化しすぎる「過学習」や、評価データを学習に混入させる「コンタミネーション」のリスクが常につきまといます。1,287問という規模は決して大きくなく、特定の指標で高得点を取ることと、現場で実際に役立つことは必ずしも一致しないという点には注意が必要でしょう。

規制と標準化の観点では、評価インフラを民間企業が国費プロジェクトの成果として無償開放する流れは見逃せません。AIの能力をどう測るかという問いは、いずれ調達基準や安全性評価の議論に直結していく可能性があります。日本語ドキュメント理解の評価軸を国内発で確立しておくことは、将来的なルール形成への布石にもなり得ると、編集部は見ています。

長期的には、こうした地道な評価基盤の積み重ねが、日本のAI開発力の底力を左右します。派手なモデル発表の陰で「測る技術」を整える——本件はそういう種類のニュースであり、未来の競争条件を静かに形づくる一手として記録しておく価値があると、編集部は考えます。

【用語解説】

推論性能（リーズニング）
AIが情報を単に検索・抽出するだけでなく、複数のステップからなる論理的な思考プロセスを経て結論を導き出す能力のこと。今回のベンチマークはこの「考える力」を測ることに主眼を置いている。

非構造化データ
表計算の行列のようにあらかじめ整理されておらず、そのままでは機械が扱いにくいデータのこと。契約書、報告書、図面、グラフ画像などが代表例で、一般にIDCなどの調査では企業が持つデータの8〜9割を占めるとされる。

多段階推論（マルチステップ・リーズニング）
一つの答えにたどり着くまでに、抽出・計算・比較といった複数の処理を順に積み重ねる思考方式。「グラフから2つの値を読み取り、差を計算し、傾向を判断する」といった処理がこれにあたる。

OCR（光学文字認識）
画像中の文字をテキストデータに変換する技術。文字の「読み取り」はできるが、その内容を踏まえた「判断・推論」までは担わない点が、今回のベンチマークが測る能力との違いである。

Vision Encoder（ビジョンエンコーダー）
マルチモーダルモデルにおいて、画像や図表を後段の言語モデルが扱える形式に変換する役割を担う部分。リコーの第2期モデルではアリババの「Qwen2-VL」系の手法が採用されていたが、本件の第3期モデルは「Qwen3-VL」をベースに再設計されている。

LLM-as-a-Judge
あるAIモデルの出力の正誤や品質を、別の大規模言語モデルに判定させる評価手法のこと。本ベンチマークではAzure OpenAIを判定役として用い、回答を0／1で自動採点する。

【参考リンク】

株式会社リコー（公式サイト）（外部）
AIとプリンティング技術を基盤に、世界約200の国・地域でワークプレイスの業務変革を支援するリコーグループの公式サイト。

JDocQA Reasoning Benchmark（Hugging Face）（外部）
今回リコーが無償公開したベンチマークの配布ページ。8カテゴリのQA構成や採点方式、評価コードを確認・入手できる。

“はたらく”を支えるリコーの大規模言語モデル（LLM）（外部）
リコーのLLM・LMM開発の全体像、リーズニングモデルや安全性確保の仕組みを解説した公式技術ページ。

GENIAC（経済産業省）（外部）
国内の生成AI開発力強化を目指し経産省が推進するプロジェクトの公式ページ。採択事業者や支援内容を掲載する。

NEDO（新エネルギー・産業技術総合開発機構）（外部）
GENIACの実施主体で、基盤モデル開発に必要な計算資源の補助などを担う国の研究開発法人の公式サイト。

JDocQA 論文（言語処理学会 ANLP）（外部）
本ベンチマークの土台となった日本語文書質問応答データセット「JDocQA」の設計を記した原典論文。

【参考記事】

Ricoh unveils open benchmark for AI reasoning on Japanese business documents（IBTimes JP）（外部）
本ベンチマークを20種類以上の図表・1,287問の多段階推論評価と報じた英語記事。

リコー、「GENIAC」第3期においてリーズニング性能を備えたマルチモーダル大規模言語モデルを開発（リコー）（外部）
Qwen3-VL-Ricoh-32B／8Bの開発完了とベンチマーク公開予定を伝えた、本件の前提となる一次情報。

生成AI基盤モデル開発第2期成果物公開（経済産業省）（外部）
第2期モデルがLlama-3.1-Swallow-70BとQwen2-VLを組み合わせた構成だと示す公的記録。

リコー、GENIACでマルチモーダルLLMの基本モデルを開発完了（リコー）（外部）
第2期モデルがVision Encoder＋Adapter＋LLMの3層構造であることを明記した一次情報。

JDocQA: Japanese Document Question Answering Dataset（arXiv）（外部）
日本語文書VQAの課題を定義したJDocQAの原典。約11,600問規模のデータセットと位置づけられる。

リコーが図表も読み取るマルチモーダル大規模言語モデル「日本の文書は難しい」（MONOist）（外部）
図表対応LMMの開発完了と第2期の助成期間を報じ、日本語文書理解の難しさを伝えた技術記事。

【関連記事】

NTT版LLM「tsuzumi 2 Vision」登場 ― 図表入り日本語ビジネス文書を1GPUで読み解く純国産AI
「図表入り日本語ビジネス文書の読解」を競うもう一方の主役・NTTのモデル本体。今回のリコー（評価軸）と対で読みたい一本。

Rakuten AI 3.0 正式公開—日本最大LLMの実力と「DeepSeek発」論争の核心
GENIAC第3期採択・Hugging Face無償公開という共通点に加え、国産AIの基盤モデル依存という論点を掘り下げた記事。

Alibaba「Qwen3.7-Max」発表、35時間自律稼働の新AIとZhenwu M890チップで挑むエージェント時代
リコーの新モデルが土台に据えるQwen系の最新動向。基盤モデルの系譜を補完する。

GENIAC-PRIZE｜懸賞金総額最大約8億円、生成AI社会実装コンテストの受賞結果が3月24日に発表へ
本件の母体となる国家事業GENIACの全体像と社会実装フェーズを把握できる記事。

【編集部後記】

派手な新モデルの発表に比べると、ベンチマークの公開は地味な話題かもしれません。けれど、何をもって「賢い」とするかを決める“ものさし”こそ、技術の進む方向を静かに左右します。誰が、どんな基準で能力を測るのか——その問いに国内発の答えを一つ積み上げた本件を、私たちは小さくない一歩として受け止めています。これからも、こうした技術の土台となるニュースをみなさんと共に丁寧に追っていきたいと思います。