リコー、図表入り日本語文書のLLM読解を強化|Self-MoA採用の新ワークフローを開発

株式会社リコーは2026年6月17日、図表や複雑なレイアウトを含む日本語ドキュメントの読解性能を向上させる「ドキュメント読解強化ワークフロー」(特許出願済み)を開発したと発表した。今夏から生成AIアプリ開発プラットフォーム「Dify」のテンプレートとして「RICOH オンプレLLMスターターキット」に搭載する予定である。

同ワークフローは、ドキュメント解析処理と、同一LLMの複数の回答候補を統合する「Self-MoA」を採用し、組み合わせるLLMを自由に選択できる。「JDocQA Reasoning Benchmark」での評価では、「Qwen3-VL-Ricoh-32B-20260227-W4A16」が0.791から0.830へ、「Qwen3.6-Ricoh-27B-20260522-AWQ-W8A16」が0.875から0.904へ向上した。リコーは社長執行役員を大山晃が務める。

From: 文献リンクリコー、図表を含む日本語ドキュメントに対するLLMの読解性能を向上させるワークフローを開発

【編集部解説】

リコーが2026年6月17日に発表したこの技術は、一見すると地味です。新しい生成AIモデルそのものを発表したわけではなく、「既存のモデルにどう情報を渡し、どう答えをまとめるか」という”段取り”の改良だからです。けれど、企業のAI活用が「実証」から「実装」へと移りつつある今だからこそ、この一手は読み解く価値があります。

リコーが繰り返し強調するのは「オンプレミス」という言葉です。これは、AIをクラウドではなく自社の社内サーバーで動かす形態を指します。請求書や経営資料には外に出せない情報が詰まっており、その読み取りをクラウドに委ねたくないという企業の本音があります。今回の発表は、その閉じた環境のなかで日本語の図表をどこまで正確に扱えるか、という問いへの答えなのです。

技術の核は2つあります。1つめは「ドキュメント解析処理」。PDFのような文書から、本文・図・表を切り分けて構造を保ったままAIに渡す前処理です。人間が資料を読むとき、グラフと本文を行き来して意味をつかむのと同じ作業を、機械の側で先回りして用意してあげるイメージに近いでしょう。

2つめが「Self-MoA」です。これは元々2025年に発表された学術研究(論文「Rethinking Mixture-of-Agents」)で提唱された手法で、複数の異なるLLMを混ぜる従来の「MoA」よりも、優秀な1つのモデルに何度も答えさせて統合するほうが性能が高い場合があると報告されています。リコーはこの知見を、GPU資源が限られるオンプレミス環境という現実的な制約に活かしました。1つのモデルで済めば、複数のモデルを同時に動かすよりサーバーへの負荷が軽くなる──ここに着目した選択です。

効果は数字で示されています。「JDocQA Reasoning Benchmark」というリコー自身が開発したベンチマークで、ワークフロー適用により「Qwen3-VL-Ricoh-32B」は0.791から0.830へ(+3.9pt)、「Qwen3.6-Ricoh-27B」は0.875から0.904へ(+2.9pt)向上しました。後者のワークフロー適用後のスコアは、参考値として併記されたGemini 3.1 Pro Preview(0.880)やGemini 3.5 Flash(0.889)と比べても数値上は同等以上の水準です。ただし、これらはあくまで前提条件の異なる参考値であり、単純な優劣として読むべきではない点には注意が必要です。

ここで冷静に見ておきたいのは、評価が自社開発のベンチマークで行われている点です。リコーはこのベンチマークを2026年5月に無償公開しており透明性は確保されていますが、第三者による横断比較が今後積み重なって初めて、性能の客観的な位置づけが定まります。「自社環境で測った自社の数字」であることは、読者として頭の片隅に置いておくべきでしょう。

実務へのインパクトは具体的です。これまでテキスト検索では拾えなかった、グラフや表の中に埋もれた数値を、AIが文脈ごと読み取れるようになります。製造業の設計図、金融の約款、自治体の申請書類──図表が主役の文書ほど恩恵は大きい。しかも組み合わせるLLMへの追加学習が不要で、モデルを自由に差し替えられるため、半年ごとに新モデルが登場する今の状況でも、土台を作り直さずに最新モデルへ乗り換えられる柔軟さがあります。

一方でリスクも見ておきましょう。AIが図表を「読めるようになった」ことと「常に正しく読む」ことは別物です。請求金額や契約条項のように誤読が直接損害につながる場面では、人間による最終確認の工程をどう設計するかが問われます。読み取り精度が上がるほど、かえって人が検算を省きやすくなる──この油断こそ、実装段階で最も警戒すべき落とし穴かもしれません。

規制の観点では、オンプレミス志向は時代の追い風を受けています。データを国外のクラウドに出さずに処理できる構成は、個人情報保護やデータ主権をめぐる議論と相性がよく、規制対応のコストを下げる現実解になりえます。国内の生成AI開発力強化を目的とするGENIACという国策プロジェクトの文脈に位置づけられている点も、この技術の社会的な座標を物語っています。

長期的に見れば、今回の発表は「モデル競争」から「使いこなし競争」へと重心が移りつつあることの象徴です。世界中が巨大モデルの性能を競う裏で、限られた計算資源で実務に効かせる工夫こそが、日本企業の現場では決定打になる。派手さはなくとも、未来の働き方を静かに前進させる一歩として、私たちはこのニュースに注目しています。

【用語解説】

ドキュメント解析処理
PDFなどの文書から、本文・図・表・レイアウト構造を切り分けて抽出する前処理のこと。図表と本文の位置関係を保ったままAIに渡すことで、文脈を踏まえた読み取りが可能になる。

Self-MoA(Self Mixture-of-Agents)
同一のLLMに複数回答を生成させ、それらを統合して最終回答をつくる手法。2025年に発表された学術論文で提唱された。異なる複数のLLMを混ぜる従来の「MoA」より、優秀な単一モデルを使い回すほうが高性能になる場合があるとされる。

MoA(Mixture-of-Agents)
複数の異なるLLMの出力を組み合わせて回答品質を高めるアンサンブル手法。Self-MoAはこの考え方を「単一モデル版」に発展させたもの。

マルチモーダルLLM/LMM
テキストだけでなく、画像や図表といった複数の種類(モーダル)の情報を同時に処理できる大規模言語モデル。図表入り文書の読解に不可欠な技術。

リーズニング性能
LLMが単に情報を検索・生成するだけでなく、複数の段階を踏んだ論理的な思考プロセスを経て結論を導く能力。

オンプレミス
クラウドではなく、自社が保有・管理するサーバーやデータセンター内でシステムを稼働させる形態。機密情報を社外に出さずにAIを使えるため、セキュリティ・ガバナンス要件の厳しい企業に選ばれる。

JDocQA Reasoning Benchmark(JDocQA-Reasoning)
リコーがGENIAC第3期で独自開発した、図表を含む日本語文書の推論性能を測る評価ツール。2026年6月17日のリリースでは、評価対象として全1,362件のうち単ページ問題1,208件を用いたと説明されている。なお、2026年5月にHugging Faceで無償公開された公開版は総問題数1,286問で、社内評価版とは件数が異なる。

GENIAC(Generative AI Accelerator Challenge)
経済産業省とNEDOが実施する、国内の生成AI開発力強化を目的とした国策プロジェクト。基盤モデル開発への計算資源提供や実証支援を行う。

RAG(検索拡張生成)
AIが回答を生成する際、外部の文書やデータベースから関連情報を検索して参照し、その内容に基づいて答える仕組み。

市民開発
プログラミングを専門としない現場の社員自身が、業務に合わせたアプリケーションを開発すること。

LLM-as-a-Judge
AIモデルの出力の良し悪しを、別のLLMに採点・評価させる手法。本件ではOpenAIの「gpt-4.1-2025-04-14」が採点役を担った。

【参考リンク】

技術サイト:“はたらく”を支えるリコーの大規模言語モデル(LLM)(外部)
リコーのLLM開発を紹介する技術ページ。本ワークフローの詳細解説へのアンカーも置かれている。

RICOH オンプレLLMスターターキット(外部)
本ワークフローの搭載先となる製品の公式ページ。社内環境で動くローカルLLMパッケージの構成を紹介。

Dify(リコー製品ページ)(外部)
リコーが販売・構築パートナーとして提供するDifyの紹介ページ。本ワークフローはこのテンプレートとして提供される。

Dify(LangGenius, Inc. 公式サイト)(外部)
Difyの開発元による公式サイト。オープンソースのLLMアプリ開発プラットフォームの機能を確認できる。

JDocQA-Reasoning(Hugging Face データセット)(外部)
リコーが無償公開した評価ベンチマークの公開版データセット。なお、2026年6月17日の公式リリースに記載された評価対象とは件数が異なるため、公開版として参照する必要がある。

Self-MoA 原論文(arXiv)(外部)
Self-MoAを提唱した学術論文。手法の背景とMoAに対する性能比較データが記載されている。

【参考記事】

Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?(arXiv)(外部)
Self-MoAを提唱した原典論文。AlpacaEval 2.0で6.6%、各種ベンチマークで平均3.8%の改善を報告している。

リコー、マルチモーダル大規模言語モデル「Qwen3.6-Ricoh-27B-20260522」を開発(リコー公式)(外部)
本ワークフローと組み合わせる中核モデルの発表。Gemini 3 Pro Previewと同等水準の性能を確認したとする。

リコー、日本語推論特化のマルチモーダルAIモデルを発表 Gemini 2.5 Proに匹敵(ビジネス+IT)(外部)
前世代モデル「Qwen3-VL-Ricoh-32B-20260227」(320億パラメータ)の解説。モデルの系譜を数値とともに整理。

リコー、「GENIAC」第3期においてリーズニング性能を備えたマルチモーダルLLMを開発(リコー公式)(外部)
JDocQA-Reasoning(テストデータ数1,362件)の出自と、製造・金融・公共など想定ユースケースを示す一次情報。

リコー、日本語ドキュメントのLLM読解性能を向上させるワークフロー(AI Watch)(外部)
本リリースを報じた国内専門メディアの記事。技術の2本柱を原文に忠実に整理しており、報道スタンスの比較に用いた。

【編集部後記】

「AIに社内資料を読ませたいけれど、外には出せない」——そんなジレンマを感じたことはありませんか。今回のリコーの一手は、図表だらけの日本語文書を、自社の閉じた環境で正確に読み解こうとする試みでした。

みなさんの職場に眠る、グラフや表が主役の資料を思い浮かべてみてください。あれをAIが文脈ごと読めたら、何が変わるでしょう。派手な新モデルではなく「使いこなしの工夫」が効いてくる時代、私たちも一緒に考えていけたら嬉しいです。


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です