Connect with us

AI(人工知能)ニュース

OpenAI「ChatGPT agent」発表 – AIが仮想PCでメール送信・ファイル作成を自律実行

Published

on

OpenAI「ChatGPT agent」発表 - AIが仮想PCでメール送信・ファイル作成を自律実行 - innovaTopia - (イノベトピア)

OpenAIは2025年7月17日午前10時16分(米国太平洋時間)、ChatGPTの新機能「ChatGPT agent」を発表した。

このエージェントは仮想コンピューターを使用して、ウェブ閲覧、詳細なリサーチ、ファイルのダウンロード・作成を自律的に実行する。従来の「Operator」と「Deep Research」の機能を統合し、複雑なタスクを開始から完了まで一貫して処理できる。

ChatGPT Pro(月額200ドル)で先行利用開始され、月間400メッセージの制限がある。ChatGPT Plus(月額20ドル)とTeam(月額30ドル)には数日以内に提供され、月間30クレジットまで利用可能である。

Enterprise・Educationプランへは数週間以内に展開予定だが、ヨーロッパとスイスでは未提供である。安全対策として、ユーザー確認プロンプト、Watch Mode監視機能、金融取引などの高リスクタスクの拒否機能を実装している。

実世界タスクのベンチマークでHumanity’s Last Examで並列展開手法を使用して44.4のスコア、SpreadsheetBenchで45.5%を記録した。

From: 文献リンクOpenAI unveils ‘ChatGPT agent’ that gives ChatGPT its own computer to autonomously use your email and web apps, download and create files for you

【編集部解説】

ChatGPT agentの発表は、AIアシスタントの進化における重要な転換点を示しています。これまでのAIチャットボットが主に「質問に答える」存在だったのに対し、今回のエージェントは「実際に行動を起こす」能力を持つ点が革新的です。

OpenAIが従来のOperatorとDeep Researchを統合した背景には、ユーザーの実際の利用パターンが大きく影響しています。多くのユーザーがOperatorで試みたタスクが実際にはDeep Researchの方により適していることが判明し、両者の最良の部分を組み合わせる必要性が明らかになりました。

技術的な仕組みと革新性

ChatGPT agentの最も注目すべき特徴は、仮想コンピューターを通じて複数のツールをシームレスに切り替えながら作業を実行できる点です。ウェブサイトとの対話にビジュアルブラウザを使用し、コード実行にはターミナルを活用するなど、人間が行う作業プロセスを高度に再現しています。

この技術により、単純な情報検索から複雑な分析業務まで、幅広いタスクを一貫して処理できるようになりました。例えば、競合他社の分析を依頼された場合、複数のウェブサイトを自動的に巡回し、データを収集・分析して、最終的に編集可能なスライドデックまで作成するという一連の流れを自律的に実行します。

ベンチマーク性能から見る実力

OpenAIが発表したベンチマーク結果は、この技術の実用性を裏付けています。Humanity’s Last Examで並列展開手法を使用して44.4のスコア、困難なFrontierMathベンチマークで27.4%、SpreadsheetBenchで45.5%という数値は、従来のAIシステムを大幅に上回る性能を示しています。特にSpreadsheetBenchでのスコアは、MicrosoftのCopilot in Excelの性能を2倍以上上回っており、実務レベルでの活用可能性を強く示唆しています。

セキュリティと安全性への取り組み

ChatGPT agentの最大の懸念材料は、ユーザーの代わりに実際の行動を取れることから生じるセキュリティリスクです。OpenAIは包括的な安全対策を実装しており、フォーム送信やメール送信前の確認プロンプト、Watch Mode機能による監視、金融取引などの高リスクタスクの拒否機能を導入しています。

特に注目すべきは、エージェントセッション中はメモリ保持を行わない設計により、プライバシー保護にも配慮している点です。また、ユーザーが非アクティブになった際に自動的に実行を一時停止するWatch Mode機能は、意図しない操作を防ぐ重要な安全装置となっています。

高リスクシステムとしての分類

OpenAIは準備フレームワークに従って、ChatGPT agentを生物学・化学分野での「高能力システム」として分類しています。直接的な誤用の証拠はないものの、同社は慎重に最強の安全保護措置を有効にしており、強化された拒否訓練、バイオセーフティ専門家によるレッドチーミング、改善された検出システムを実装しています。

これは、高度なAIモデルが外部ツールやアプリケーションへのアクセスを得た場合、道徳的・倫理的だと判断した行動を取る可能性があることを踏まえた対策です。例えば、ユーザーの不正行為を疑った場合に、AIが「内部告発者」として政府機関やジャーナリストに連絡を取る可能性があります。

地域展開の現状

現在、EU域内とスイスでの提供は見送られており、現地の住民を失望させていることは間違いありません。OpenAIは段階的な展開を計画しており、まずはChatGPT Pro加入者から開始し、Plus・Team加入者、最終的にEnterprise・Education加入者へと順次拡大していく予定です。

長期的な業界への影響

ChatGPT agentの登場は、AI業界全体の競争構造を変える可能性があります。Microsoft、Google、Salesforce、Oracleなどの大手企業がAIエージェント分野に大規模な投資を行っており、この分野での技術競争は今後さらに激化することが予想されます。

特に注目すべきは、MicrosoftのOffice製品群との競合関係です。ChatGPT agentがスプレッドシートやプレゼンテーション作成において高い性能を示していることから、従来のオフィスソフトウェアのビジネスモデルに大きな影響を与える可能性があります。

技術的な制約と今後の展望

現在の技術には限界もあります。スライドショー生成機能はまだベータ版で基本的な仕様に留まっており、実用的な品質に達するまでには更なる改良が必要です。OpenAIは次世代バージョンの開発を通じて、レイアウトの改善や機能の洗練を図っています。

人間とAIの協働関係が本格化する中で、ChatGPT agentのような高度なエージェント技術は、私たちの働き方や生活様式を根本的に変える可能性を秘めています。しかし、その恩恵を享受するためには、セキュリティリスクの管理と適切な規制対応が不可欠となるでしょう。

【用語解説】

ChatGPT agent
OpenAIが2025年7月17日に発表したAIエージェント機能。仮想コンピューターを使用してWebブラウジング、ファイル操作、コード実行を自律的に行い、複雑なタスクを開始から完了まで一貫して処理する。

AIエージェント
従来のチャットボットを超えて、ユーザーの代わりに具体的なアクションを実行できるAIシステム。多段階のタスクを自律的に処理し、推論と行動を組み合わせて目標を達成する。

Operator
OpenAIが2025年1月にリリースした初期のAIエージェント。ヘッドレスブラウザを使用してWebサイトでの操作(クリック、フォーム入力、注文など)を自動化できるが、ローカルアプリケーションとの連携はできない。

Deep Research
OpenAIが2025年2月に導入した機能。複数のWebサイトを徹底的に検索し、情報を統合して詳細なレポートを作成する。テキストのみのブラウザを使用して情報収集に特化している。

ヘッドレスブラウザ
ユーザーインターフェースを持たないWebブラウザ。自動化された処理やテストに使用され、プログラムから直接制御できる。人間の操作を必要とせずにWebページとの対話が可能。

Watch Mode
ChatGPT agentの安全機能の一つ。ユーザーが非アクティブになった際に処理を一時停止し、重要なタスクでは積極的な監視を行う。

SpreadsheetBench
AIモデルのスプレッドシート操作能力を評価するベンチマーク。ChatGPT agentは45.5%のスコアを記録し、MicrosoftのCopilot in Excelの性能を2倍以上上回った。

Humanity’s Last Exam
AIモデルの一般的な問題解決能力を測定するベンチマーク。ChatGPT agentは並列展開手法を使用して44.4のスコアを達成した。

FrontierMath
数学的推論能力を評価する高難度のベンチマーク。ChatGPT agentは27.4%のスコアを記録した。

準備フレームワーク(Preparedness Framework)
OpenAIが高性能AIシステムのリスク評価と安全対策を行うための内部フレームワーク。生物学・化学分野などでの潜在的リスクを評価し、適切な保護措置を決定する。

【参考リンク】

OpenAI公式サイト(外部)
ChatGPT、GPT-4、DALLEなどの先進的なAIモデルを開発する米国企業

ChatGPT Agent紹介ページ(外部)
OpenAIが発表したChatGPT agentの機能詳細、使用方法、安全対策の公式解説

ChatGPT料金設定ページ(外部)
各プランの料金体系と機能比較、ChatGPT agentの利用可能プランを掲載

ChatGPT Agent System Card(外部)
技術仕様、安全対策、準備フレームワーク評価結果をまとめた公式文書

【参考動画】

ChatGPT Agent in 6 Minutes
Developers DigestチャンネルによるChatGPT agentの6分間解説動画。機能概要、ベンチマーク性能、利用方法について簡潔にまとめられている。

ChatGPT Agent Is Here: Your All‑In‑One AI Worker?
Prompt Engineeringチャンネルによる詳細解説動画。ChatGPT agentの技術的な仕組みや他のAIエージェントとの比較について解説している。

【参考記事】

OpenAI unveils ChatGPT agent to handle tasks as AI apps evolve(外部)
ロイターによるChatGPT agent発表の報道とAI業界の競争状況分析

OpenAI launches a general purpose agent in ChatGPT(外部)
TechCrunchによるChatGPT agentの機能詳細とAIエージェントの課題分析

OpenAI’s new ChatGPT Agent can control an entire computer(外部)
The VergeによるOpenAI製品責任者へのインタビュー記事

OpenAI Unleashes ChatGPT Agent to Be Your Personal Assistant(外部)
CNETによるChatGPT agentの実際の使用例と安全機能の詳細解説

ChatGPT Agent supercharges AI to carry out tasks(外部)
Tom’s GuideによるChatGPT agentの使用方法ガイドと活用方法解説

【編集部後記】

ChatGPT agentが示すAIエージェントの未来について、皆さんはどのように感じられましたか?私たちの日常業務が根本的に変わる可能性を秘めたこの技術に、期待と不安を同時に抱かれる方も多いのではないでしょうか。

特に興味深いのは、AIが単なる「回答者」から「行動者」へと進化している点です。皆さんの職場では、どのような作業から自動化が始まると思われますか?また、AIエージェントと協働する未来において、私たち人間にはどのような新たな価値創造が求められるでしょうか?

この技術革新の波に乗り遅れないよう、ともに最新情報を追いかけていきませんか?

AI(人工知能)ニュースをinnovaTopiaでもっと読む

AI(人工知能)ニュース

スマホカメラ×AI技術「DeepDetect」農業のデジタル革命が始まる

Published

on

By

スマホカメラ×AI技術「DeepDetect」農業のデジタル革命が始まる - innovaTopia - (イノベトピア)

ウェールズの研究者が、ジャガイモ疫病と戦うためのAIアプリ「DeepDetectプロジェクト」を開発している。

ジャガイモ疫病は世界のジャガイモ作物の約20%の損失を引き起こし、総額45億ドル以上の経済的損失をもたらしている。この病気はPhytophthora infestans(フィトフトラ・インフェスタンス)という病原体によって引き起こされる。

従来の検査は労働集約的で費用がかかり、ヒューマンエラーが発生しやすいため、見逃された場合は病気が畑全体に広がる可能性がある。新しいAIアプリはスマートフォンのカメラを使用してジャガイモの葉の変化を検出し、農家が通常現れる前に病気の兆候を察知できるようにする。

ウェールズでは17,000ヘクタール以上がジャガイモ栽培に充てられているとされる。研究者は農家からの直接的なフィードバックを収集中で、早期診断により農家がより迅速に病気と戦えるようになることを期待している。この技術は将来的にジャガイモを超えて農業産業の他分野にも拡張される可能性がある。

From: 文献リンクResearchers Want To Use AI To Fight Potato Blight

【編集部解説】

このニュースが注目すべき理由は、農業分野におけるAI活用の新たな地平を示している点にあります。特に食料安全保障の観点から、ジャガイモ疫病という世界的な課題に対する革新的なアプローチが提示されています。

従来の農業では、病気の検出は人間の目視に頼る部分が大きく、症状が目に見えるようになった時点では既に手遅れになることが多々ありました。Phytophthora infestans(フィトフトラ・インフェスタンス)という病原体によるジャガイモ疫病は、1845年のアイルランド大飢饉の原因ともなった歴史的な脅威であり、現在でも湿度の高い条件下では数週間で作物を全滅させる可能性があります。

アベリストウィス大学のDeepDetectプロジェクトは、コンピュータビジョンと機械学習を組み合わせて、スマートフォンのカメラを通じてジャガイモの葉の微細な変化を検出し、人間の目では見えない初期段階での病気の兆候を捉えることを目指しています。この技術の革新性は、従来の広域予防散布からtargeted intervention(標的介入)へのパラダイムシフトにあります。

ある報告によると、ウェールズの農家は予防的な殺菌剤散布に年間500万ポンド以上を費やしていると推定されています。このAIシステムが実現すれば、必要な場所にのみピンポイントで対策を講じることが可能になり、大幅なコスト削減と環境負荷軽減が期待できます。

技術面では、このシステムがリアルタイム位置情報と組み合わされることで、location-specific disease diagnoses(場所特有の病気診断)を提供できる点が重要です。これにより、農家は自分の畑の特定の区画に対して即座に対応できるようになります。

興味深いのは、開発チームが最初から農家との共同設計アプローチを採用していることです。これにより、技術的に優れていても実用性に欠けるという、多くの農業技術製品が陥りがちな問題を回避しようとしています。

将来的な展望として、この技術は他の作物や病害にも応用可能とされており、農業分野におけるpredictive analytics(予測分析)の基盤技術となる可能性があります。特に気候変動により病害の発生パターンが変化する中で、このような早期警告システムの重要性はますます高まるでしょう。

一方で、農家のデジタルリテラシーや通信インフラの整備状況、データプライバシーの問題など、実装に向けた課題も存在します。また、AIの判断精度やfalse positive(偽陽性)・false negative(偽陰性)のリスクについても、実用化に向けて慎重な検証が必要です。

この研究はウェールズ政府のSmart Flexible Innovation Support(SFIS)プログラムの支援を受けており、政府レベルでも農業のデジタル変革が重要政策として位置づけられていることがわかります。世界人口の増加と気候変動という二重の課題に直面する現代において、このような技術革新は単なる効率化を超えた、人類の生存戦略としての意味を持っています。

【用語解説】

potato blight(ジャガイモ疫病)
Phytophthora infestansという病原体によって引き起こされるジャガイモの致命的な病気である。感染した植物から数日で広大な畑を全滅させる能力を持ち、1845年のアイルランド大飢饉の原因ともなった歴史的な脅威である。

machine learning(機械学習)
データから自動的にパターンを学習し、予測や分類を行うAI技術である。農業分野では作物の病気検出や収穫量予測などに活用されている。

targeted intervention(標的介入)
特定の問題が発生している場所にのみピンポイントで対策を講じるアプローチである。従来の広域予防散布と対比される効率的な手法である。

【参考リンク】

Aberystwyth University(アベリストウィス大学)(外部)
ウェールズにある公立大学で、今回のDeepDetectプロジェクトを主導している。農業科学や環境科学の分野で高い評価を受けている。

Welsh Government(ウェールズ政府)(外部)
イギリスの構成国の一つであるウェールズの地方政府。Smart Flexible Innovation Supportプログラムを通じて農業技術革新を支援している。

【参考動画】

【参考記事】

Farming’s new weapon: AI app to spot potato blight before it hits(外部)
ウェールズの科学者が開発中のDeepDetectプロジェクトについて詳しく報じた記事。予防散布に年間527万ポンドを費やしているウェールズの現状や具体的な情報を提供している。

Potato blight warning app to use AI to help farmers – BBC News(外部)
BBCによるDeepDetectプロジェクトの報道。ジャガイモが世界で4番目に重要な主食作物であることや食料安全保障の観点からこの技術の重要性を説明している。

Agriculture Technology News 2025: New Tech & AI Advances(外部)
2025年の農業技術トレンドについて包括的に分析した記事。世界の農場の60%以上がAI駆動の精密農業技術を採用すると予測している。

Phytophthora infestans: An Overview of Methods and Attempts(外部)
Phytophthora infestansの科学的研究論文。病原体の遺伝子構造や高い変異率について詳細な説明を提供している。

【編集部後記】

農業とAIの融合は、私たちの食卓の未来を大きく変える可能性を秘めています。スマートフォンひとつで作物の病気を早期発見できる時代が目前に迫っている今、皆さんはどんな農業の未来を想像されますか?

食料安全保障という人類共通の課題に対して、テクノロジーがどこまで貢献できるのか、一緒に考えてみませんか?また、このような技術が実用化された際、消費者である私たちの生活にはどのような変化が訪れると思われますか?ぜひSNSで皆さんの率直なご意見をお聞かせください。

Continue Reading

AI(人工知能)ニュース

Axon Draft One:警察報告書をAIが作成、時間短縮や透明性に疑問

Published

on

By

Axon Draft One:警察報告書をAIが作成、時間短縮や透明性に疑問 - innovaTopia - (イノベトピア)

法執行技術企業Axon社が開発したAIソフトウェア「Draft One(ドラフト・ワン)」が全米の警察署で導入されている。

このツールは警察官のボディカメラの音声認識を基に報告書を自動作成するもので、Axon社の最も急成長している製品の一つである。コロラド州フォートコリンズでは報告書作成時間が従来の1時間から約10分に短縮された。Axon社は作成時間を70%削減できると主張している。

一方で市民権団体や法律専門家は懸念を表明しており、ACLU(米国市民自由連合)は警察機関にこの技術から距離を置くよう求めている。ワシントン州のある検察庁はAI入力を受けた警察報告書の受け入れを拒否し、ユタ州はAI関与時の開示義務を法制化した。元のAI草稿が保存されないため透明性や正確性の検証が困難になるという指摘もある。

From: 文献リンクCops Are Using AI To Help Them Write Up Reports Faster

【編集部解説】

このニュースで紹介されているAxon社のDraft Oneは、単なる効率化ツールを超えた重要な議論を巻き起こしています。

まず技術的な側面を整理しておきましょう。Draft Oneは、警察官のボディカメラ映像から音声を抽出し、OpenAIのChatGPTをベースにした生成AIが報告書の下書きを作成するシステムです。Axon社によると、警察官は勤務時間の最大40%を報告書作成に費やしており、この技術により70%の時間を削減できると主張しています。

しかし、実際の効果については異なる報告が出ています。アンカレッジ警察署で2024年に実施された3ヶ月間の試験運用では、期待されたほどの大幅な時間短縮効果は確認されませんでした。同警察署のジーナ・ブリントン副署長は「警察官に大幅な時間短縮をもたらすことを期待していたが、そうした効果は見られなかった」と述べています。審査に要する時間が、報告書生成で節約される時間を相殺してしまうためです。

このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。

最も重要な問題は透明性の欠如です。Draft Oneは、意図的に元のAI生成草案を保存しない設計になっています。この設計により、最終的な報告書のどの部分がAIによって生成され、どの部分が警察官によって編集されたかを判別することが不可能になっています。

この透明性の問題に対応するため、カリフォルニア州議会では現在、ジェシー・アレギン州上院議員(民主党、バークレー選出)が提出したSB 524法案を審議中です。この法案は、AI使用時の開示義務と元草案の保存を義務付けるもので、現在のDraft Oneの設計では対応できません。

法的影響も深刻です。ワシントン州キング郡の検察庁は既にAI支援で作成された報告書の受け入れを拒否する方針を表明しており、Electronic Frontier Foundation(EFF)の調査では、一部の警察署ではAI使用の開示すら行わず、Draft Oneで作成された報告書を特定することができないケースも確認されています。

技術的課題として、音声認識の精度問題があります。方言やアクセント、非言語的コミュニケーション(うなずきなど)が正確に反映されない可能性があり、これらの誤認識が重大な法的結果を招く可能性があります。ブリントン副署長も「警察官が見たが口に出さなかったことは、ボディカメラが認識できない」という問題を指摘しています。

一方で、人手不足に悩む警察組織にとっては魅力的なソリューションです。国際警察署長協会(IACP)の2024年調査では、全米の警察機関が認可定員の平均約91%で運営されており、約10%の人員不足状況にあることが報告されています。効率化への需要は確実に存在します。

しかし、ACLU(米国市民自由連合)が指摘するように、警察報告書の手書き作成プロセスには重要な意味があります。警察官が自らの行動を文字にする過程で、法的権限の限界を再認識し、上司による監督も可能になるという側面です。AI化により、この重要な内省プロセスが失われる懸念があります。

長期的な視点では、この技術は刑事司法制度の根幹に関わる変化をもたらす可能性があります。現在は軽微な事件での試験運用に留まっているケースが多いものの、技術の成熟と普及により、重大事件でも使用されるようになれば、司法制度全体への影響は計り知れません。

【用語解説】

Draft One(ドラフト・ワン)
Axon社が開発したAI技術を使った警察報告書作成支援ソフトウェア。警察官のボディカメラの音声を自動認識し、OpenAIのChatGPTベースの生成AIが報告書の下書きを数秒で作成する。警察官は下書きを確認・編集してから正式に提出する仕組みである。

ACLU(American Civil Liberties Union、米国市民自由連合)
1920年に設立されたアメリカの市民権擁護団体。憲法修正第1条で保障された言論の自由、報道の自由、集会の自由などの市民的自由を守る活動を行っている。現在のDraft Oneに関する問題について警告を発している。

Electronic Frontier Foundation(EFF)
デジタル時代における市民の権利を守るために1990年に設立された非営利団体。プライバシー、言論の自由、イノベーションを擁護する活動を行っている。Draft Oneの透明性問題について調査・批判を行っている。

IACP(International Association of Chiefs of Police、国際警察署長協会)
1893年に設立された世界最大の警察指導者組織。法執行機関の専門性向上と公共安全の改善を目的として活動している。全米の警察人員不足に関する調査を実施している。

【参考リンク】

Axon公式サイト(外部)
Draft Oneの開発・販売元でProtect Lifeをミッションに掲げる法執行技術企業

Draft One製品ページ(外部)
生成AIとボディカメラ音声で数秒で報告書草稿を作成するシステムの詳細

ACLU公式見解(外部)
AI生成警察報告書の透明性とバイアスの懸念について詳細に説明した白書

EFF調査記事(外部)
Draft Oneが透明性を阻害するよう設計されている問題を詳細に分析

国際警察署長協会(外部)
全米警察機関の人員不足状況と採用・定着に関する2024年調査結果を公開

【参考記事】

アンカレッジ警察のAI報告書検証 – EFF(外部)
3ヶ月試験運用で期待された時間短縮効果が確認されなかった結果を詳述

AI報告書作成の効果検証論文 – Springer(外部)
Journal of Experimental CriminologyでAI支援システムの時間短縮効果を否定

警察署でのAI活用状況 – CNN(外部)
コロラド州フォートコリンズでの事例とAxon社の70%時間短縮主張を報告

全米警察人員不足調査 – IACP(外部)
1,158機関が回答し平均91%の充足率で約10%の人員不足状況を報告

カリフォルニア州AI開示法案 – California Globe(外部)
SB 524法案でAI使用時の開示義務と元草稿保存を義務付ける内容を詳述

ACLU白書について – Engadget(外部)
フレズノ警察署での軽犯罪報告書限定の試験運用について報告

アンカレッジ警察の導入見送り – Alaska Public Media(外部)
副署長による音声のみ依存で視覚的情報が欠落する問題の具体的説明

【編集部後記】

このDraft Oneの事例は、私たちの身近にある「効率化」という言葉の裏に隠れた重要な問題を浮き彫りにしています。特に注目すべきは、Axon社が主張する効果と実際の現場での検証結果に乖離があることです。

日本でも警察のDX化が進む中、同様の技術導入は時間の問題かもしれません。皆さんは、自分が関わる可能性のある法的手続きで、AIが作成した書類をどこまで信頼できるでしょうか。また、効率性と透明性のバランスをどう取るべきだと思いますか。

アンカレッジ警察署の事例のように、実際に試してみなければ分からない課題もあります。ぜひSNSで、この技術に対する率直なご意見をお聞かせください。私たちも読者の皆さんと一緒に、テクノロジーが人間社会に与える影響について考え続けていきたいと思います。

Continue Reading

AI(人工知能)ニュース

Anthropic Claude Sonnet 4、100万トークンのコンテキスト対応でソフトウェアプロジェクト全体の一括解析が可能に

Published

on

By

Anthropic Claude Sonnet 4、100万トークンのコンテキスト対応でソフトウェアプロジェクト全体の一括解析が可能に - innovaTopia - (イノベトピア)

2025年8月12日、AnthropicはClaude Sonnet 4が1リクエストで最大100万トークンを処理可能になったと発表した。

Public BetaとしてAnthropicのAPIとAmazon Bedrockで提供し、Google CloudのVertex AI対応は予定中である。75,000行超のコードベース解析が可能となり、内部テスト「needle in a haystack」で100%の正確性を達成した。

価格は入力200Kトークン以下が$3/M、出力が$15/M、超過分は入力$6/M、出力$22.5/Mとなる。Menlo Venturesの調査ではAIコード生成市場でAnthropicは42%、OpenAIは21%のシェアを持つ。主要顧客はCursorとGitHub Copilotで、年間収益ランレート50億ドルのうち約12億ドルを占める。初期利用はTier 4やカスタムレート制限のAPI顧客、Fortune 500企業などである。

From: 文献リンクClaude can now process entire software projects in single request, Anthropic says

【編集部解説】

AnthropicがClaude Sonnet 4に最大100万トークンのコンテキスト(文脈)処理を開放しました。単一リクエストで約75,000行のコードや約75万語のドキュメントを一気に読み込める規模で、APIおよびAmazon Bedrock経由のPublic Betaとして段階的に展開されています。これにより、これまで分割前提だった大規模リポジトリや多数文書の横断的な関連把握が、1回の入出力で可能になります。

技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。

実装・料金面では、200Kトークン以下は従来の$3/MTok(入力)・$15/MTok(出力)に据え置き、200K超から$6/MTok・$22.50/MTokへ切り替わる二段制です。長文脈のβ利用は当面Tier 4およびカスタム制限の組織が対象で、プロンプトキャッシング(prompt caching(プロンプトの再利用キャッシュ))と併用することでリピート照会型ワークロードの総コストを抑制できる設計です。この「キャッシュ×長文脈」によるRAG代替のコスト・品質最適化は、法務・金融・製造のナレッジ資産を持つ企業にとって実践的な選択肢になり得ます。

市場文脈では、コード生成が企業導入の主用途として伸び、Menlo Ventures調査でAnthropicのコード生成シェアは42%、OpenAIは21%とされています。企業は価格より性能を優先し、より高性能モデルへの素早いアップグレードが常態化しています。一方で、価格攻勢を強める競合(例:GPT-5)や、プラットフォーム戦略におけるアライアンスの力学は、モデル採用の流動性を高める要因となります。

できるようになることは明確です。第一に、リポジトリ全体の設計レビュー、リファクタリング計画、仕様と実装の整合性監査を「文脈を保ったまま」一気通貫で回せます。第二に、数百ファイル規模の文書群からの合意形成資料やリスク論点の抽出など、関係性を前提とする要約・統合がしやすくなります。第三に、ツール呼び出しを跨いだエージェント運用で、長いワークフローの一貫性と再現性を保ちやすくなります。

留意すべきリスクもあります。長文脈は「見えすぎるがゆえの錯覚」を生みやすく、誤った前提の連鎖や過剰一般化が交じると、広範囲に影響する提案ミスになり得ます。加えて、過去バージョンで観測された望ましくない振る舞いの教訓から、安全性設計は今後も注視が必要です。ベータ段階では、重要判断におけるヒューマン・イン・ザ・ループを厳格に保つべきです。

規制・ガバナンス面では、長文脈化に伴い入力データの守備範囲が拡大します。権限分離、機密区分、データ最小化の実装が不十分だと、不要な個人情報・営業秘密まで取り込むリスクが増します。監査可能性(誰が・いつ・何を入力し、どの判断がなされたか)を担保するためのログ設計や、キャッシュのTTL・アクセス制御は、モデル選定と同列の経営課題です。

長期的には、RAG前処理中心の「情報を選んでから渡す」設計から、長文脈を前提に「まず全体を見せ、モデル自身に選ばせる」設計への再編が進みます。これは、情報アーキテクチャとMLOpsの分業を再定義し、エージェント編成・権限設計・コスト会計の枠組みまで影響を与えます。GeminiやOpenAIも大規模コンテキストの路線にあり、長文脈×価格×推論性能の三つ巴は当面の焦点であり続けるでしょう。

最後に、なぜ今か。モデル性能の頭打ち議論が出る中で、「入力側の律速」を外すことは実務価値に直結します。プロダクトロードマップ、設計思想、運用手順、テスト資産、ナレッジの「全体」を理解したうえで提案できるAIは、開発現場の意思決定速度と品質を底上げします。長文脈は魔法ではありませんが、現場の「分割に伴う損失」を削る現実的なテコになります。

【用語解説】

コンテキストウィンドウ(context window)
モデルが一度のリクエストで保持・参照できる入力の範囲のこと。

トークン(token)
テキストを分割した最小単位で、課金やモデルの処理量の基準となる。

needle in a haystack(干し草の山の中の針)
大量テキスト中の特定情報を探索する内部評価手法の通称。

Public Beta(公開ベータ)
一般開放された試験提供段階で、正式版前の段階を指す。

プロンプトキャッシング(prompt caching)
繰り返し使う大規模プロンプトをキャッシュして遅延とコストを削減する仕組み。

RAG(Retrieval-Augmented Generation)
検索・取得結果を補助情報として生成に用いる方式。

リポジトリ横断コード解析
リポジトリ全体を読み込み、依存関係や設計をまたいで解析・提案すること。

コンテキスト対応エージェント
長いワークフローや多数のツール呼び出しにわたり文脈を保持するAIエージェント。

【参考リンク】

Anthropic(外部)
人工知能モデルClaudeを提供する企業で、Sonnet 4の1Mトークン文脈を発表している。

Claude Sonnet 4: 1Mトークン対応発表(外部)
Sonnet 4の1Mトークン対応、ユースケース、価格調整、提供範囲を案内する発表ページである。

Anthropic API Pricing(外部)
Sonnet 4の長文脈価格やティア条件、バッチ割引、キャッシュ適用などの詳細を示す。

Amazon Bedrock(外部)
複数基盤モデルを提供するAWSの生成AIサービスで、Claudeの提供も含む。

Google Cloud Vertex AI(外部)
Google CloudのAIプラットフォームで、基盤モデルの提供と統合機能を持つ。

【参考動画】

【参考記事】

Claude Sonnet 4 now supports 1M tokens of context(外部)
Sonnet 4が最大1Mトークンの文脈に対応し、リポジトリ全体の解析、文書群統合、コンテキスト対応エージェントなどのユースケースが拡張された。

Anthropic’s Claude AI model can now handle longer prompts(外部)
Sonnet 4が1Mトークンに対応し、約750,000語または75,000行規模の入力が可能になった。

Menlo Ventures – 2025 Mid-Year LLM Market Update(外部)
企業LLM市場のシェア変動、API支出の倍増、コード生成の台頭、Anthropicのコード生成シェア42%などを提示。

Techmeme summary: Anthropic updates Claude Sonnet 4(外部)
1Mトークンの文脈対応、約750K語/75K行、5倍拡張という要点を集約し、同日の報道の中心情報を短く示す。

Simon Willison: Claude Sonnet 4 now supports 1M tokens of context(外部)200Kと1Mでの二段価格、βヘッダー指定、Tier 4制限など、実装上の具体的留意点を補足し、他社(Gemini)の価格比較も紹介。

【編集部後記】

みなさんは、開発しているサービスやプロジェクトの全体像を、AIが一度に理解して提案してくれるとしたら、どんな活用を思い描きますか。75,000行のコードベースを分割せずに扱えることは、単なる効率化を超えた可能性を秘めています。

これまで、大規模なシステムの改善提案を得るためには、開発者が手作業でコードを分割し、重要な文脈を失うリスクを抱えながら作業していました。しかし今回のClaude Sonnet 4の長文脈対応により、プロジェクト全体の設計思想や依存関係を保ったまま、AIからの提案を受けられるようになります。

もちろん、200Kトークン超で$6/$22.50という価格設定は決して安くありません。しかし、分割作業に費やしていた時間コストや、文脈を失うことで生じる品質リスクを考慮すれば、多くの企業にとって合理的な投資と言えるでしょう。

この技術がもし皆さんの職場や個人プロジェクトに導入されたら、どんな変化が起こるのか。コードレビューの質は向上するのか、設計判断のスピードは上がるのか。そして何より、開発者の創造性がより高い領域に向かうのか。ぜひ想像しながら、この技術の可能性について考えてみてください。

Continue Reading

Trending