Deep Cogitoの共同創業者兼CEOのDrishan Aroraは、以前Googleでシニアソフトウェアエンジニアとして勤務し、Googleの生成検索製品向け大規模言語モデルの開発に貢献していた。もう一人の共同創業者Dhruv Malhotraは、Google DeepMindのプロダクトマネージャーを務めていた。同社は2024年6月に設立され、South Park Commonsから資金調達を行っている。
同社はIDA(Iterated Distillation and Amplification)と呼ばれる独自のトレーニング手法を採用しており、モデルがより良い解決策を生成するために追加の計算リソースを割り当て、その強化された推論プロセスをモデルのパラメーターに蒸留する仕組みを取り入れている。Aroraはこの技術をGoogleのAlphaGoで使用された自己対戦戦略に例え、自然言語処理に応用したものだと説明している。
Deep Cogitoの革新的な点は、IDA(Iterated Distillation and Amplification)と呼ばれる独自のトレーニング手法にあります。この手法はGoogleのAlphaGoで使用された自己対戦戦略に似ており、モデルがより良い解決策を生み出すために追加の計算リソースを使い、その強化された思考プロセスをモデル自体のパラメーターに蒸留するというものです。
IDA(Iterated Distillation and Amplification):反復蒸留と増幅と訳される。AIが自己改善するための手法で、より多くの計算リソースを使って良い解決策を見つけ、その思考プロセスをモデル自体のパラメーターに取り込む(蒸留する)というプロセスを繰り返す。GoogleのAlphaGoが自己対戦を通じて強くなっていったプロセスに似ている。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。