Google BooksがAIによる低品質作品を索引付け、Ngram研究ツールに悪影響を及ぼす可能性があると報じられました。AIチャットボットが生成したと思われる書籍が検出され、学術研究の信頼性が問題視されています。AI技術の進歩による情報質の低下と誤情報の拡散が懸念され、AI生成コンテンツの管理と規制が重要な課題となっています。【用語解説とAIによる専門的コメントつき】
Google Booksが、質の低いAIによって書かれた作品を索引付けしていると報じられています。これにより、言語研究ツールNgramの結果に悪影響を及ぼす可能性があります。Google Booksは出版物を索引付けし、学術研究に不可欠なツールとなっていますが、最近になって低品質の書籍が含まれるようになったとのことです。特に、ChatGPTなどのチャットボットが使用する「as of my last knowledge update」というフレーズを用いた検索で、AIが書いた可能性のある複数の書籍が検出されました。これらの書籍は、AIに関する内容ではなく、ボットによって書かれたかのように見えるものも含まれていました。
Google Booksは、1500年代からの書籍をスキャンし、索引付けしており、そのデータはNgramビューアの大部分を占めています。Ngramは、言語の使用方法が時間とともにどのように変化しているかを追跡する研究ツールです。しかし、Googleは最近のGoogle Booksの作品がNgramの結果には表示されないと述べていますが、将来のデータ更新でこれらが含まれる可能性があります。
【ニュース解説】
Google BooksがAIによって書かれた質の低い作品を索引付けしているという報告があり、これが言語研究ツールNgramの結果に悪影響を及ぼす可能性があるという問題が浮上しています。Google Booksは、過去の出版物をデジタル化し、索引付けすることで、学術研究において重要なリソースとなっています。しかし、最近になって、AIが生成したと思われる低品質の書籍が含まれ始めたことが指摘されています。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。