Google Booksが、質の低いAIによって書かれた作品を索引付けしていると報じられています。これにより、言語研究ツールNgramの結果に悪影響を及ぼす可能性があります。Google Booksは出版物を索引付けし、学術研究に不可欠なツールとなっていますが、最近になって低品質の書籍が含まれるようになったとのことです。特に、ChatGPTなどのチャットボットが使用する「as of my last knowledge update」というフレーズを用いた検索で、AIが書いた可能性のある複数の書籍が検出されました。これらの書籍は、AIに関する内容ではなく、ボットによって書かれたかのように見えるものも含まれていました。
Google Booksは、1500年代からの書籍をスキャンし、索引付けしており、そのデータはNgramビューアの大部分を占めています。Ngramは、言語の使用方法が時間とともにどのように変化しているかを追跡する研究ツールです。しかし、Googleは最近のGoogle Booksの作品がNgramの結果には表示されないと述べていますが、将来のデータ更新でこれらが含まれる可能性があります。
【ニュース解説】
Google BooksがAIによって書かれた質の低い作品を索引付けしているという報告があり、これが言語研究ツールNgramの結果に悪影響を及ぼす可能性があるという問題が浮上しています。Google Booksは、過去の出版物をデジタル化し、索引付けすることで、学術研究において重要なリソースとなっています。しかし、最近になって、AIが生成したと思われる低品質の書籍が含まれ始めたことが指摘されています。
この問題の核心は、AIによって生成されたテキストが、人間による編集や校正を経ずに出版され、Google Booksによって索引付けされてしまうことにあります。特に、AIチャットボットが使用する特定のフレーズを用いて検索した際に、AIによって書かれた可能性が高い書籍が検出されたことが問題視されています。これらの書籍は、情報が古い、またはWikipediaからの情報をそのまま引用しているなど、質が低いとされています。
Ngramは、過去の書籍や文書を分析することで、言語の使用方法が時間とともにどのように変化しているかを追跡するツールです。このツールは、言語学者や他の学術研究者にとって貴重なリソースとなっていますが、質の低いAI生成テキストが含まれることで、その信頼性が損なわれる恐れがあります。
この問題は、AI技術の進歩とその応用範囲の拡大に伴い、新たな課題を提示しています。AIによるテキスト生成技術は、多くの分野で有用なツールとなっていますが、その一方で、情報の質を保証するメカニズムの欠如が問題となっています。このような背景から、AI生成コンテンツの管理と規制に関する議論が、今後ますます重要になってくると考えられます。
また、この問題は、AI技術の発展に伴うポジティブな側面と潜在的なリスクのバランスをどのように取るか、という大きな問題を提起しています。AIによるコンテンツ生成がもたらす便利さと効率性は魅力的ですが、それによって生じる情報の質の低下や誤情報の拡散といったリスクに対処するための対策が求められています。
将来的には、AI生成コンテンツの品質を確保するための基準やガイドラインの策定、AIによるコンテンツ生成と人間による編集・校正のバランスを取るための新たなアプローチの開発などが、重要な課題となるでしょう。このような取り組みを通じて、AI技術のポテンシャルを最大限に活用しつつ、そのリスクを最小限に抑えることが、今後の課題となります。
from Google Books reportedly indexing bad AI-written works.