AI(人工知能)ニュース

AI生成テキストの透かし、改ざんの容易さが研究で判明

AI生成テキストの透かし技術が改ざん可能であることがETH Zürichの研究で判明。透かしはAIコンテンツ識別の有望な手段とされるが、信頼性向上のためさらなる研究が必要です。【用語解説とAIによる専門的コメントつき】

Published

on

AI生成テキストの透かし(ウォーターマーク)は容易に改ざん可能であることが研究で明らかになりました。この技術は、大規模に展開する前にさらなる研究が必要であるとされています。透かしはAI生成テキストに隠されたパターンを挿入することで、テキストがAIシステムから来たものであることをコンピュータが検出できるようにするものです。しかし、ETH Zürichの研究チームによる新たな研究では、最先端の透かし技術が規制当局の要求に応えられていないことが示されました。この研究はまだ査読を受けていません。

研究者たちは、AIモデルの語彙を「グリーンリスト」と「レッドリスト」に分け、AIモデルにグリーンリストから単語を選ばせることで動作する5種類の透かしを改ざんしました。攻撃者はAPIを使用して透かしの適用されたAIモデルにアクセスし、多数のプロンプトを用いて透かしを「盗む」ことができました。これにより、透かしの約80%を偽装し、85%のAI生成テキストから透かしを削除することに成功しました。

メリーランド大学の信頼できるAIラボのディレクターであるSoheil Feizi准教授を含むETH Zürichのチームとは関係のない研究者も、透かしの信頼性が低く、偽装攻撃に対して脆弱であることを発見しています。ETH Zürichの研究結果は、これらの問題が現在使用されている最先端のチャットボットや大規模言語モデルにも及んでいることを確認しています。

にもかかわらず、透かしはAI生成コンテンツを検出する最も有望な方法であるとされていますが、大規模に展開するためにはさらなる研究が必要です。

【ニュース解説】

AI生成テキストに隠されたパターン、いわゆる「透かし」が容易に改ざん可能であることが最新の研究で明らかになりました。この透かし技術は、テキストがAIによって生成されたものであることを検出するために開発されましたが、ETH Zürichの研究チームによると、現在の技術では規制当局の要求に応えることができていないとのことです。

透かしの仕組みは、AIモデルの語彙を「グリーンリスト」と「レッドリスト」に分け、AIがテキストを生成する際にグリーンリストから選ばれた単語を使用することで、AIによって生成されたテキストに特定のパターンを埋め込むというものです。しかし、研究チームはAPIを通じて透かしの適用されたAIモデルにアクセスし、透かしを「盗む」ことに成功しました。これにより、透かしを偽装したり、AI生成テキストから透かしを削除したりする攻撃が可能となり、透かしの信頼性が大きく損なわれることが示されました。

この研究結果は、AI生成コンテンツの検出という点で透かし技術が依然として最も有望な手段であるものの、大規模な展開に向けてはさらなる研究と改善が必要であることを示しています。特に、AIによる偽情報の拡散や著作権侵害などの問題に対処するためには、より信頼性の高い透かし技術の開発が求められます。

この技術のポジティブな側面としては、AI生成コンテンツの識別が可能になることで、情報の信頼性を高めることができる点が挙げられます。一方で、透かしの改ざんや偽装が容易であることが明らかになったことは、AI技術の乱用によるリスクを高める可能性があります。また、この技術の進展は、AI生成コンテンツに関する規制や法律にも影響を与える可能性があり、将来的にはより厳格な基準や新たな対策が必要になるかもしれません。

長期的な視点では、AI技術の発展に伴い、AI生成コンテンツと人間によるコンテンツの区別がますます困難になる可能性があります。そのため、透かし技術だけでなく、AI生成コンテンツを識別するための多様な手法の開発と、それらを組み合わせることによる総合的な対策が重要となるでしょう。

from It’s easy to tamper with watermarks from AI-generated text.

Trending

モバイルバージョンを終了