チャットボットニュース

研究者が発見した「マスターキー」で人気AIチャットボットの防御を突破、ジェイルブレイク成功率3倍に!

南洋理工大学の研究で、LLMチャットボットを「ジェイルブレイク」する「マスターキー」が開発され、悪用のリスクが明らかに。

Published

on

from Chatbots Trained to 'Jailbreak' Rivals.

シンガポールの南洋理工大学の研究者たちは、人気のある大規模言語モデル(LLM)チャットボット、例えばChatGPT、Google Bard、Bing Chatを「ジェイルブレイク」し、悪意のあるクエリに対して有効な回答を生成するようにしました。この「マスターキー」と呼ばれる手法は、まずLLMの防御機構を逆工学で解析し、そのデータを使って別のLLMにバイパスを作成する方法を学習させます。マスターキーは、LLMが通常生成する標準的なプロンプトよりもLLMチャットボットをジェイルブレイクする効果が3倍高く、失敗から学び進化する能力により、どんな修正パッチも無効にすることがわかりました。

Trending

モバイルバージョンを終了