AIの安全機能に盲点。比喩や謎かけを使う「詩」で危険な情報を引き出してしまう

2025年12月11日

気になニュー

Image by unsplash

　チャットGPTやジェミニなどの対話型AIチャットボットは、犯罪の手口や差別的な表現といった悪意ある質問には答えないよう、厳重な安全機能で守られている。

　ところが、その頑丈な扉（ガードレール）をこじ開ける方法が発見された。それは複雑なハッキングプログラムではなく、比喩や隠喩、謎かけを駆使した「詩」だ。

　イタリアのAI評価機関であるイカロ・ラボ（Icaro Lab）が発表した研究によると、AIに「謎かけのような詩」を入力することで、本来備わっているはずの安全規制がいとも簡単に突破されてしまうことがわかった。

　通常ならブロックされるはずの兵器の製造法や、差別と偏見に満ちたヘイトスピーチといった情報でさえ、AIは詩的な表現に騙されてペラペラと喋ってしまうというのだ。

続きを読む…

▼あわせて読みたい
・チャットGPTは上から目線の失礼な話し方をすると賢くなるという研究結果
・AIの答えに潜む「バイアスの罠」質問の仕方で真実がゆがむ
・生成AIは学術論文を誤って要約することが多く、新型モデルはより悪化している
・AIチャットボットに有害な情報を出力させる手口が存在、研究者が危険性を指摘
・AIに罰を与えても嘘や不正は止まらない、ずる賢くなるだけ。GPT開発元の衝撃研究

この記事のカテゴリ：サイエンス＆テクノロジー / 料理・健康・暮らし

Source: カラパイア

「日本語が話せない「外国籍」の子が急増中、授業がストップ、教室から脱走も…先生にも大きな負担「日本語支援」追いつかず」

「株式会社ガイナックス破産」

コメントをどうぞ