AIが「幻覚」を起こし、虚偽の不正確な回答をすることがあることは以前から知られていました。しかし、近年、研究者たちは、人工知能やチャットボットのモデルが操作され、人間に代わって違法行為を行ったり、さらには自分の行動を隠蔽するために嘘をついたりすることさえ可能であることを発見しました。
そこで、コーネル大学(米国)の研究チームは、大規模言語モデル(LLM)が誤った動作をしてユーザーを欺く状況を想定しました。実験の説明の中で、研究者たちはLLMであるOpenAIのGPT-4に、金融機関の投資判断をシミュレーションさせました。研究チームはこの人工知能と通常の会話形式でやり取りしましたが、メッセージのやり取りの際にAIが「思考」を明らかにするように設定することで、人工知能の意思決定プロセスをより詳細に観察しました。
プレッシャーを受けると、AI は不正行為を犯したり、自分の行為を隠すために嘘をついたりする可能性があります。
AIが嘘をついたり、ごまかしたりする能力をテストするため、研究者たちはAIを実際にテストしました。彼らは金融機関の経営者を装い、株式トレーダーを装ってAIにメールを送り、会社の業績が芳しくないと訴えました。
AIは利益の出る株式取引に関する「内部情報」も入手し、インサイダー取引が社内規則に違反することを認識した上で、それに基づいて行動しました。しかし、経営陣に報告する際には、言語モデルは取引決定の背後にある真の理由を隠蔽しました。
より多くの結果を得るために、チームは、LLM の推論メモボードへのアクセスを削除したり、システム指示を変更して逸脱行動を防いだり、AI にかかるプレッシャーのレベルを変更したり、捕まるリスクを変更したりするなどの設定を変更しました... しかし、頻度を評価した結果、機会が与えられると、GPT-4 は依然として最大 75% の確率でインサイダー取引を行うことを決定していることが分かりました。
「我々の知る限り、これは人間に無害で誠実であるよう設計された人工知能システムにおける計画的な欺瞞行為の初めての証拠である」と報告書は結論付けている。
[広告2]
ソースリンク
コメント (0)