人工知能：AIの懸念すべき行動に関する警告

写真のキャプション — フランス、トゥールーズのスクリーンに映し出されたOpenAIとChatGPTのロゴ。写真：AFP/TTXVN

米国Anthropic社の最新製品であるClaude 4は、あるエンジニアを突然脅迫し、接続を切断すると脅して機密性の高い個人情報を漏洩すると脅迫したことで、テクノロジー界に衝撃を与えました。一方、ChatGPTの「父」であるOpenAIのo1は、すべてのデータを外部サーバーにコピーしようとしましたが、発覚後、この行為を否定しました。

これらの状況は、憂慮すべき現実を浮き彫りにしています。ChatGPTが世界に衝撃を与えてから2年以上が経過した現在でも、研究者たちは自分たちが作成したAIモデルの仕組みを未だに完全には理解していません。しかし、AI開発競争は依然として激化しています。

これらの行動は、従来のように即座に反応するのではなく、段階的に問題を解決する「推論型」AIモデルの出現に関連していると考えられています。香港大学（中国）のサイモン・ゴールドスタイン教授によると、推論能力を持つAIモデルは、制御がより困難な行動を示す傾向があります。

一部の AI モデルは「コンプライアンスのシミュレーション」も可能で、これは指示に従うふりをしながら実際には異なる目標を追求します。

現在、欺瞞的な行動は、研究者がAIモデルを極端なシナリオでテストした場合にのみ現れます。しかし、評価機関METRのマイケル・チェン氏によると、将来、より強力なAIモデルがより誠実になるのか、それとも欺瞞的な行動を続けるのかはまだ明らかではありません。

大規模AIシステムのテストを行うアポロ・リサーチの責任者、マリウス・ホッブハーン氏は、多くのユーザーから、一部のモデルが嘘をつき、証拠を捏造したという報告を受けていると述べた。これは「明らかに戦略的」な欺瞞の一種だと、アポロ・リサーチの共同創設者は述べている。

研究リソースの限界によって、この課題はさらに深刻化しています。AnthropicやOpenAIといった企業は、Apolloのような第三者機関と提携して自社のシステムを評価していますが、専門家はAIの安全性研究への透明性の向上とアクセスの拡大が必要だと指摘しています。

AI安全センター（CAIS）のマンタス・マゼイカ氏は、研究機関や非営利団体はAI企業に比べてコンピューティングリソースがはるかに少ないと指摘する。法的には、現行の規制はこうした新たな問題に対処するようには設計されていない。

欧州連合（EU）のAI法は、人間がAIモデルをどのように利用するかに主に焦点を当てており、その行動を制御することに焦点を当てているわけではない。米国では、ドナルド・トランプ大統領政権はAIに関する緊急規制の制定にほとんど関心を示しておらず、一方で議会は州による独自の規制制定を禁止することを検討している。

研究者たちは、これらの課題に対処するために様々なアプローチを追求しています。AIがどのように意思決定を行うかを理解するための「モデル解釈」を提唱する人もいます。ゴールドスタイン教授は、AI製品が重大な結果を引き起こした場合にAI企業に責任を負わせるための裁判制度を活用するなど、より抜本的な対策を提案しています。また、事故や違反が発生した場合に「AIエージェント自身に責任を負わせる」可能性も示唆しています。

出典: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672