人工知能プログラムは近年多くの成功を収めている - 写真:ロイター
大規模言語モデル (LLM) の入力データから出力結果までのプロセス全体を観察することはできません。
科学者たちは、これらのプログラムの仕組みを分かりやすく説明するために、「推論」といった一般的な用語を用いています。また、これらのプログラムは人間と同じように「考え」、「推論し」、「理解する」ことができるとも述べています。
AIの能力を誇張する
ZDNET 9月6日報道によると、過去2年間、多くのAI幹部が誇張表現を用いて単純な技術的成果を誇張してきたという。
2024年9月、OpenAIはo1推論モデルが「問題を解決する際に、人間が難しい質問に直面したときに長時間考えるのと同じように、推論の連鎖を使用する」と発表した。
しかし、AI科学者たちは反対しています。彼らはAIには人間の知能がないと考えているのです。
アリゾナ州立大学(米国)の著者グループによる arXiv データベースの研究では、簡単な実験で AI の推論能力が検証されました。
結果は、「思考の連鎖による推論は脆弱な幻想」であり、実際の論理的メカニズムではなく、単に洗練されたパターンマッチングの形式に過ぎないことを示しました。
「思考の連鎖」(CoT)という用語により、AI は最終的な答えを導き出すだけでなく、GPT-o1 や DeepSeek V1 モデルのように、論理的推論の各ステップを提示することもできます。
OpenAIのGPT-2言語モデルのイラスト - 写真: ECHOCRAFTAI
AIが実際に何をするのか見てみよう
研究者らによると、大規模な分析により、LLM は論理的推論のプロセスよりも意味論や表面的な手がかりに頼る傾向があることがわかったという。
「LLMは学習した入力の関連性に基づいて表面的な論理チェーンを構築しますが、従来の推論方法や使い慣れたパターンから逸脱するタスクでは失敗することが多い」と研究チームは説明している。
LLM はパターンを一致させるだけで、実際には推論を行っていないという仮説を検証するために、研究チームは 2019 年に OpenAI がリリースしたオープンソース モデルである GPT-2 をトレーニングしました。
モデルは当初、26文字の英語の文字を使った非常に単純なタスク、例えば「APPLE」を「EAPPL」に反転させるタスクで学習されました。その後、チームはタスクを変更し、GPT-2に処理させました。
結果は、トレーニング データに含まれていないタスクについては、GPT-2 は CoT を使用して正確に解決できないことを示しています。
代わりに、モデルは学習したタスクの中で最も類似したものを適用しようとします。そのため、その「推論」は合理的に聞こえるかもしれませんが、結果はしばしば間違っています。
研究グループは、LLM の回答は「非常に説得力があるように聞こえるナンセンス」を生み出す可能性があるため、LLM の回答に頼りすぎたり、盲目的に信頼したりすべきではないと結論付けました。
また、AIの本質を理解し、誇大宣伝を避け、AIが人間のように推論する能力を持っているという宣伝をやめる必要があることも強調した。
出典: https://tuoitre.vn/nghien-cuu-moi-ai-khong-suy-luan-nhu-con-nguoi-20250907152120294.htm
コメント (0)