新たな研究がDeepSeekの成功の秘密を明らかにする

1月に発表された際に米国株式市場に衝撃を与えた中国の新興企業DeepSeekのR1人工知能モデルが、初の査読付き研究で発表され、同社がいかにしてわずか約30万ドルで強力なLLMを開発したかが示された。

R1は数学やプログラミングなどの推論タスクに優れているように設計されており、米国のテクノロジー大手が開発したツールの低コストのライバルとなる。

これは「オープンウェイト」モデルで、無料でダウンロードでき、現在 Hugging Face プラットフォームで最も人気のあるモデルであり、ダウンロード数は 1,090 万回を超えています。

ネイチャー誌の1月の論文の最新版であるこの研究は、R1のトレーニングには、ベースモデルの構築にかかった約600万ドルに加えて、わずか29万4000ドルしかかからないことを初めて明らかにした。

この数字は、競合他社が費やしたとされる数千万ドルよりもはるかに低い。

ディープシークは、R1は主にNvidia H800チップを使ってトレーニングされたと述べたが、米国は2023年以降、中国への輸出を禁止している。

R1の画期的な点は、「純粋強化学習」の採用です。これは、人間が選択した例から学習するのではなく、モデルを試行錯誤で訓練し、正解に対して報酬を与えるというものです。また、R1は内部推定値を用いて自身の学習成果を評価する「相対グループポリシー最適化」と呼ばれる手法も採用しており、パフォーマンス向上に貢献しています。

「厳格なピアレビュープロセスは、モデルの価値と信頼性を検証するのに役立ちます」と、オハイオ州立大学の研究者フアン・サン氏は述べています。「他の企業も同様の取り組みを行うべきです。」

ハギング・フェイスの機械学習エンジニア、ルイス・タンストール氏は、AI開発の透明性はリスクをより正確に評価するのに役立つため、これは重要な前例であると述べた。

DeepSeekは、R1はOpenAIのモデルのデータを使用してトレーニングされたわけではないと主張しているが、基礎となるモデルはWebデータ（AI生成コンテンツを含む可能性がある）でトレーニングされたことは認めている。

専門家は、絶対的な検証は難しいものの、現在の証拠は純粋な強化だけで高性能を達成するのに十分であることを示唆していると述べています。

ScienceAgentBenchテストでは、R1は精度チャートでトップにはなれなかったものの、効率性とコストのバランスが良好でした。研究者たちは現在、DeepSeekの手法を既存のLLMの推論能力の向上に適用し、数学やプログラミング以外の分野にも拡張することを目指しています。

タンストール氏によれば、R1は人工知能開発に「革命を起こした」という。

（TTXVN/ベトナム+）

出典: https://www.vietnamplus.vn/nghien-cuu-moi-tiet-lo-bi-quyet-thanh-cong-cua-deepseek-post1062474.vnp