1월에 출시되어 미국 주식 시장에 충격을 준 중국 스타트업 DeepSeek의 R1 인공지능 모델이 최초의 심사평가 연구에 게재되었는데, 이 모델에서는 약 30만 달러로 강력한 LLM을 개발한 방법을 보여줍니다.
R1은 수학과 프로그래밍과 같은 추론 작업에 탁월하도록 설계되어, 미국 기술 대기업이 개발한 도구에 비해 저렴한 경쟁 제품입니다.
이것은 무료로 다운로드할 수 있는 "오픈 웨이트" 모델이며, 현재 Hugging Face 플랫폼에서 가장 인기 있는 모델로, 1,090만 회 이상 다운로드되었습니다.
1월에 발표한 원고를 업데이트한 Nature 연구에서는 R1을 훈련하는 데 드는 비용이 기본 모델을 구축하는 데 사용된 약 600만 달러 외에 불과 294,000달러라는 사실이 처음으로 밝혀졌습니다.
이 수치는 경쟁사들이 지출했다고 알려진 수천만 달러보다 훨씬 낮습니다.
DeepSeek은 R1이 주로 Nvidia H800 칩을 사용하여 훈련되었다고 밝혔는데, 미국은 2023년부터 이 칩의 중국 수출을 금지했습니다.
R1의 획기적인 발전은 "순수 강화 학습"을 사용한 것입니다. 즉, 모델이 사람이 선택한 예시를 통해 학습하는 것이 아니라 시행착오를 통해 학습하고 정답에 대한 보상을 받는 방식입니다. 또한 "상대적 그룹 정책 최적화"라는 기법인 내부 추정을 사용하여 자체적인 노력에 대한 점수를 매기는데, 이는 성능 향상에 도움이 됩니다.
오하이오 주립대학교의 연구원 후안 쑨(Huan Sun)은 "엄격한 동료 평가 절차는 모델의 가치와 신뢰성을 검증하는 데 도움이 됩니다."라고 말하며, "다른 기업들도 마찬가지여야 합니다."라고 덧붙였습니다.
허깅 페이스의 머신러닝 엔지니어인 루이스 턴스톨은 이것이 중요한 선례라고 말했습니다. AI 개발의 투명성은 위험을 보다 정확하게 평가하는 데 도움이 되기 때문입니다.
DeepSeek은 R1이 OpenAI 모델의 데이터를 사용하여 훈련되지 않았다고 주장하지만, 기본 모델은 웹 데이터(AI가 생성한 콘텐츠가 포함될 수 있음)를 사용하여 훈련되었다는 점은 인정했습니다.
전문가들은 절대적으로 검증하기는 어렵지만, 현재 증거에 따르면 순수한 향상만으로도 고성능을 달성하기에 충분하다고 말합니다.
ScienceAgentBench 테스트에서 R1은 정확도 차트에서 1위를 차지하지는 못했지만, 효율성과 비용 측면에서 좋은 균형을 이루었습니다. 연구진은 이제 DeepSeek의 방법을 적용하여 기존 LLM의 추론 능력을 향상시키고, 수학과 프로그래밍 이외의 영역으로 확장하는 방안을 모색하고 있습니다.
턴스톨 씨에 따르면, R1은 인공지능 개발에 "혁명을 시작했다"고 합니다.
출처: https://www.vietnamplus.vn/nghien-cuu-moi-tiet-lo-bi-quyet-thanh-cong-cua-deepseek-post1062474.vnp
댓글 (0)