중국의 AI 키미 K2는 반복적으로 불법적인 움직임을 보여 실격 처리되었습니다. - 사진: chess.com
Gemini 2.5 Pro, o4-mini, Grok 4, o3는 4-0으로 압도적인 승리를 거두고 AI 체스 토너먼트 준결승에 진출하여 각각 Claude 4 Opus, DeepSeek R1, Gemini 2.5 Flash, Kimi k2를 물리쳤습니다.
가장 주목할 만한 8강전에서 Moonshot AI의 Kimi K2 모델(중국)은 ChatGPT 개발사인 OpenAI의 o3, LLM에 0-4로 참패했습니다.
4개의 게임 모두 8수 이내에 빠르게 끝났는데, 키미 K2가 반복적으로 불법적인 움직임을 했기 때문이다.
예를 들어, 세 번째 게임에서 o3가 체크 비하인드 포지션을 정확히 파악했음에도 불구하고, 키미 K2는 네 번의 시도 모두에서 단 한 번의 적법한 수를 찾지 못해 패배를 인정해야 했습니다. o3의 스톡피쉬(Stockfish) 기술과 일치하는 수의 비율이 최대 100%에 달했는데, 이는 실력 차이가 너무 컸음을 보여줍니다.
다른 중국 대표인 DeepSeek 역시 OpenAI의 o4-mini에 0-4로 패하며 상황은 나아지지 않았습니다. 첫 게임에서는 상대보다 더 좋은 성적을 거두었지만, DeepSeek은 이후 게임에서도 실수를 범하며 체크메이트를 당했습니다.
하지만 8강전에서 가장 인상적인 캐릭터는 억만장자 일론 머스크의 xAI 회사 소속 모델인 그록 4였습니다. 그록 4는 구글의 제미니 2.5 플래시를 4-0으로 가볍게 물리쳤습니다. 상대의 모든 실수를 꿰뚫어 보는 능력을 갖춘 그록 4의 이동 정확도는 약 97.5%로 이번 라운드 최고 수준을 기록했습니다.
세계 랭킹 2위 나카무라 히카루는 경기에 대해 "Grok 4는 이번 대회에서 가장 강력한 LLM입니다. 다른 모델들과의 레벨 차이가 크지 않습니다."라고 놀라워했습니다.
머스크 씨는 나카무라가 소셜 네트워크 X에 남긴 댓글을 재빨리 공유하며 자신감 넘치는 코멘트를 덧붙이자, 이러한 의견은 더욱 강화되었습니다. "이건 단지 부작용일 뿐입니다. xAI는 체스에 거의 시간을 쓰지 않습니다."
체스 선수 나카무라는 AI 토너먼트에서 Grok 4가 "자신의 수준을 완전히 벗어났다"고 말했습니다. - 사진: 스크린샷
Google 측에서는 Gemini 2.5 Flash가 탈락했지만, 남은 대표인 Gemini 2.5 Pro가 Anthropic Company의 Claude 4 Opus를 상대로 4-0으로 압도적인 승리를 거두어 토너먼트에서의 입지를 굳혔습니다.
준결승은 8월 7일 0시 30분(베트남 시간)에 진행됩니다. 첫 번째 준결승전은 Grok 4와 Gemini 2.5 Pro 간의 치열한 접전입니다. 두 번째 경기는 o3와 o4-mini 간의 극적인 "OpenAI 더비"입니다.
투안 롱
출처: https://tuoitre.vn/my-thang-tuyet-doi-tai-giai-co-vua-danh-cho-ai-20250806111234074.htm
댓글 (0)