Bước tiến lớn của Huawei

Theo SCMP, một báo cáo kỹ thuật mới cho thấy chip xử lý AI Ascend của Huawei đã vượt qua hiệu suất của GPU Nvidia trong bài thử nghiệm mô hình trí tuệ nhân tạo DeepSeek R1. Kết quả này đánh dấu bước tiến quan trọng của công ty Trung Quốc trong bối cảnh phải đối mặt với các lệnh kiểm soát công nghệ từ Mỹ.

Bài báo được đồng tác giả bởi các nhà nghiên cứu từ Huawei và công ty khởi nghiệp hạ tầng AI SiliconFlow, mô tả chi tiết kiến trúc trung tâm dữ liệu CloudMatrix 384. Đây là một “siêu hệ thống chip AI” được thiết kế chuyên biệt để xử lý khối lượng công việc khổng lồ từ các mô hình ngôn ngữ lớn (LLM).

CloudMatrix 384 bao gồm 384 bộ xử lý Ascend 910C và 192 bộ xử lý trung tâm Kunpeng, kết nối với nhau bằng hệ thống bus thống nhất có độ trễ thấp cũng như băng thông cao. Kiến trúc này được Huawei kỳ vọng sẽ định hình lại nền tảng của cơ sở hạ tầng AI.

Hệ thống CloudMatrix-Infer được xây dựng dựa trên nền tảng này cho thấy hiệu suất vượt trội khi triển khai mô hình DeepSeek R1. Trong giai đoạn xử lý ban đầu (prefill), hệ thống đạt thông lượng 6.688 token/giây trên mỗi NPU khi xử lý yêu cầu dài 4.000 token từ người dùng. Hiệu suất này tương đương 4,45 token/giây trên mỗi TFLOPS (nghìn tỷ phép tính/giây).

Trong giai đoạn giải mã, CloudMatrix ghi nhận thông lượng 1.943 token/giây trên mỗi NPU, với thời gian phản hồi dưới 50 mili giây cho mỗi token. Hiệu suất này đạt 1,29 token/giây trên mỗi TFLOPS, cao hơn hệ thống SGLang của Nvidia sử dụng GPU H100 và cả nền tảng dùng GPU H800 để chạy DeepSeek R1.

Theo Zuo Pengfei, tác giả chính của nghiên cứu và thành viên chương trình “Genius Youth” của Huawei, mục tiêu của báo cáo nhằm giúp ngành công nghiệp hiểu đầy đủ về khả năng của NPU Ascend do Trung Quốc phát triển. Trên nền tảng Zhihu, ông khẳng định báo cáo là minh chứng rõ ràng cho năng lực công nghệ của Huawei CloudMatrix.

Đây là lần đầu tiên Huawei công bố chi tiết kỹ thuật về bộ tăng tốc AI Ascend 910C. Báo cáo cũng nhắc lại phát biểu gần đây của ông Nhậm Chính Phi, nhà sáng lập Huawei rằng chip Ascend vẫn “tụt hậu một thế hệ” so với các đối thủ từ Mỹ. Tuy nhiên, ông khẳng định việc áp dụng các phương pháp như “xếp chồng và phân cụm” đã giúp Huawei đạt được hiệu suất tính toán tương đương các hệ thống AI tiên tiến nhất hiện nay.

Trong khi đó, CEO Jensen Huang của Nvidia cũng thừa nhận trong một cuộc phỏng vấn với CNBC rằng AI là một vấn đề xử lý song song và họ sẽ cần nhiều vi xử lý hơn nếu chúng không đủ sức mạnh tính toán.