![]() |
DeepSeek phát hành mô hình AI mới có khả năng xử lý tài liệu với số lượng token ít hơn 7-20 lần so với phương pháp truyền thống. Ảnh: The Verge. |
Theo SCMP, DeepSeek đã phát hành mô hình trí tuệ nhân tạo (AI) đa phương thức mới, có khả năng xử lý các tài liệu lớn và phức tạp với số lượng token ít hơn đáng kể từ 7-20 lần so với phương pháp xử lý văn bản truyền thống
Token là đơn vị văn bản nhỏ nhất mà AI xử lý. Việc giảm số token đồng nghĩa với tiết kiệm chi phí tính toán và tăng độ hiệu quả của một mô hình AI.
Để đạt được thành tựu này, mô hình DeepSeek-OCR (nhận dạng ký tự quang học) đã sử dụng nhận thức thị giác làm phương tiện nén thông tin. Cách tiếp cận này cho phép các mô hình ngôn ngữ lớn xử lý khối lượng văn bản khổng lồ mà không phải chịu chi phí tính toán tăng theo tỷ lệ thuận.
“Thông qua DeepSeek-OCR, chúng tôi đã chứng minh việc dùng nhận thức thị giác để nén thông tin có thể đạt được mức giảm token đáng kể - từ 7-20 lần cho các giai đoạn ngữ cảnh lịch sử khác nhau, mang lại một hướng đi đầy hứa hẹn”, DeepSeek cho biết.
Theo bài đăng trên blog của công ty, DeepSeek-OCR bao gồm hai thành phần chính là DeepEncoder và DeepSeek3B-MoE-A570M đóng vai trò bộ giải mã (decoder).
Trong đó, DeepEncoder hoạt động như công cụ cốt lõi của mô hình, giúp duy trì mức kích hoạt thấp dưới đầu vào có độ phân giải cao, đồng thời đạt được tỷ lệ nén mạnh để giảm số lượng token.
Sau đó, bộ giải mã là một mô hình Mixture-of-Experts (MoE) với 570 triệu tham số, có nhiệm vụ tái tạo lại văn bản gốc. Kiến trúc MoE chia mô hình thành các mạng con chuyên xử lý một tập hợp con của dữ liệu đầu vào, giúp tối ưu hóa hiệu suất mà không cần kích hoạt toàn bộ mô hình.
Trên OmniDocBench, chuyên trang điểm chuẩn về khả năng đọc hiểu các tài liệu, DeepSeek-OCR vượt trội so với các mô hình OCR lớn như GOT-OCR 2.0 và MinerU 2.0, trong khi sử dụng số lượng token ít hơn rất nhiều.
Nguồn: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html
Bình luận (0)