Hacker dùng AI để tấn công Gemini của Google

Theo BGR, một báo cáo nghiên cứu mới vừa công bố một kỹ thuật đáng báo động mang tên 'Fun-Tuning', khi sử dụng chính AI (trí tuệ nhân tạo) để tự động tạo ra các cuộc tấn công dạng chèn prompt cực kỳ hiệu quả nhắm vào các mô hình AI tiên tiến khác, trong đó có cả Gemini của Google.

Phương pháp này khiến việc 'bẻ khóa' AI trở nên nhanh chóng, rẻ tiền và dễ dàng hơn bao giờ hết, đánh dấu một bước leo thang mới trong cuộc chiến an ninh mạng liên quan đến AI.

Hiểm họa khi kẻ xấu dùng AI để phá vỡ AI

Tấn công chèn prompt là một kỹ thuật mà kẻ xấu lén lút đưa các chỉ dẫn độc hại vào phần dữ liệu đầu vào của một mô hình AI (ví dụ: thông qua bình luận trong mã nguồn, văn bản ẩn trên web). Mục đích là để 'đánh lừa' AI, buộc nó phải bỏ qua các quy tắc an toàn được lập trình sẵn, dẫn đến những hậu quả nghiêm trọng như làm rò rỉ dữ liệu nhạy cảm, cung cấp thông tin sai lệch, hoặc thực hiện các hành vi nguy hiểm khác.

Hacker đang dùng chính AI để tấn công Gemini của Google - Ảnh 1. — Tin tặc đang dùng chính AI để tấn công AI

Trước đây, việc thực hiện thành công các cuộc tấn công này, đặc biệt trên các mô hình 'đóng kín' như Gemini hay GPT-4, thường đòi hỏi rất nhiều thử nghiệm thủ công phức tạp và tốn thời gian.

Nhưng Fun-Tuning đã thay đổi hoàn toàn cục diện. Phương pháp này do một nhóm nhà nghiên cứu từ nhiều trường đại học phát triển, khai thác một cách thông minh chính giao diện lập trình ứng dụng (API) tinh chỉnh mà Google cung cấp miễn phí cho người dùng Gemini.

Bằng cách phân tích các phản ứng tinh vi của mô hình Gemini trong quá trình tinh chỉnh (ví dụ như cách nó phản hồi lại các lỗi trong dữ liệu), Fun-Tuning có thể tự động xác định các 'tiền tố' và 'hậu tố' hiệu quả nhất để che giấu một câu lệnh độc hại. Điều này làm tăng đáng kể khả năng AI sẽ tuân theo ý đồ xấu của kẻ tấn công.

Kết quả thử nghiệm cho thấy Fun-Tuning đạt tỷ lệ thành công lên đến 82% trên một số phiên bản của Gemini, một con số vượt trội so với mức dưới 30% của các phương pháp tấn công truyền thống.

Điều làm tăng thêm mức độ nguy hiểm của Fun-Tuning là chi phí thực hiện rất thấp. Do API tinh chỉnh của Google được cung cấp miễn phí, chi phí tính toán để tạo ra một cuộc tấn công hiệu quả có thể chỉ tốn khoảng 10 USD. Hơn nữa, các nhà nghiên cứu còn phát hiện một cuộc tấn công được thiết kế cho một phiên bản Gemini có thể dễ dàng áp dụng thành công trên các phiên bản khác, mở ra nguy cơ bị tấn công trên diện rộng.

Google đã xác nhận họ nhận thức được mối đe dọa từ kỹ thuật Fun-Tuning nhưng hiện chưa đưa ra bình luận về việc liệu có thay đổi cách thức hoạt động của API tinh chỉnh hay không. Nhóm nghiên cứu cũng chỉ ra bài toán khó trong việc phòng thủ rằng nếu loại bỏ các thông tin mà Fun-Tuning khai thác khỏi quá trình tinh chỉnh, API này sẽ trở nên kém hữu dụng đối với các nhà phát triển chân chính. Ngược lại, nếu giữ nguyên, nó sẽ tiếp tục là bàn đạp để kẻ xấu lợi dụng.

Sự xuất hiện của Fun-Tuning là một lời cảnh báo rõ ràng, cho thấy cuộc đối đầu trong không gian mạng đã bước sang một giai đoạn mới, phức tạp hơn. AI giờ đây không chỉ là mục tiêu bị nhắm đến mà còn trở thành chính công cụ, vũ khí trong tay của các tác nhân độc hại.

Nguồn: https://thanhnien.vn/hacker-dung-ai-de-tan-cong-gemini-cua-google-18525033010473121.htm