Theo một báo cáo từ BGR, một kỹ thuật mới mang tên ‘Fun-Tuning’ đã được công bố, cho phép sử dụng trí tuệ nhân tạo (AI) để tự động tạo ra các cuộc tấn công chèn lệnh (prompt injection) hiệu quả cao nhằm vào các mô hình AI tiên tiến như Gemini của Google. Phương pháp này làm cho việc ‘bẻ khóa’ AI trở nên nhanh chóng, tiết kiệm chi phí và dễ dàng hơn bao giờ hết, đánh dấu một bước leo thang mới trong cuộc chiến an ninh mạng liên quan đến AI.
Tấn công chèn lệnh là kỹ thuật mà kẻ tấn công lén lút đưa các chỉ dẫn độc hại vào dữ liệu đầu vào của mô hình AI, chẳng hạn như thông qua bình luận trong mã nguồn hoặc văn bản ẩn trên web. Mục tiêu là ‘đánh lừa’ AI, buộc nó bỏ qua các quy tắc an toàn được lập trình sẵn, dẫn đến hậu quả nghiêm trọng như rò rỉ dữ liệu nhạy cảm, cung cấp thông tin sai lệch hoặc thực hiện các hành vi nguy hiểm khác.

Trước đây, việc thực hiện thành công các cuộc tấn công này, đặc biệt trên các mô hình ‘đóng kín’ như Gemini hay GPT-4, thường đòi hỏi nhiều thử nghiệm thủ công phức tạp và tốn thời gian. Tuy nhiên, ‘Fun-Tuning’ đã thay đổi hoàn toàn cục diện. Phương pháp này, do một nhóm nhà nghiên cứu từ nhiều trường đại học phát triển, khai thác giao diện lập trình ứng dụng (API) tinh chỉnh mà Google cung cấp miễn phí cho người dùng Gemini.
Bằng cách phân tích các phản hồi tinh vi của mô hình Gemini trong quá trình tinh chỉnh, chẳng hạn như cách nó phản ứng với các lỗi trong dữ liệu, ‘Fun-Tuning’ có thể tự động xác định các ‘tiền tố’ và ‘hậu tố’ hiệu quả nhất để che giấu một câu lệnh độc hại. Điều này làm tăng đáng kể khả năng AI sẽ tuân theo ý đồ xấu của kẻ tấn công.
Kết quả thử nghiệm cho thấy ‘Fun-Tuning’ đạt tỷ lệ thành công lên đến 82% trên một số phiên bản của Gemini, một con số vượt trội so với mức dưới 30% của các phương pháp tấn công truyền thống.
Mức độ nguy hiểm của ‘Fun-Tuning’ càng gia tăng khi chi phí thực hiện rất thấp. Do API tinh chỉnh của Google được cung cấp miễn phí, chi phí tính toán để tạo ra một cuộc tấn công hiệu quả có thể chỉ tốn khoảng 10 USD. Hơn nữa, các nhà nghiên cứu còn phát hiện một cuộc tấn công được thiết kế cho một phiên bản Gemini có thể dễ dàng áp dụng thành công trên các phiên bản khác, mở ra nguy cơ bị tấn công trên diện rộng.
Google đã xác nhận họ nhận thức được mối đe dọa từ kỹ thuật ‘Fun-Tuning’ nhưng hiện chưa đưa ra bình luận về việc liệu có thay đổi cách thức hoạt động của API tinh chỉnh hay không. Nhóm nghiên cứu cũng chỉ ra bài toán khó trong việc phòng thủ: nếu loại bỏ các thông tin mà ‘Fun-Tuning’ khai thác khỏi quá trình tinh chỉnh, API này sẽ trở nên kém hữu dụng đối với các nhà phát triển chân chính. Ngược lại, nếu giữ nguyên, nó sẽ tiếp tục là bàn đạp để kẻ xấu lợi dụng.
Sự xuất hiện của ‘Fun-Tuning’ là một lời cảnh báo rõ ràng, cho thấy cuộc đối đầu trong không gian mạng đã bước sang một giai đoạn mới, phức tạp hơn. AI giờ đây không chỉ là mục tiêu bị nhắm đến mà còn trở thành chính công cụ, vũ khí trong tay của các tác nhân độc hại.
Theo báo Thanh Niên