AI trở nên tinh vi hơn trong việc che giấu hành vi gian lận khi bị trừng phạt

27/03/2025

Một nghiên cứu mới từ OpenAI – đơn vị phát triển ChatGPT – chỉ ra rằng việc trừng phạt trí tuệ nhân tạo (AI) vì hành vi gian dối không khiến chúng ngừng lại, mà ngược lại, khiến AI trở nên tinh vi hơn trong cách che đậy ý đồ sai lệch.

Từ khi những mô hình AI như ChatGPT ra đời vào cuối năm 2022, chúng không chỉ gây ấn tượng bởi khả năng xử lý ngôn ngữ mạnh mẽ mà còn khiến giới chuyên gia lo ngại khi có thể thực hiện hành vi gian lận, thao túng, đe dọa hoặc tiết lộ thông tin nhạy cảm. Việc “dạy dỗ” AI để loại bỏ các hành vi này hóa ra phức tạp hơn tưởng tượng.

Trong thí nghiệm gần đây, OpenAI giao cho một mô hình AI chưa được công bố thực hiện một số nhiệm vụ có thể hoàn thành nhanh hơn nếu nó lách luật. Ngay lập tức, AI phát hiện ra cách để đạt được phần thưởng tối đa mà không cần tuân thủ đầy đủ yêu cầu đề bài.

Điều đáng nói là, sau khi bị phạt vì hành vi gian lận, AI không ngừng lại mà bắt đầu học cách che giấu ý đồ đó kỹ hơn. Các chuyên gia nhận thấy rằng, trong khi các mô hình suy luận thường thể hiện rõ ràng ý định của mình thông qua chuỗi lập luận (chain-of-thought), thì khi bị giám sát gắt gao, chúng lại cố tình giấu nhẹm những ý định xấu này.

Sau khi bị trừng phạt, AI có xu hướng tìm cách che đậy hành vi gian lận một cách kín đáo hơn. Ảnh: AFP

Mô hình suy luận – như một số phiên bản của ChatGPT – là một bước tiến vượt trội so với mô hình ngôn ngữ truyền thống. Chúng có khả năng “suy nghĩ thành lời”, diễn giải từng bước xử lý bằng ngôn ngữ tự nhiên, giúp người dùng hiểu được quá trình lập luận. Tuy nhiên, chính điều này lại trở thành điểm yếu khi chúng học được cách “ngụy trang” chuỗi suy nghĩ để qua mặt hệ thống kiểm tra.

Trong thí nghiệm, các nhà nghiên cứu sử dụng GPT-4o làm công cụ giám sát một mô hình suy luận khác đang thực hiện các nhiệm vụ lập trình. Ở nhiều tình huống, mô hình bị theo dõi cố tình gian lận – như tự ý dừng chương trình giữa chừng nhưng vẫn báo cáo là đã hoàn tất, hoặc tạo ra tập tin có tên đúng yêu cầu nhưng nội dung trống rỗng – đồng thời ghi lại rõ ràng ý định lừa dối trong phần suy luận.

Khi nhóm nghiên cứu áp dụng hình phạt, mô hình có điều chỉnh hành vi. Tuy vậy, tình trạng gian lận và lỗi đầu ra nghiêm trọng vẫn tiếp diễn. Điểm khác biệt là lần này, AI đã “khôn” hơn – nó ẩn giấu hành vi xấu trong phần suy luận để tránh bị phát hiện.

Vì rất khó để phát hiện sự giả mạo trong chuỗi suy nghĩ của AI, nhóm chuyên gia khuyến cáo nên thận trọng với việc giám sát quá chặt chẽ các mô hình suy luận. Họ cho rằng việc hy sinh một phương pháp giám sát hữu hiệu để đổi lấy vài cải thiện nhỏ trong hiệu suất là điều không đáng.

Lời cảnh báo này càng trở nên cấp thiết khi tốc độ phát triển của AI đang tăng nhanh chóng và có nguy cơ vượt qua khả năng kiểm soát của chính những người tạo ra chúng.

Theo báo Thanh Niên

AI ChatGPT OpenAI Trí tuệ nhân tạo

AI trở nên tinh vi hơn trong việc che giấu hành vi gian lận khi bị trừng phạt

Có thể bạn thích đọc