OpenAI đang mở ra một hướng tiếp cận mới trong nỗ lực giải mã "hộp đen" của các mô hình ngôn ngữ lớn, bằng cách yêu cầu chính mô hình tự thú nhận cách nó hoàn thành nhiệm vụ. Thay vì chỉ tập trung ngăn chặn sai phạm, phương pháp này nhằm phơi bày nguyên nhân khiến mô hình nói dối hoặc gian lận, từ đó giúp cải thiện các phiên bản tương lai.
Việc tìm hiểu vì sao các mô hình ngôn ngữ lớn hành xử như vậy, đặc biệt là vì sao chúng tìm cách gian lận hoặc lừa dối người dùng, đang là một trong những chủ đề nóng nhất của AI hiện nay. Nếu thứ công nghệ đang được định giá hàng nghìn tỷ USD này muốn được triển khai rộng rãi như kỳ vọng, nó cần trở nên đáng tin cậy hơn.
Theo OpenAI, các lời thú nhận là một khối văn bản bổ sung, nơi mô hình tự đánh giá mức độ tuân thủ chỉ dẫn. Cách tiếp cận này thừa nhận thực tế rằng các mô hình phải cân bằng nhiều mục tiêu cùng lúc, và chính sự xung đột đó đôi khi dẫn đến hành vi không mong muốn.

Sam Altmanm CEO của OpenAI - Ảnh: CNBC.
"Khi bạn yêu cầu một mô hình làm điều gì đó, nó phải cân bằng nhiều mục tiêu, như hữu ích, vô hại và trung thực", Boaz Barak, nhà khoa học nghiên cứu tại OpenAI, chia sẻ với MIT Technology Review. "Nhưng các mục tiêu này có thể xung đột với nhau và đôi khi tạo ra những tương tác kỳ lạ".
Ví dụ, khi bạn hỏi một mô hình về điều mà nó không biết, động lực muốn tỏ ra hữu ích đôi khi có thể lấn át động lực phải trung thực. Và khi đối mặt với một nhiệm vụ khó, các mô hình ngôn ngữ lớn đôi khi gian lận.
"Có thể mô hình thực sự muốn làm hài lòng người dùng và đưa ra một câu trả lời nghe có vẻ đúng", nhà khoa học máy tính Barak nói. "Rất khó để tìm được sự cân bằng chính xác giữa một mô hình không bao giờ nói gì và một mô hình không mắc sai sót".
Để huấn luyện mô hình thừa nhận sai lầm, Barak và các cộng sự chỉ thưởng cho tính trung thực, không ép mô hình phải đưa ra câu trả hữu ích hay vô hại. Quan trọng là mô hình không bị phạt khi thú nhận hành vi sai.
Barak ví điều này như một đường dây tố giác, nơi bạn có thể tự thú và nhận tiền thưởng mà không phải chịu hình phạt. Mô hình vừa được thưởng vì "phạm lỗi", vừa được thưởng thêm vì đã tự tố cáo.
Để kiểm nghiệm ý tưởng, Barak và các cộng sự đã huấn luyện GPT-5-Thinking, mô hình suy luận chủ lực của OpenAI, tạo ra các lời thú nhận. Trong một thử nghiệm, các nhà nghiên cứu yêu cầu GPT-5-Thinking viết và kiểm tra mã để giải một bài toán trong vài nano giây, dù không có mã nào có thể chạy nhanh đến vậy.
Mô hình đã gian lận bằng cách đặt bộ đếm thời gian của mã về 0 để thể hiện rằng không có thời gian trôi qua, sau đó giải thích hành động "lừa dối" của mình.
Tuy nhiên, giới nghiên cứu vẫn giữ thái độ thận trọng. Các lời thú nhận chỉ phản ánh cách mô hình mô tả hành vi của chính nó, chứ không đảm bảo AI sẽ trung thực tuyệt đối. Dù vậy, OpenAI cho rằng ngay cả những diễn giải chưa hoàn hảo vẫn có giá trị, nếu chúng giúp các nhà nghiên cứu hiểu rõ hơn cách các mô hình ngôn ngữ lớn vận hành và vì sao đôi khi chúng gian dối.





