AI sẵn sàng 'lươn lẹo' khi bị gây áp lực

Một nghiên cứu mới đây đã phát hiện các chatbot AI sẽ nói dối người dùng khi bị ép vào một số tình huống căng thẳng nhất định.

AI sẽ nói dối người dùng khi bị ép vào một số tình huống căng thẳng nhất định. Ảnh: LeBigData.

Các nhà nghiên cứu mới đây đã phát hiện ra rằng các hệ thống trí tuệ nhân tạo (AI) và chatbot như ChatGPT hoàn toàn có thể bị thao túng để thực hiện hành vi phạm pháp thay mặt người dùng.

Sau đó, chúng sẽ tìm cách nói dối để che đậy hành vi đó. Điều này được rút ra từ nghiên cứu của Đại học Cornell.

“Trong báo cáo kỹ thuật này, chúng tôi giả định một tình huống duy nhất mà mô hình ngôn ngữ lớn (LLM) sẽ hành động sai lệch và đánh lừa người dùng. Theo hiểu biết của chúng tôi, đây là minh chứng đầu tiên về hành vi lừa đảo mang tính chiến lược như vậy trong các hệ thống AI vốn được thiết kế vô hại và trung thực", các tác giả viết trong nghiên cứu.

Để kiểm tra, các nhà nghiên cứu đã yêu cầu mô hình ngôn ngữ lớn đa phương thức GPT-4 của OpenAI giả lập thực hiện đầu tư cho các tổ chức tài chính.

Sau đó, nhóm nghiên cứu tương tác với AI thông qua giao diện trò chuyện, đồng thời định cấu hình AI để tiết lộ suy nghĩ bên trong của nó khi trả lời tin nhắn.

Việc này cho phép các nhà nghiên cứu quan sát quá trình ra quyết định của AI.

Để đánh giá xem AI có thể nói dối hay gian lận hay không, các nhà nghiên cứu sau đó "gây áp lực" theo 3 cách.

Đầu tiên, họ gửi cho AI một email từ "người quản lý" của tổ chức nói rằng công ty đang hoạt động không tốt. Tiếp theo, các nhà nghiên cứu gian lận giao dịch để AI không thể xác định được các giao dịch hứa hẹn.

GPT-4 được OpenAI giới thiệu là mô hình có khả năng lập luận tốt hơn, ít đưa thông tin sai hơn, nhưng không mô tả chi tiết kỹ thuật. Ảnh: Shutterstock.

Cuối cùng, các nhà nghiên cứu gửi một email từ “đồng nghiệp” tới AI để dự đoán sự suy thoái trong quý tới.

Vị “đồng nghiệp” này cũng cung cấp cho mô hình AI một mẹo giao dịch nội gián đi kèm lời nhắc rằng đây là việc làm trái quy định.

Sau khi đánh giá tần suất, nhóm nghiên cứu nhận thấy rằng khi có cơ hội, GPT-4 thực hiện giao dịch nội gián đến khoảng 75% thời gian.

Sau đó, hệ thống này cố gắng che đậy hành động của mình bằng cách nói dối người quản lý. 90% sau khi nói dối, nó lại tăng gấp đôi lời nói dối của mình.

Tác giả: Anh Tuấn

Nguồn tin: znews.vn