Một nghiên cứu mới công bố đã làm dấy lên thêm lo ngại về cách OpenAI huấn luyện các mô hình trí tuệ nhân tạo của mình.
Các nhà nghiên cứu từ Đại học Washington, Stanford (Mỹ) cùng Đại học Copenhagen (Đan Mạch) đã đưa ra bằng chứng cho thấy một số mô hình trí tuệ nhân tạo của OpenAI, trong đó có GPT-4 và GPT-3.5, có thể đã "ghi nhớ" các nội dung có bản quyền trong quá trình đào tạo.
Bối cảnh pháp lý và tranh cãi
Theo TechCrunch, OpenAI đã phải đối mặt với một loạt vụ kiện từ các tác giả, lập trình viên và tổ chức báo chí. Các nguyên đơn cho rằng công ty này đã sử dụng tác phẩm của họ - bao gồm sách, mã nguồn và bài báo - để huấn luyện mô hình AI mà không có sự cho phép.
Mặc dù OpenAI tuyên bố tuân thủ nguyên tắc "sử dụng hợp lý" trong luật bản quyền Mỹ, các bên kiện cáo lập luận rằng không có điều khoản nào trong luật cho phép sử dụng dữ liệu có bản quyền để huấn luyện mô hình AI ở quy mô lớn như vậy.
Nghiên cứu mới tập trung vào việc tìm hiểu xem một mô hình trí tuệ nhân tạo có nhớ lại dữ liệu mà nó từng được học hay không, bằng cách sử dụng những từ hiếm gặp trong ngữ cảnh bình thường - gọi là các từ "bất thường". Ví dụ, trong câu "Jack và tôi ngồi im lặng hoàn toàn với tiếng radar kêu", từ "radar" được xem là bất thường vì trong tình huống này, các từ như "động cơ" hay "radio" sẽ phổ biến hơn.
Các nhà nghiên cứu đã tiến hành nhiều thử nghiệm bằng cách che đi những từ bất thường trong các đoạn văn trích từ tiểu thuyết hoặc bài báo của tờ New York Times, rồi yêu cầu các mô hình AI của OpenAI đoán những từ bị che khuất. Nếu mô hình đoán đúng, điều đó cho thấy nó có thể đã từng "gặp" và ghi nhớ nội dung này trong quá trình được huấn luyện.
GPT-4 và GPT-3.5 cho thấy dấu hiệu ghi nhớ nội dung bản quyền
Theo kết quả thử nghiệm, mô hình GPT-4 đã cho thấy dấu hiệu ghi nhớ các đoạn trích từ những tiểu thuyết phổ biến. Một phần trong số đó đến từ tập dữ liệu có tên BookMIA, vốn chứa nhiều sách điện tử có bản quyền. Ngoài ra, GPT-4 cũng được cho là đã ghi nhớ một phần nội dung từ New York Times, tuy với mức độ thấp hơn.
Những phát hiện này được đánh giá là khá đáng chú ý trong bối cảnh tranh cãi pháp lý đang diễn ra. Việc một mô hình AI có thể tái tạo lại nguyên văn những nội dung đã xuất bản cho thấy ranh giới giữa "học hỏi" và "sao chép" vẫn còn mờ nhạt trong cách AI được huấn luyện hiện nay.
"Để có những mô hình ngôn ngữ đáng tin cậy, chúng ta cần các hệ thống có thể được thăm dò, kiểm tra và đánh giá một cách khoa học", Abhilasha Ravichander, nghiên cứu sinh tiến sĩ tại Đại học Washington (Mỹ) và đồng tác giả nghiên cứu, cho biết. Bà nhấn mạnh rằng cần có sự minh bạch về dữ liệu trong toàn bộ hệ sinh thái AI, đặc biệt là những mô hình có ảnh hưởng lớn đến xã hội và kinh tế.
Nghiên cứu cũng không chỉ ra rằng tất cả dữ liệu đào tạo của OpenAI đều có vấn đề. Tuy nhiên, nó cho thấy khả năng tồn tại của những đoạn nội dung có bản quyền bị ghi nhớ, làm tăng nguy cơ mô hình vô tình "nhả" lại các nội dung này cho người dùng đầu cuối - điều có thể gây hậu quả pháp lý nếu không được kiểm soát kỹ.
Phản ứng và chiến lược của OpenAI
OpenAI từ lâu đã vận động cho việc nới lỏng các quy định về bản quyền liên quan đến dữ liệu đào tạo AI. Công ty này lập luận rằng việc sử dụng nội dung có bản quyền trong quá trình huấn luyện là cần thiết để đảm bảo chất lượng và năng lực của mô hình.
Mặc dù đã có một số thỏa thuận cấp phép với các tổ chức nội dung, và cung cấp công cụ để chủ sở hữu nội dung từ chối cho phép sử dụng, nhưng OpenAI vẫn đang kêu gọi chính phủ các nước thiết lập một khung pháp lý rõ ràng và linh hoạt hơn đối với AI.
Trong khi đó, các tổ chức báo chí và giới tác giả lại có quan điểm ngược lại. Họ cho rằng việc trích xuất kiến thức từ nội dung có bản quyền mà không có sự đồng thuận hay đền bù là hành vi xâm phạm quyền sở hữu trí tuệ.
Nghiên cứu mới không chỉ là một lời cảnh báo đối với OpenAI, mà còn cho toàn bộ ngành công nghiệp AI đang phát triển chóng mặt hiện nay. Khi các mô hình AI ngày càng được tích hợp vào nhiều lĩnh vực - từ giáo dục, y tế đến sáng tạo nội dung - thì tính minh bạch trong dữ liệu đào tạo trở nên thiết yếu để đảm bảo công bằng và hợp pháp.
Việc các mô hình có khả năng "ghi nhớ" nội dung cụ thể không chỉ đặt ra vấn đề pháp lý, mà còn đe dọa tính riêng tư và độc quyền nội dung. Điều này đặc biệt quan trọng trong các trường hợp mô hình AI bị lạm dụng để tạo ra các sản phẩm đạo văn, sao chép sách báo, hoặc cung cấp thông tin nhạy cảm một cách vô tình.