Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

Khoa học - công nghệ

GPT-4 'nhớ dai' đến mức nguy hiểm: Nghi vấn OpenAI sao chép nội dung bản quyền

Hoàng Vũ • 05/04/2025 11:20

Một nghiên cứu mới công bố đã làm dấy lên thêm lo ngại về cách OpenAI huấn luyện các mô hình trí tuệ nhân tạo của mình.

Các nhà nghiên cứu từ Đại học Washington, Stanford (Mỹ) cùng Đại học Copenhagen (Đan Mạch) đã đưa ra bằng chứng cho thấy một số mô hình trí tuệ nhân tạo của OpenAI, trong đó có GPT-4 và GPT-3.5, có thể đã "ghi nhớ" các nội dung có bản quyền trong quá trình đào tạo.

Nghiên cứu mới cho thấy mô hình AI của OpenAI có thể ghi nhớ và tái hiện nội dung có bản quyền từng được huấn luyện - Ảnh: Reuters

Bối cảnh pháp lý và tranh cãi

Theo TechCrunch, OpenAI đã phải đối mặt với một loạt vụ kiện từ các tác giả, lập trình viên và tổ chức báo chí. Các nguyên đơn cho rằng công ty này đã sử dụng tác phẩm của họ - bao gồm sách, mã nguồn và bài báo - để huấn luyện mô hình AI mà không có sự cho phép.

Mặc dù OpenAI tuyên bố tuân thủ nguyên tắc "sử dụng hợp lý" trong luật bản quyền Mỹ, các bên kiện cáo lập luận rằng không có điều khoản nào trong luật cho phép sử dụng dữ liệu có bản quyền để huấn luyện mô hình AI ở quy mô lớn như vậy.

Nghiên cứu mới tập trung vào việc tìm hiểu xem một mô hình trí tuệ nhân tạo có nhớ lại dữ liệu mà nó từng được học hay không, bằng cách sử dụng những từ hiếm gặp trong ngữ cảnh bình thường - gọi là các từ "bất thường". Ví dụ, trong câu "Jack và tôi ngồi im lặng hoàn toàn với tiếng radar kêu", từ "radar" được xem là bất thường vì trong tình huống này, các từ như "động cơ" hay "radio" sẽ phổ biến hơn.

Các nhà nghiên cứu đã tiến hành nhiều thử nghiệm bằng cách che đi những từ bất thường trong các đoạn văn trích từ tiểu thuyết hoặc bài báo của tờ New York Times, rồi yêu cầu các mô hình AI của OpenAI đoán những từ bị che khuất. Nếu mô hình đoán đúng, điều đó cho thấy nó có thể đã từng "gặp" và ghi nhớ nội dung này trong quá trình được huấn luyện.

GPT-4 và GPT-3.5 cho thấy dấu hiệu ghi nhớ nội dung bản quyền

Theo kết quả thử nghiệm, mô hình GPT-4 đã cho thấy dấu hiệu ghi nhớ các đoạn trích từ những tiểu thuyết phổ biến. Một phần trong số đó đến từ tập dữ liệu có tên BookMIA, vốn chứa nhiều sách điện tử có bản quyền. Ngoài ra, GPT-4 cũng được cho là đã ghi nhớ một phần nội dung từ New York Times, tuy với mức độ thấp hơn.

Những phát hiện này được đánh giá là khá đáng chú ý trong bối cảnh tranh cãi pháp lý đang diễn ra. Việc một mô hình AI có thể tái tạo lại nguyên văn những nội dung đã xuất bản cho thấy ranh giới giữa "học hỏi" và "sao chép" vẫn còn mờ nhạt trong cách AI được huấn luyện hiện nay.

"Để có những mô hình ngôn ngữ đáng tin cậy, chúng ta cần các hệ thống có thể được thăm dò, kiểm tra và đánh giá một cách khoa học", Abhilasha Ravichander, nghiên cứu sinh tiến sĩ tại Đại học Washington (Mỹ) và đồng tác giả nghiên cứu, cho biết. Bà nhấn mạnh rằng cần có sự minh bạch về dữ liệu trong toàn bộ hệ sinh thái AI, đặc biệt là những mô hình có ảnh hưởng lớn đến xã hội và kinh tế.

Nghiên cứu cũng không chỉ ra rằng tất cả dữ liệu đào tạo của OpenAI đều có vấn đề. Tuy nhiên, nó cho thấy khả năng tồn tại của những đoạn nội dung có bản quyền bị ghi nhớ, làm tăng nguy cơ mô hình vô tình "nhả" lại các nội dung này cho người dùng đầu cuối - điều có thể gây hậu quả pháp lý nếu không được kiểm soát kỹ.

Phản ứng và chiến lược của OpenAI

OpenAI từ lâu đã vận động cho việc nới lỏng các quy định về bản quyền liên quan đến dữ liệu đào tạo AI. Công ty này lập luận rằng việc sử dụng nội dung có bản quyền trong quá trình huấn luyện là cần thiết để đảm bảo chất lượng và năng lực của mô hình.

Mặc dù đã có một số thỏa thuận cấp phép với các tổ chức nội dung, và cung cấp công cụ để chủ sở hữu nội dung từ chối cho phép sử dụng, nhưng OpenAI vẫn đang kêu gọi chính phủ các nước thiết lập một khung pháp lý rõ ràng và linh hoạt hơn đối với AI.

Trong khi đó, các tổ chức báo chí và giới tác giả lại có quan điểm ngược lại. Họ cho rằng việc trích xuất kiến thức từ nội dung có bản quyền mà không có sự đồng thuận hay đền bù là hành vi xâm phạm quyền sở hữu trí tuệ.

Nghiên cứu mới không chỉ là một lời cảnh báo đối với OpenAI, mà còn cho toàn bộ ngành công nghiệp AI đang phát triển chóng mặt hiện nay. Khi các mô hình AI ngày càng được tích hợp vào nhiều lĩnh vực - từ giáo dục, y tế đến sáng tạo nội dung - thì tính minh bạch trong dữ liệu đào tạo trở nên thiết yếu để đảm bảo công bằng và hợp pháp.

Việc các mô hình có khả năng "ghi nhớ" nội dung cụ thể không chỉ đặt ra vấn đề pháp lý, mà còn đe dọa tính riêng tư và độc quyền nội dung. Điều này đặc biệt quan trọng trong các trường hợp mô hình AI bị lạm dụng để tạo ra các sản phẩm đạo văn, sao chép sách báo, hoặc cung cấp thông tin nhạy cảm một cách vô tình.

Bài liên quan

(0) Bình luận

Xếp theo:

Đọc thêm Khoa học - công nghệ

Nổi bật Một thế giới

Thủ tướng chỉ đạo triển khai giải pháp phòng, chống dịch bệnh gia súc, gia cầm

1 giờ trước Sự kiện

Nguy cơ dịch bệnh trên gia súc, gia cầm tiếp tục gia tăng trong thời gian tới, ảnh hưởng nghiêm trọng đến sức khỏe, đời sống của người dân và môi trường, nguồn cung thực phẩm.

TP.HCM: Phụ huynh có 9 ngày kiểm tra thông tin tuyển sinh đầu cấp

TP.HCM đang mở cổng kiểm tra thông tin tuyển sinh đầu cấp năm học 2025 - 2026 để phụ huynh...
Tổng Bí thư Tô Lâm điện đàm với Tổng thống Mỹ Donald Trump

Tối 4.4.2025, tại trụ sở Trung ương Đảng, Tổng Bí thư Tô Lâm đã có cuộc điện đàm với Tổng thống...
Trái đất nóng thêm 3°C, thu nhập của chúng ta sẽ bốc hơi 40%

Theo nghiên cứu mới của Giảng viên cao cấp về Kinh tế Timothy Neal thuộc Viện Rủi ro và Ứng...

Đừng bỏ lỡ

GPT-4 'nhớ dai' đến mức nguy hiểm: Nghi vấn OpenAI sao chép nội dung bản quyền

43 giây trước Khoa học - công nghệ

Một nghiên cứu mới công bố đã làm dấy lên thêm lo ngại về cách OpenAI huấn luyện các mô hình trí tuệ nhân tạo của mình.
Đảo thiên đường đối mặt với khủng hoảng năng lượng

một giờ trước Quốc tế

Tại quốc đảo Samoa ở Thái Bình Dương, người dân đang chịu đựng tình trạng mất điện luân phiên suốt nhiều tuần khiến làng mạc chìm trong bóng tối, gây gián đoạn cho doanh nghiệp lẫn cuộc sống thường nhật.
Google trình làng Gemini 2.5 Pro: Đắt nhưng đáng tiền?

một giờ trước Khoa học - công nghệ

Google vừa chính thức công bố bảng giá API cho Gemini 2.5 Pro, mô hình trí tuệ nhân tạo mới nhất và mạnh mẽ nhất của hãng, theo TechCrunch.
SAWACO đặt mục tiêu trở thành doanh nghiệp số tiên phong

1 giờ trước Thông tin và phát triển

Hướng đến mục tiêu xây dựng đô thị thông minh và nâng cao chất lượng sống cho người dân TP.HCM, vào ngày 23.10.2021, Tổng Công ty Cấp nước Sài Gòn - SAWACO đã triển khai Đề án Phát triển Công nghệ Thông tin giai đoạn 2021 - 2025, định hướng đến năm 2030.
Cơ cấu thỏa thuận mua bán TikTok ở Mỹ gần hoàn tất nhưng bị hoãn do Trung Quốc không phê duyệt

1 giờ trước Thế giới số

Thỏa thuận tách tài sản của TikTok tại Mỹ đã bị hoãn lại sau khi Trung Quốc cho biết sẽ không phê duyệt nó sau thông báo về thuế quan từ Tổng thống Donald Trump hôm 2.4, theo hai nguồn tin quen thuộc với vấn đề này.

Mới nhất

TP.HCM: Phụ huynh có 9 ngày kiểm tra thông tin tuyển sinh đầu cấp

5 phút trước Giáo dục

TP.HCM đang mở cổng kiểm tra thông tin tuyển sinh đầu cấp năm học 2025 - 2026 để phụ huynh kiểm tra từ ngày 4 đến hết ngày 13.4.
Thủ tướng chỉ đạo triển khai giải pháp phòng, chống dịch bệnh gia súc, gia cầm

1 giờ trước Sự kiện

Nguy cơ dịch bệnh trên gia súc, gia cầm tiếp tục gia tăng trong thời gian tới, ảnh hưởng nghiêm trọng đến sức khỏe, đời sống của người dân và môi trường, nguồn cung thực phẩm.
Trái đất nóng thêm 3°C, thu nhập của chúng ta sẽ bốc hơi 40%

3 giờ trước Kiến thức - Học thuật

Theo nghiên cứu mới của Giảng viên cao cấp về Kinh tế Timothy Neal thuộc Viện Rủi ro và Ứng phó Khí hậu, UNSW Sydneyvà các đồng nghiệp, thiệt hại do biến đổi khí hậu gây ra cho nền kinh tế thế giới đang bị đánh giá thấp rất nhiều, đặc biệt khi tính đến phạm vi toàn cầu của thời tiết khắc nghiệt và hậu quả của nó.
Tổng Bí thư Tô Lâm điện đàm với Tổng thống Mỹ Donald Trump

12 giờ trước Sự kiện

Tối 4.4.2025, tại trụ sở Trung ương Đảng, Tổng Bí thư Tô Lâm đã có cuộc điện đàm với Tổng thống Mỹ Donald Trump.
Máy xúc điện hoạt động 10 giờ/1 lần sạc

14 giờ trước Khoa học - công nghệ

Công ty Hyundai Construction Equipment Europe dự kiến ra mắt máy xúc chạy điện đầu tiên của mình tại thành phố Munich (Đức) vào tuần sau.

Xem thêm

Cơ quan chủ quản: Hội Thông tin Khoa học và Công nghệ Việt Nam.

ĐC: 24 Lý Thường Kiệt, Hàng Bài, Hoàn Kiếm, Hà Nội.

ĐT: 024.38256203

Hotline nội dung : 0934999945

Tổng biên tập: Hoàng Đại Thanh

Tổng Thư ký Tòa soạn: Nguyễn Đình Mười

Giấy phép số 77/GP-BTTTT do Bộ Thông tin và Truyền thông cấp ngày 26 tháng 2 năm 2020.

Tòa nhà SIMCO Sông Đà, Tiểu KĐT mới Vạn Phúc, Phường Vạn Phúc, Quận Hà Đông, TP. Hà Nội

ĐT: 0984708866

TPHCM: 345/134 Trần Hưng Đạo, phường Cầu Kho, Quận 1

ĐT:

Email: toasoan

Hotline quảng cáo: 096 2445664

Email quảng cáo: sales

Báo giá quảng cáo:

Công ty Cổ phần Truyền thông Một Thế Giới

GPT-4 'nhớ dai' đến mức nguy hiểm: Nghi vấn OpenAI sao chép nội dung bản quyền

GPT-4

OpenAI

bản quyền

AI

Google trình làng Gemini 2.5 Pro: Đắt nhưng đáng tiền?

Máy xúc điện hoạt động 10 giờ/1 lần sạc

Amazon thử nghiệm tác tử AI mua sắm hộ người dùng trên mọi trang web

Căn bệnh hiếm gặp do vi khuẩn từ đất có thể gây loét mủ ở phổi và não

Thúc đẩy việc ứng dụng AI, nâng cao kỹ năng sử dụng công cụ số

AI, ChatGPT, và cuộc chạy đua thay đổi thế giới

Thủ tướng chỉ đạo triển khai giải pháp phòng, chống dịch bệnh gia súc, gia cầm

TP.HCM: Phụ huynh có 9 ngày kiểm tra thông tin tuyển sinh đầu cấp

Tổng Bí thư Tô Lâm điện đàm với Tổng thống Mỹ Donald Trump

Trái đất nóng thêm 3°C, thu nhập của chúng ta sẽ bốc hơi 40%