Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

OpenAI có thể bị kiện về bản quyền vì ChatGPT ghi nhớ nội dung hàng trăm cuốn sách

Sơn Vân | 03/05/2023, 10:55

Các học giả tại Đại học California ở thành phố Berkeley (Mỹ) đã nghiên cứu sâu về ChatGPT cùng mô hình ngôn ngữ lớn GPT-4 của OpenAI và phát hiện chúng ghi nhớ nội dung hàng trăm cuốn sách có bản quyền.

Các học giả Kent Chang, Mackenzie Cramer, Sandeep Soni và David Bamman mô tả về khả năng ghi nhớ của ChatGPT/GPT-4 với các tài liệu có bản quyền trong bài viết Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4.

“Chúng tôi thấy rằng các mô hình OpenAI đã ghi nhớ một bộ sưu tập lớn các tài liệu có bản quyền và mức độ ghi nhớ này liên quan đến tần suất xuất hiện của các đoạn văn trong những cuốn sách đó”, các nhà nghiên cứu này giải thích.

Nhóm học giả đã xuất bản mã và dữ liệu của mình trên GitHub cũng như danh sách hơn 570 cuốn sách được xác định (có thể tìm thấy tại đây).

GPT-4 được phát hiện ghi nhớ các cuốn sách như Harry Potter, Nineteen Eighty-Four, The Lord of the Rings trilogy, The Hunger Games, Hitchhiker’s Guide to the Galaxy, Fahrenheit 451, A Game of Thrones, Dune…

Các học giả lưu ý rằng sách khoa học viễn tưởng và giả tưởng chiếm ưu thế trong danh sách này, điều mà họ cho là do sự phổ biến của những tựa sách đó trên web. Họ chỉ ra rằng việc ghi nhớ nội dung cuốn sách cụ thể có tác dụng truy vấn. Ví dụ, ChatGPT hay GPT-4 đưa ra dự đoán chính xác hơn khi trả lời các câu hỏi như "Đoạn văn này được xuất bản vào năm nào?" do đã ghi nhớ nội dung sách.

Một hậu quả của việc quen thuộc với khoa học viễn tưởng và giả tưởng là ChatGPT thể hiện ít kiến thức hơn về các tác phẩm ở các thể loại khác.

Các nhà nghiên cứu không tuyên bố rằng ChatGPT hoặc các mô hình mà chatbot AI này được xây dựng dựa trên đó chứa toàn bộ nội dung các cuốn sách được trích dẫn.

Các tác giả giải thích trong bài viết: "Dữ liệu đằng sau ChatGPT và GPT-4 về cơ bản là không thể biết được bên ngoài OpenAI. Tại bất kỳ thời điểm nào, chúng tôi không cố gắng truy cập dữ liệu huấn luyện thật sự đằng sau những mô hình này hoặc bất kỳ thành phần cốt lõi nào trong các hệ thống này. Chúng tôi chỉ sử dụng phương pháp suy diễn xác suất để đo lường mức độ quen thuộc của các mô hình AI với một tập hợp các sách nhất định. Tuy nhiên, chúng tôi không thể xác định chắc chắn liệu những đoạn văn được trích xuất từ các cuốn sách này có thật sự xuất hiện trong dữ liệu huấn luyện của các mô hình AI hay không”.

Để làm cho các câu hỏi như vậy có thể được trả lời, các học giả đề xuất sử dụng dữ liệu huấn luyện công khai để hành vi của các mô hình trở nên minh bạch hơn. Họ thực hiện dự án trên để hiểu những gì các mô hình này đã ghi nhớ, vì chúng có hành vi khác nhau khi phân tích các văn bản văn học từng đã được sử dụng để huấn luyện.

Các học giả tại Đại học California phát hiện ChatGPT và GPT-4 ghi nhớ nội dung hàng trăm cuốn sách có bản quyền - Ảnh: Internet

Margaret Mitchell, nhà nghiên cứu AI và khoa học đạo đức chính của hãng Hugging Face, nói với trang The Register: “Quản lý dữ liệu vẫn rất chưa hoàn thiện trong học máy. 'Không nên sử dụng dữ liệu huấn luyện để kiểm tra mô hình’ là một câu châm ngôn phổ biến trong học máy. Thế nhưng, tôi hy vọng công việc này sẽ giúp thúc đẩy tiến bộ trong việc quản lý dữ liệu có trách nhiệm hơn trong lĩnh vực đó".

Các nhà khoa học máy tính Đại học California ít tập trung hơn vào ý nghĩa bản quyền của việc ghi nhớ văn bản, chú ý nhiều hơn vào việc không thể hiểu được cách mà các mô hình máy học này hoạt động (OpenAI không tiết lộ dữ liệu được sử dụng để đào tạo chúng) và điều đó ảnh hưởng như thế nào đến độ chính xác của phân tích văn bản.

Tuy nhiên, các vấn đề liên quan đến bản quyền có thể không thể tránh được, đặc biệt là nếu các ứng dụng dựa trên các mô hình này tạo ra các đoạn văn bản tương đối giống hoặc giống hệt các đoạn văn bản được bảo vệ bản quyền mà chúng đã học.

Tyler Ochoa, giáo sư khoa Luật tại Đại học Santa Clara ở bang California (Mỹ), cho rằng sẽ có các vụ kiện chống lại các nhà sản xuất mô hình ngôn ngữ lớn tạo ra văn bản, bao gồm OpenAI, Google và những hãng khác.

Ông nói các vấn đề bản quyền với việc tạo văn bản AI hoàn toàn giống các vấn đề về tạo hình ảnh AI.

Thứ nhất: Việc sao chép lượng lớn văn bản hoặc hình ảnh để đào tạo mô hình có hợp lý không? Ông nói câu trả lời cho điều đó có lẽ là có.

Thứ hai: Nếu mô hình tạo đầu ra quá giống với đầu vào, cái mà bài viết của các học giả gọi là "ghi nhớ", thì đó có phải là hành vi vi phạm bản quyền không? Ông nói câu trả lời gần như chắc chắn là có.

Thứ ba: Nếu đầu ra của trình tạo văn bản AI không phải là bản sao của văn bản hiện có thì nó có được bảo vệ bản quyền không? Theo luật hiện hành, Tyler Ochoa cho biết câu trả lời là không, bởi luật bản quyền Mỹ yêu cầu sự sáng tạo của con người, dù một số quốc gia sẽ không đồng ý và sẽ bảo vệ các tác phẩm do AI tạo ra.

Tuy nhiên, ông nói thêm rằng việc lựa chọn, sắp xếp và chỉnh sửa kết quả đầu ra của mô hình AI sẽ khiến việc bảo vệ bản quyền trở nên hợp lý hơn.

Ông nói: “Cho đến nay, chúng tôi đã chứng kiến các vụ kiện về vấn đề một và ba. Các vụ kiện cho đến nay đều liên quan đến các mô hình tạo hình ảnh AI, nhưng các vụ kiện chống lại các mô hình tạo văn bản AI là không thể tránh khỏi. Chúng tôi chưa thấy bất kỳ vụ kiện nào liên quan đến vấn đề thứ hai. Bài viết từ các nhà nghiên cứu Đại học California chứng minh rằng sự giống nhau như vậy là có thể. Theo tôi, khi điều đó xảy ra, sẽ có các vụ kiện và gần như chắc chắn sẽ cấu thành hành vi vi phạm bản quyền".

"Việc chủ sở hữu mô hình hay người dùng mô hình phải chịu trách nhiệm pháp lý hoặc cả hai đều chịu, tùy thuộc vào mức độ mà người dùng truy vấn hoặc khuyến khích mô hình đạt được kết quả", Tyler Ochoa nói thêm.

OpenAI không trả lời khi được đề nghị bình luận về vấn đề trên.

Bài liên quan

OpenAI triển khai 'chế độ ẩn danh' cho ChatGPT trước nguy cơ bị cấm ở nhiều nước EU

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Tổng Bí thư Tô Lâm điện đàm với Tổng thống Mỹ Donald Trump

một giờ trước Sự kiện

Tối 4.4.2025, tại trụ sở Trung ương Đảng, Tổng Bí thư Tô Lâm đã có cuộc điện đàm với Tổng thống Mỹ Donald Trump.

Chính phủ đề nghị Mỹ tạm hoãn áp thuế 1-3 tháng để đàm phán

Chính phủ Việt Nam đề nghị phía Mỹ tạm hoãn áp thuế đối ứng đối với hàng hóa Việt Nam từ 1-3...
Chủ tịch Khamtay Siphandone: Phải giữ gìn quan hệ đặc biệt Lào - Việt mãi là quan hệ tốt nhất

“Nhiệm vụ quan trọng của tất cả cán bộ, nhân viên Đại sứ quán Lào ở Việt Nam là phải làm thế...
Bill Gates: ‘Chúng ta không sinh ra để làm việc, AI sẽ thay thế con người ở hầu hết công việc’

Bill Gates, nhà đồng sáng lập Microsoft, cho rằng con người không sinh ra để làm việc. Theo...

Đừng bỏ lỡ

Chatbot Microsoft Copilot cà khịa Bill Gates, Satya Nadella, Steve Ballmer trong cuộc phỏng vấn hiếm thấy

một giờ trước Nhịp đập khoa học

Nhân dịp kỷ niệm 50 năm thành lập Microsoft, Copilot đã phỏng vấn và "cà khịa" các lãnh đạo huyền thoại của công ty.
Hoàng Anh Gia Lai - Nutifood: Song kiếm hợp bích

1 giờ trước Thể thao

Đúng 11 năm, từ 2014 đến 2025, hai thương hiệu Hoàng Anh Gia Lai và Nutifood mới đứng cùng nhau xuất hiện trên các sân cỏ bóng đá Việt Nam.
Bộ Công an cảnh báo: Cẩn trọng với kêu gọi từ thiện online và 'việc nhẹ lương cao'

2 giờ trước Sự kiện

Bộ Công an khuyến cáo người dân nâng cao cảnh giác, kiểm chứng kỹ lưỡng thông tin trước khi quyết định đóng góp từ thiện, tránh bị kẻ xấu lừa đảo.
4 bệnh viện đầu ngành của TP.HCM hỗ trợ Bệnh viện Hóc Môn nâng cao chất lượng

2 giờ trước Thông tin Y học

Cả 4 bệnh viện đầu ngành của TP.HCM vừa chính thức ký cam kết hỗ trợ Bệnh viện đa khoa khu vực Hóc Môn trở thành bệnh viện vệ tinh chất lượng cao.
Máy xúc điện hoạt động 10 giờ/1 lần sạc

2 giờ trước Khoa học - công nghệ

Công ty Hyundai Construction Equipment Europe dự kiến ra mắt máy xúc chạy điện đầu tiên của mình tại thành phố Munich (Đức) vào tuần sau.

Mới nhất

Tổng Bí thư Tô Lâm điện đàm với Tổng thống Mỹ Donald Trump

một giờ trước Sự kiện

Tối 4.4.2025, tại trụ sở Trung ương Đảng, Tổng Bí thư Tô Lâm đã có cuộc điện đàm với Tổng thống Mỹ Donald Trump.
Chủ trương của Việt Nam là đa dạng hóa thị trường, 'trứng không bao giờ để chung một giỏ'

4 giờ trước Kinh tế - đầu tư - dự án

Việt Nam đang tổ chức đoàn đàm phán sang Mỹ vào tuần tới, sẵn sàng các nội dung để trao đổi về việc áp thuế 46%.
Khởi tố Chủ tịch Công ty Cây xanh Công Minh

4 giờ trước Sự kiện

Tại họp báo của Bộ Công an, lãnh đạo A09 cho biết bị can Nguyễn Công Minh đã bỏ trốn, A09 đang làm thủ tục để truy nã quốc tế.
Bill Gates: ‘Chúng ta không sinh ra để làm việc, AI sẽ thay thế con người ở hầu hết công việc’

4 giờ trước Nhịp đập khoa học

Bill Gates, nhà đồng sáng lập Microsoft, cho rằng con người không sinh ra để làm việc. Theo ông, công việc chỉ là hệ quả của sự thiếu hụt lao động trong lịch sử.
Phó thủ tướng Trần Hồng Hà: 5 năm nữa chỉ số ô nhiễm không khí phải ở mức an toàn

4 giờ trước Bảo vệ môi trường

Phó thủ tướng Trần Hồng Hà yêu cầu UBND TP.Hà Nội và TP.HCM khẩn trương khắc phục tình trạng ô nhiễm để trong 5 năm tới đạt mục tiêu chỉ số ô nhiễm không khí (AQI) ở ngưỡng an toàn với sức khỏe con người.

Xem thêm

Cơ quan chủ quản: Hội Thông tin Khoa học và Công nghệ Việt Nam.

ĐC: 24 Lý Thường Kiệt, Hàng Bài, Hoàn Kiếm, Hà Nội.

ĐT: 024.38256203

Hotline nội dung : 0934999945

Tổng biên tập: Hoàng Đại Thanh

Tổng Thư ký Tòa soạn: Nguyễn Đình Mười

Giấy phép số 77/GP-BTTTT do Bộ Thông tin và Truyền thông cấp ngày 26 tháng 2 năm 2020.

Tòa nhà SIMCO Sông Đà, Tiểu KĐT mới Vạn Phúc, Phường Vạn Phúc, Quận Hà Đông, TP. Hà Nội

ĐT: 0984708866

TPHCM: 345/134 Trần Hưng Đạo, phường Cầu Kho, Quận 1

ĐT:

Email: toasoan

Hotline quảng cáo: 096 2445664

Email quảng cáo: sales

Báo giá quảng cáo:

Công ty Cổ phần Truyền thông Một Thế Giới

OpenAI có thể bị kiện về bản quyền vì ChatGPT ghi nhớ nội dung hàng trăm cuốn sách

OpenAI triển khai 'chế độ ẩn danh' cho ChatGPT trước nguy cơ bị cấm ở nhiều nước EU

ChatGPT

bản quyền

cuốn sách

OpenAI

Gpt-4

ChatGPT được hoạt động lại ở Ý, OpenAI giải quyết các yêu cầu của cơ quan quản lý

CEO Genies chi 2.400 USD/tháng mua tài khoản ChatGPT Plus cho 120 nhân viên để tăng năng suất

Samsung cấm nhân viên dùng generative AI sau khi dữ liệu nhạy cảm rò rỉ trên ChatGPT

ChatGPT được hoạt động lại ở Ý, OpenAI giải quyết các yêu cầu của cơ quan quản lý

CEO Genies chi 2.400 USD/tháng mua tài khoản ChatGPT Plus cho 120 nhân viên để tăng năng suất

Samsung cấm nhân viên dùng generative AI sau khi dữ liệu nhạy cảm rò rỉ trên ChatGPT

'Bố già của AI' rời Google, hối hận vì góp phần tạo ra công nghệ có thể gây hại cho loài người

Nhà đầu tư deep tech đoán 3 startup AI sẽ trở thành công ty trị giá hơn 100 tỉ USD

Kỹ sư bị sa thải tiết lộ bí mật về chatbot AI của Google

Elon Musk lường trước tên lửa khổng lồ Starship sẽ nổ tung sau khi phóng

Bộ trưởng Nguyễn Mạnh Hùng: Kinh tế số phải trở thành động lực chính cho tăng trưởng nhanh và bền vững

'Elon Musk chặn OpenAI truy cập dữ liệu Twitter vì trả 2 triệu USD/năm là không đủ'

Tổng Bí thư Tô Lâm điện đàm với Tổng thống Mỹ Donald Trump

Chính phủ đề nghị Mỹ tạm hoãn áp thuế 1-3 tháng để đàm phán

Chủ tịch Khamtay Siphandone: Phải giữ gìn quan hệ đặc biệt Lào - Việt mãi là quan hệ tốt nhất

Bill Gates: ‘Chúng ta không sinh ra để làm việc, AI sẽ thay thế con người ở hầu hết công việc’

Chatbot Microsoft Copilot cà khịa Bill Gates, Satya Nadella, Steve Ballmer trong cuộc phỏng vấn hiếm thấy

Hoàng Anh Gia Lai - Nutifood: Song kiếm hợp bích

Bộ Công an cảnh báo: Cẩn trọng với kêu gọi từ thiện online và 'việc nhẹ lương cao'

4 bệnh viện đầu ngành của TP.HCM hỗ trợ Bệnh viện Hóc Môn nâng cao chất lượng

Máy xúc điện hoạt động 10 giờ/1 lần sạc

Tổng Bí thư Tô Lâm điện đàm với Tổng thống Mỹ Donald Trump

Chủ trương của Việt Nam là đa dạng hóa thị trường, 'trứng không bao giờ để chung một giỏ'

Khởi tố Chủ tịch Công ty Cây xanh Công Minh

Bill Gates: ‘Chúng ta không sinh ra để làm việc, AI sẽ thay thế con người ở hầu hết công việc’

Phó thủ tướng Trần Hồng Hà: 5 năm nữa chỉ số ô nhiễm không khí phải ở mức an toàn

Zhipu ra mắt tác tử AI miễn phí, nói GLM-Z1-Air có hiệu suất ngang DeepSeek-R1 nhưng chạy nhanh hơn 8 lần

Apple và SpaceX của Elon Musk đối đầu vì kế hoạch mở rộng mạng vệ tinh

Giám đốc công nghệ Meta đánh giá vị thế của Google, Microsoft, Amazon trong cuộc đua AI

Apple chuẩn bị bước tiến lớn nhất vào lĩnh vực sức khỏe với bác sĩ AI, muốn thay đổi ngành y tế

OpenAI, Google, Anthropic với các động thái AI mới gây bất ngờ