Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

OpenAI bị kiện vi phạm quyền riêng tư vì thu thập bí mật 300 tỉ từ trên internet huấn luyện AI

Sơn Vân | 29/06/2023, 13:35

Hãng luật Clarkson đang tiến hành vụ kiện tập thể chống lại OpenAI, cáo buộc công ty này vi phạm nghiêm trọng bản quyền và quyền riêng tư của vô số người khi sử dụng dữ liệu thu thập được từ internet để huấn luyện công nghệ của mình.

Theo vụ kiện dài 157 trang từ Clarkson (công ty luật ở bang California, Mỹ), OpenAI đã vi phạm các luật về quyền riêng tư bằng cách thu thập bí mật 300 tỉ từ trên internet, bao gồm "sách, bài viết, trang web, bài đăng, thông tin cá nhân mà không có sự cho phép", để huấn luyện mô hình ngôn ngữ lớn.

Vụ kiện tìm cách kiểm tra lý thuyết pháp lý mới rằng OpenAI đã vi phạm quyền của hàng triệu người dùng internet khi sử dụng các bình luận trên mạng xã hội, bài đăng trên blog, bài viết trên Wikipedia và công thức nấu ăn gia đình của họ... Clarkson trước đây đã thực hiện một số vụ kiện tập thể quy mô lớn về các vấn đề từ vi phạm dữ liệu đến quảng cáo sai sự thật.

Clarkson muốn đại diện cho “những người thực sự có thông tin bị đánh cắp và sử dụng sai mục đích thương mại để tạo ra công nghệ rất mạnh mẽ này”, theo Ryan Clarkson - thành viên quản lý của công ty luật.

Clarkson đệ trình vụ kiện lên tòa án liên bang ở quận phía bắc California hôm 28.6. Người phát ngôn OpenAI, công ty khởi nghiệp tạo ra ChatGPT, không trả lời khi được đề nghị bình luận.

Vụ kiện đi vào trọng tâm của câu hỏi lớn chưa được giải quyết liên quan đến sự gia tăng các công cụ generative AI như chatbot và trình tạo hình ảnh. Generative AI là một loại trí tuệ nhân tạo được lập trình để tự động tạo ra nội dung mới, như văn bản, hình ảnh, âm thanh và video. Nó khác với các hệ thống AI khác như máy học sâu hoặc học máy trong việc dự đoán kết quả từ dữ liệu đã có sẵn. Thay vì dựa trên dữ liệu huấn luyện, generative AI có khả năng tự tạo ra dữ liệu mới và phong phú hơn.

Công nghệ này hoạt động bằng cách thu thập hàng tỉ từ trên internet và học cách xây dựng các suy luận giữa chúng. Sau khi hấp thụ đủ dữ liệu, các mô hình ngôn ngữ lớn có thể dự đoán những gì cần trả lời để đáp lại truy vấn từ người dùng, giúp chúng có khả năng làm thơ, trò chuyện phức tạp và vượt qua các kỳ thi chuyên nghiệp. Thế nhưng, những người viết ra hàng tỉ từ đó chưa bao giờ đồng ý để một công ty như OpenAI sử dụng chúng vì lợi nhuận riêng.

Clarkson hy vọng tòa án có thể đưa ra quyết định để thiết lập một số biện pháp bảo vệ về cách các thuật toán AI được huấn luyện và cách người dùng được bồi thường khi dữ liệu của họ được sử dụng. Clarkson đã có một nhóm nguyên đơn và đang tích cực tìm kiếm thêm.

Clarkson cáo buộc OpenAI thu thập bí mật 300 tỉ từ trên internet để huấn luyện mô hình ngôn ngữ lớn - Ảnh: Internet

Tính hợp pháp của việc sử dụng dữ liệu thu thập từ internet công cộng để huấn luyện các công cụ có thể mang lại lợi nhuận cao cho nhà phát triển chúng vẫn chưa rõ ràng. Một số nhà phát triển AI đã lập luận rằng việc sử dụng dữ liệu từ internet nên được coi là fair use (sử dụng hợp lý). Nếu tác phẩm bản quyền được biến đổi, sáng tạo hoặc sử dụng một cách không thể nhận ra so với bản gốc thì việc đó có thể được xem là hợp lý trong phạm vi fair use.

Theo Katherine Gardner, luật sư sở hữu trí tuệ tại Gunderson Dettmer - hãng chủ yếu đại diện cho các công ty khởi nghiệp công nghệ, câu hỏi về sử dụng fair use là “vấn đề mở mà chúng ta sẽ thấy tại tòa án những tháng và năm tới”.

Những nghệ sĩ và chuyên gia sáng tạo khác chứng minh được tác phẩm bản quyền được sử dụng để huấn luyện các mô hình AI, có thể lập luận chống lại việc các công ty dùntg chúng. Thế nhưng, những người chỉ đơn giản đăng bài hoặc bình luận trên một trang web khó có thể đòi bồi thường, Katherine Gardner nói.

Katherine Gardner lý giải: “Khi đưa nội dung lên một trang truyền thông xã hội hoặc bất kỳ trang nào, bạn đang cấp phép rất rộng cho trang đó có thể sử dụng nội dung của mình theo bất cứ cách nào. Người dùng cuối bình thường sẽ rất khó tuyên bố rằng có quyền nhận bất kỳ khoản thanh toán hoặc bồi thường nào cho việc sử dụng dữ liệu của họ như một phần trong quá trình huấn luyện AI”.

Vụ kiện của Clarkson cũng bổ sung vào danh sách thách thức pháp lý ngày càng tăng với các công ty đang xây dựng và hy vọng thu được lợi nhuận từ AI.

Một vụ kiện tập thể đã được đệ trình vào tháng 11.2022 chống lại OpenAI và Microsoft về cách hai công ty này sử dụng mã máy tính trong nền tảng mã hóa trực tuyến GitHub (do Microsoft sở hữu) để đào tạo các công cụ AI.

Vào tháng 2, Getty Images kiện Stability AI (công ty khởi nghiệp AI nhỏ hơn OpenAI), cáo buộc hãng này sử dụng trái phép các bức ảnh của mình để huấn luyện trình tạo hình ảnh.

Trong tháng này, OpenAI đã bị một người dẫn chương trình phát thanh ở Georgia kiện vì tội phỉ báng. Người này cho rằng ChatGPT đã tạo ra câu trả lời cáo buộc sai trái rằng anh ta gian lận.

OpenAI không phải là công ty duy nhất sử dụng kho dữ liệu thu thập từ internet để huấn luyện các mô hình AI của họ. Google, Facebook, Microsoft và ngày càng nhiều công ty khác cũng đang làm điều tương tự. Thế nhưng, Clarkson quyết định kiện OpenAI vì vai trò của công ty này trong việc thúc đẩy các đối thủ lớn hơn phát triển AI thông qua ChatGPT rất phổ biến.

Ông nói: “Họ là công ty đã châm ngòi cho cuộc chạy đua AI này. Họ là mục tiêu đầu tiên tự nhiên".

OpenAI không chia sẻ loại dữ liệu nào được đưa vào GPT-4, mô hình ngôn ngữ lớn mới nhất của công ty, nhưng các phiên bản trước chứng minh đã nhận dữ liệu từ Wikipedia, bài viết tin tức và nhận xét trên mạng xã hội. Chatbot từ Google (Bard) và một số công ty khác cũng sử dụng các bộ dữ liệu tương tự.

Các cơ quan quản lý đang thảo luận về việc ban hành luật mới yêu cầu các công ty minh bạch hơn về dữ liệu nào được đưa vào AI của họ. Katherine Gardner cho biết cũng có khả năng vụ kiện khiến thẩm phán buộc công ty như OpenAI cung cấp thông tin về loại dữ liệu mà họ đã sử dụng.

Một số hãng đã cố gắng ngăn chặn các công ty AI lấy dữ liệu của họ. Vào tháng 4, nhà phân phối âm nhạc Universal Music Group yêu cầu Apple và Spotify chặn các công cụ thu thập dữ liệu, theo trang Financial Times.

Trang mạng xã hội Reddit đang ngừng cung cấp truy cập vào luồng dữ liệu của mình, trích dẫn việc các hãng công nghệ lớn trong nhiều năm đã thu thập các bình luận và cuộc trò chuyện trên trang web của mình. Elon Musk, chủ sở hữu Twitter, đã đe dọa kiện Microsoft vì sử dụng dữ liệu Twitter để huấn luyện AI. Tỷ phú giàu nhất thế giới đang xây dựng công ty AI riêng của mình.

Vụ kiện tập thể mới chống lại OpenAI tiến xa hơn trong các cáo buộc, lập luận rằng công ty này không đủ minh bạch với những người đăng ký sử dụng các công cụ của mình. Cụ thể là OpenAI không tiết lộ dữ liệu cung cấp cho mô hình ngôn ngữ lớn có thể được sử dụng để huấn luyện các sản phẩm mới mà công ty tạo ra lợi nhuận từ đó, chẳng hạn các plugin.

Clarkson cũng cáo buộc OpenAI không làm đủ để đảm rằng bảo trẻ em dưới 13 tuổi không sử dụng các công cụ AI của mình, điều mà các hãng công nghệ khác, gồm cả Facebook và YouTube, bị cáo buộc trong nhiều năm.

Bài liên quan

“OpenAI không thể từ bỏ thị trường gần 500 triệu người và nền kinh tế trị giá 15.000 tỉ euro”

Đọc thêm Thế giới số

Nổi bật Một thế giới

Tổng Bí thư Tô Lâm điện đàm với Tổng thống Mỹ Donald Trump

một giờ trước Sự kiện

Tối 4.4.2025, tại trụ sở Trung ương Đảng, Tổng Bí thư Tô Lâm đã có cuộc điện đàm với Tổng thống Mỹ Donald Trump.

Chính phủ đề nghị Mỹ tạm hoãn áp thuế 1-3 tháng để đàm phán

Chính phủ Việt Nam đề nghị phía Mỹ tạm hoãn áp thuế đối ứng đối với hàng hóa Việt Nam từ 1-3...
Chủ tịch Khamtay Siphandone: Phải giữ gìn quan hệ đặc biệt Lào - Việt mãi là quan hệ tốt nhất

“Nhiệm vụ quan trọng của tất cả cán bộ, nhân viên Đại sứ quán Lào ở Việt Nam là phải làm thế...
Bill Gates: ‘Chúng ta không sinh ra để làm việc, AI sẽ thay thế con người ở hầu hết công việc’

Bill Gates, nhà đồng sáng lập Microsoft, cho rằng con người không sinh ra để làm việc. Theo...

Đừng bỏ lỡ

Chatbot Microsoft Copilot cà khịa Bill Gates, Satya Nadella, Steve Ballmer trong cuộc phỏng vấn hiếm thấy

một giờ trước Nhịp đập khoa học

Nhân dịp kỷ niệm 50 năm thành lập Microsoft, Copilot đã phỏng vấn và "cà khịa" các lãnh đạo huyền thoại của công ty.
Hoàng Anh Gia Lai - Nutifood: Song kiếm hợp bích

1 giờ trước Thể thao

Đúng 11 năm, từ 2014 đến 2025, hai thương hiệu Hoàng Anh Gia Lai và Nutifood mới đứng cùng nhau xuất hiện trên các sân cỏ bóng đá Việt Nam.
Bộ Công an cảnh báo: Cẩn trọng với kêu gọi từ thiện online và 'việc nhẹ lương cao'

2 giờ trước Sự kiện

Bộ Công an khuyến cáo người dân nâng cao cảnh giác, kiểm chứng kỹ lưỡng thông tin trước khi quyết định đóng góp từ thiện, tránh bị kẻ xấu lừa đảo.
4 bệnh viện đầu ngành của TP.HCM hỗ trợ Bệnh viện Hóc Môn nâng cao chất lượng

2 giờ trước Thông tin Y học

Cả 4 bệnh viện đầu ngành của TP.HCM vừa chính thức ký cam kết hỗ trợ Bệnh viện đa khoa khu vực Hóc Môn trở thành bệnh viện vệ tinh chất lượng cao.
Máy xúc điện hoạt động 10 giờ/1 lần sạc

2 giờ trước Khoa học - công nghệ

Công ty Hyundai Construction Equipment Europe dự kiến ra mắt máy xúc chạy điện đầu tiên của mình tại thành phố Munich (Đức) vào tuần sau.

Mới nhất

Tổng Bí thư Tô Lâm điện đàm với Tổng thống Mỹ Donald Trump

một giờ trước Sự kiện

Tối 4.4.2025, tại trụ sở Trung ương Đảng, Tổng Bí thư Tô Lâm đã có cuộc điện đàm với Tổng thống Mỹ Donald Trump.
Chủ trương của Việt Nam là đa dạng hóa thị trường, 'trứng không bao giờ để chung một giỏ'

4 giờ trước Kinh tế - đầu tư - dự án

Việt Nam đang tổ chức đoàn đàm phán sang Mỹ vào tuần tới, sẵn sàng các nội dung để trao đổi về việc áp thuế 46%.
Khởi tố Chủ tịch Công ty Cây xanh Công Minh

4 giờ trước Sự kiện

Tại họp báo của Bộ Công an, lãnh đạo A09 cho biết bị can Nguyễn Công Minh đã bỏ trốn, A09 đang làm thủ tục để truy nã quốc tế.
Bill Gates: ‘Chúng ta không sinh ra để làm việc, AI sẽ thay thế con người ở hầu hết công việc’

4 giờ trước Nhịp đập khoa học

Bill Gates, nhà đồng sáng lập Microsoft, cho rằng con người không sinh ra để làm việc. Theo ông, công việc chỉ là hệ quả của sự thiếu hụt lao động trong lịch sử.
Phó thủ tướng Trần Hồng Hà: 5 năm nữa chỉ số ô nhiễm không khí phải ở mức an toàn

4 giờ trước Bảo vệ môi trường

Phó thủ tướng Trần Hồng Hà yêu cầu UBND TP.Hà Nội và TP.HCM khẩn trương khắc phục tình trạng ô nhiễm để trong 5 năm tới đạt mục tiêu chỉ số ô nhiễm không khí (AQI) ở ngưỡng an toàn với sức khỏe con người.