Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

OpenAI lâm nguy vì gần như không thể tuân thủ các quy tắc bảo vệ dữ liệu của EU

Sơn Vân | 20/04/2023, 14:50

OpenAI chỉ còn hơn một tuần để tuân thủ luật bảo vệ dữ liệu của Liên minh châu Âu (EU) sau lệnh cấm tạm thời ở Ý và hàng loạt cuộc điều tra từ các quốc gia khác. Nếu không thành công, OpenAI có thể bị phạt nặng, buộc phải xóa dữ liệu hoặc thậm chí bị cấm.

Thế nhưng, các chuyên gia nói với trang MIT Technology Review rằng OpenAI gần như không thể tuân thủ các quy tắc này, do dữ liệu được sử dụng để huấn luyện các mô hình AI thu thập từ nội dung trên internet.

Trong quá trình phát triển AI, mô hình phổ biến nhất là càng nhiều dữ liệu huấn luyện càng tốt. Mô hình GPT-2 của OpenAI có một bộ dữ liệu bao gồm 40 GB văn bản. GPT-3, mô hình ngôn ngữ lớn để ChatGPT hoạt động, được huấn luyện trên 570 GB dữ liệu. OpenAI đã không chia sẻ kích thước bộ dữ liệu cho mô hình ngôn ngữ lớn mới nhất là GPT-4.

Tuy nhiên, sự khát khao của OpenAI về các mô hình lớn hơn khiến công ty trả giá. Vài tuần qua, một số cơ quan bảo vệ dữ liệu phương Tây đã bắt đầu điều tra cách OpenAI thu thập và xử lý dữ liệu để cung cấp sức mạnh cho ChatGPT. Họ tin rằng OpenAI thu thập dữ liệu cá nhân của nhiều người, chẳng hạn tên hoặc địa chỉ email, rồi sử dụng mà không có sự đồng ý của họ.

Ý đã tạm thời cấm ChatGPT như một biện pháp phòng ngừa và các cơ quan quản lý dữ liệu của Pháp, Đức, Iceland, Canada cũng đang điều tra cách OpenAI thu thập và sử dụng dữ liệu. Ủy ban bảo vệ dữ liệu châu Âu cũng đang thành lập một lực lượng đặc nhiệm trên toàn EU để điều phối các cuộc điều tra và thực thi xung quanh ChatGPT.

Ý đã cho OpenAI thời hạn đến ngày 30.4 để tuân thủ luật. Hôm 12.4, Cơ quan bảo vệ dữ liệu của Ý (Garante) đã công bố danh sách các yêu cầu mà ChatGPT phải đáp ứng để được hoạt động tại nước này.

Garante yêu cầu OpenAI phải thông báo với người dùng về “phương pháp và logic” đứng sau việc xử lý dữ liệu của ChatGPT. Ngoài ra, Garante cũng yêu cầu OpenAI cung cấp công cụ để cho phép mọi người, dù họ có dùng ChatGPT hay không, được yêu cầu hiệu chỉnh dữ liệu cá nhân không chính xác hoặc xóa dữ liệu.

Theo Garante, OpenAI cũng nên cho phép những ai không phải người dùng dễ dàng phản đối xử lý dữ liệu cá nhân của họ để đào tạo thuật toán. Công ty có trụ sở ở thành phố San Francisco (Mỹ) cũng cần giới thiệu hệ thống xác thực độ tuổi trước cuối tháng 9, loại trừ khả năng truy cập của người dưới 13 tuổi.

Garante sẽ tiếp tục điều tra các vi phạm quy định bảo vệ dữ liệu nếu có, bảo lưu quyền áp đặt bất kỳ biện pháp nào cần thiết vào giai đoạn cuối cuộc điều tra.

Nếu OpenAI không thể thuyết phục các nhà chức trách rằng các hoạt động sử dụng dữ liệu của họ là hợp pháp, ChatGPT có thể bị cấm ở một số quốc gia cụ thể hoặc thậm chí là toàn EU.

Alexis Leautier, chuyên gia AI tại Cơ quan bảo vệ dữ liệu của Pháp (CNIL), nói OpenAI phải đối mặt với những khoản phạt tiền nặng, thậm chí có thể bị buộc phải xóa các mô hình và dữ liệu được sử dụng để huấn luyện chúng.

Theo Lilian Edwards, giáo sư luật internet tại Đại học Newcastle (Anh), các vi phạm của OpenAI rõ ràng đến mức có khả năng vụ việc này sẽ kết thúc tại Tòa án Công lý của EU (tòa án cao nhất EU). Có thể mất nhiều năm trước khi chúng ta thấy phần trả lời cho các câu hỏi do Garante đặt ra.

openai-lam-nguy-vi-gan-nhu-khong-the-tuan-thu-cac-quy-tac-bao-ve-du-lieu-cua-eu.jpg — OpenAI có thể bị phạt nặng, buộc phải xóa dữ liệu hoặc thậm chí bị cấm vì gần như không thể tuân thủ các quy tắc bảo vệ dữ liệu của EU - Ảnh: Internet

Chế độ bảo vệ dữ liệu nghiêm ngặt nhất thế giới

Quy định bảo vệ dữ liệu chung của EU (GDPR) là chế độ bảo vệ dữ liệu nghiêm ngặt nhất thế giới và đã được sao chép rộng rãi. Các cơ quan quản lý ở khắp nơi từ Brazil đến bang California (Mỹ) sẽ chú ý đến những gì xảy ra tiếp theo và có thể thay đổi cách các công ty AI tiến hành thu thập dữ liệu.

Ngoài việc minh bạch hơn về các hoạt động dữ liệu của mình, OpenAI sẽ phải chỉ ra rằng đang sử dụng một trong hai cách hợp pháp có thể để thu thập dữ liệu huấn luyện cho các thuật toán của mình: Sự đồng ý hoặc “lợi ích hợp pháp”.

Dường như OpenAI sẽ không thể lập luận rằng đã nhận được sự đồng ý từ mọi người khi công ty thu thập dữ liệu của họ. Điều đó dẫn đến OpenAI sẽ lập luận rằng OpenAI có “lợi ích hợp pháp” khi làm như vậy. Lilian Edwards nói việc này có thể sẽ đòi hỏi OpenAI đưa ra một trường hợp thuyết phục trước các cơ quan quản lý về tầm quan trọng thực sự của ChatGPT để biện minh cho việc thu thập dữ liệu mà không có sự đồng ý.

OpenAI tin rằng họ tuân thủ luật về quyền riêng tư. Trong một bài đăng trên blog, công ty Mỹ nói rằng sẽ xóa thông tin cá nhân khỏi dữ liệu huấn luyện theo yêu cầu “nếu khả thi”.

OpenAI cho biết các mô hình của nó được huấn luyện dựa trên nội dung có sẵn công khai, nội dung được cấp phép và nội dung do người đánh giá tạo ra. Song điều đó là không đủ với Quy định bảo vệ dữ liệu chung của EU.

Lilian Edwards nói: “Mỹ có một học thuyết rằng khi mọi thứ ở nơi công cộng thì không còn là riêng tư nữa. Đó hoàn toàn không phải là cách thức hoạt động của luật châu Âu. GDPR trao cho mọi người quyền với tư cách là 'chủ thể dữ liệu'. Chẳng hạn như quyền được thông báo về cách dữ liệu của họ được thu thập và sử dụng cũng như quyền xóa dữ liệu của họ khỏi hệ thống, ngay cả khi chúng được công khai ngay từ đầu”.

Mò kim đáy bể

OpenAI còn gặp một vấn đề khác. Chính quyền Ý cho biết OpenAI không minh bạch về cách công ty thu thập dữ liệu người dùng trong giai đoạn sau huấn luyện, chẳng hạn như trong nhật ký trò chuyện về các tương tác của họ với ChatGPT.

Alexis Leautier nói: “Điều thực sự đáng lo ngại là cách ChatGPT sử dụng dữ liệu mà bạn cung cấp cho nó trong cuộc trò chuyện. Nhiều người có xu hướng chia sẻ thông tin thân mật, riêng tư với chatbot, nói với nó về những thứ như trạng thái tinh thần, sức khỏe hoặc ý kiến cá nhân của họ”.

Ông cho rằng sẽ có vấn đề nếu ChatGPT lấy lại dữ liệu nhạy cảm này chia sẻ cho người khác. Theo luật châu Âu, người dùng cần có thể xóa dữ liệu nhật ký trò chuyện của họ.

Theo Margaret Mitchell, nhà nghiên cứu AI và khoa học đạo đức tại công ty khởi nghiệp Hugging Face, trước đây là đồng lãnh đạo bộ phận đạo đức AI của Google, OpenAI sẽ thấy gần như không thể xác định dữ liệu của các cá nhân và xóa nó khỏi các mô hình của mình.

OpenAI có thể tự cứu mình khỏi cơn đau đầu khổng lồ bằng cách xây dựng hệ thống lưu giữ hồ sơ dữ liệu mạnh mẽ ngay từ đầu, Margaret Mitchell nói. Thay vào đó, ngành công nghiệp AI thường xây dựng các bộ dữ liệu cho các mô hình AI bằng cách quét web một cách bừa bãi và sau đó thuê bên ngoài thực hiện công việc loại bỏ các điểm trùng lặp hoặc dữ liệu không liên quan, lọc những thứ không mong muốn và sửa lỗi chính tả.

Các phương pháp này và kích thước tập dữ liệu lớn đồng nghĩa các hãng công nghệ có xu hướng hiểu biết rất hạn chế về những gì đã đào tạo mô hình của họ.

Theo Nithya Sambasivan, cựu nhà khoa học nghiên cứu tại Google và là doanh nhân nghiên cứu các hoạt động thực hành dữ liệu của AI, các hãng công nghệ không ghi lại cách họ thu thập hoặc chú thích dữ liệu huấn luyện AI và có xu hướng không biết những gì trong bộ dữ liệu.

Việc tìm kiếm dữ liệu tiếng Ý trong bộ dữ liệu huấn luyện rộng lớn của ChatGPT sẽ như mò kim đáy bể. Ngay cả khi OpenAI xóa dữ liệu của người dùng, vẫn chưa rõ liệu việc đó có phải xóa vĩnh viễn hay không. Các nghiên cứu chỉ ra rằng các bộ dữ liệu tồn tại trên internet rất lâu sau khi bị xóa, bởi các bản sao của bản gốc thường vẫn tồn tại trực tuyến.

Margaret Mitchell nói: “Công nghệ xung quanh việc thu thập dữ liệu còn rất non trẻ”. Đó là bởi rất nhiều công việc đã được thực hiện để phát triển các kỹ thuật tiên tiến cho các mô hình AI, còn các phương pháp thu thập dữ liệu hầu như không thay đổi trong thập kỷ qua.

Trong cộng đồng AI, công việc trên các mô hình AI được chú trọng quá mức mà không quan tâm đến thứ khác, theo Margaret Mitchell. Bà nói: “Về mặt văn hóa, có một vấn đề trong học máy khi làm việc trên dữ liệu được coi là việc ngớ ngẩn, còn làm việc trên các mô hình được coi là công việc thực sự”.

Bài liên quan

Hãng tiếp thị hàng đầu Trung Quốc dùng AI giống ChatGPT thay nhà thiết kế và viết quảng cáo bên ngoài

BlueFocus cho biết sẽ chấm dứt vô thời hạn việc thuê các nhà thiết kế và viết quảng cáo bên thứ ba để sử dụng các công cụ trí tuệ nhân tạo (AI) giống ChatGPT, làm tăng thêm mối lo ngại về tác động của công nghệ này với việc làm.

Đọc tiếp

Meta có tạo ra nền tảng AI để cạnh tranh với ChatGPT?

ChatGPT hiểu được phát ngôn của Fed và biến động giá cổ phiếu từ tiêu đề bài viết

Cảnh sát bắt kỹ sư AI được Elon Musk thuê để tạo chatbot thách thức ChatGPT

(0) Bình luận

Xếp theo:

Đọc thêm Thế giới số

Nổi bật Một thế giới

Vươn mình trong hội nhập quốc tế

6 giờ trước Sự kiện

Tạp chí Một Thế Giới trân trọng giới thiệu nguyên văn bài "Vươn mình trong hội nhập quốc tế" của Tổng Bí thư Ban Chấp hành Trung ương Đảng Cộng sản Việt Nam Tô Lâm.

Mỹ công bố áp thuế đối ứng, Thủ tướng yêu cầu thành lập ngay tổ phản ứng nhanh

Trước việc Mỹ công bố áp thuế hàng hoá 46% với Việt Nam, Thủ tướng yêu cầu thành lập ngay tổ...
Video robot Trung Quốc nhào lộn như người thật sau khi nâng cấp AI

G1 - mẫu robot hình người đến từ công ty Unitree (Trung Quốc) - đã thực hiện thành công cú...
Mức thuế 46% từ Mỹ là cú sốc lớn, nhưng Việt Nam có thể tận dụng cơ hội trong thách thức

VPBankS cho rằng mức thuế 46% từ Mỹ sẽ là cú sốc lớn, nhưng mức độ ảnh hưởng sẽ phụ thuộc vào...

Đừng bỏ lỡ

Ông Trump đóng lỗ hổng thương mại de minimis từng tạo lợi thế cho các hãng thương mại điện tử Trung Quốc

8 phút trước Thế giới số

Tổng thống Mỹ Donald Trump hôm 2.4 đã ký một sắc lệnh hành pháp để đóng lỗ hổng thương mại de minimis, có hiệu lực từ ngày 2.5.
Phúc thẩm vụ án Vạn Thịnh Phát (giai đoạn 2): Luật sư đề nghị SCB cung cấp số liệu

17 phút trước Theo dòng thời sự

Bào chữa cho bị cáo Trương Mỹ Lan, luật sư đề nghị xem xét toàn diện về nguyên nhân, bối cảnh vụ án; đồng thời kiến nghị Viện kiểm sát tiếp tục yêu cầu SCB cung cấp số liệu.
Mảng chip lao đao, Samsung tìm 'phao cứu sinh' từ Trung Quốc

24 phút trước Khoa học - công nghệ

Khi mảng kinh doanh bán dẫn đang lao đao, Samsung - tập đoàn điện tử hàng đầu Hàn Quốc - đang dần chuyển hướng sang Trung Quốc để tìm kiếm động lực tăng trưởng mới, theo Financial Times.
C10 - Bộ Công an tổ chức hoạt động tình nghĩa tại Kiên Giang

37 phút trước Nhịp cầu nhân ái

Sáng 3.4, tại Khu di tích lịch sử quốc gia Ban An ninh Khu 9 và Trại giam Kênh 7 (tỉnh Kiên Giang), Cục Cảnh sát quản lý trại giam, cơ sở giáo dục bắt buộc, trường giáo dưỡng (C10) - Bộ Công an đã tổ chức sinh hoạt chính trị và hoạt động xã hội tình nghĩa năm 2025.
Đồng Nai: Khởi công xóa bỏ nhà dột nát tại huyện Vĩnh Cửu

1 giờ trước Nhịp cầu nhân ái

Thực hiện chủ trương xóa nhà tạm, nhà dột nát, sáng 3.4, tại huyện Vĩnh Cửu, UBND tỉnh Đồng Nai tổ chức lễ khởi công xây dựng những căn nhà mới cho người nghèo để xóa nhà tạm, nhà dột nát trên địa bàn.

Mới nhất

Video robot Trung Quốc nhào lộn như người thật sau khi nâng cấp AI

một giờ trước Khoa học - công nghệ

G1 - mẫu robot hình người đến từ công ty Unitree (Trung Quốc) - đã thực hiện thành công cú lộn ngang đầy ấn tượng, đánh dấu bước tiến quan trọng trong khả năng vận động linh hoạt và kiểm soát cân bằng của các hệ thống máy học.
Giá vàng thế giới lập đỉnh sau khi ông Trump công bố thuế đối ứng

2 giờ trước Chuyển động

Đài CNBC TV18 đưa tin giá vàng ngày 3.4 tăng vọt lên mức kỷ lục mới do giới đầu tư đổ xô mua tài sản trú ẩn an toàn này sau khi Tổng thống Mỹ Donald Trump công bố mức thuế đối ứng với hàng chục đối tác thương mại.
Mức thuế 46% từ Mỹ là cú sốc lớn, nhưng Việt Nam có thể tận dụng cơ hội trong thách thức

2 giờ trước Tài chính và đầu tư

VPBankS cho rằng mức thuế 46% từ Mỹ sẽ là cú sốc lớn, nhưng mức độ ảnh hưởng sẽ phụ thuộc vào cách Việt Nam phản ứng. Nếu chủ động và linh hoạt, Việt Nam hoàn toàn có thể giảm thiểu thiệt hại và tận dụng cơ hội trong thách thức.
Mỹ công bố áp thuế đối ứng, Thủ tướng yêu cầu thành lập ngay tổ phản ứng nhanh

3 giờ trước Tài chính và đầu tư

Trước việc Mỹ công bố áp thuế hàng hoá 46% với Việt Nam, Thủ tướng yêu cầu thành lập ngay tổ phản ứng nhanh về vấn đề này, đồng thời cũng nhấn mạnh mục tiêu tăng trưởng GDP năm 2025 từ 8% trở lên là không thay đổi.
Sự trơn tru của AI có thể đánh lừa về khả năng suy luận thực sự

4 giờ trước Khoa học - công nghệ

Chúng ta vẫn thường nói rằng trí tuệ nhân tạo (AI) không suy nghĩ giống như con người. Tuy nhiên, một nghiên cứu mới đây đã chỉ ra rõ ràng sự khác biệt này không chỉ mang tính lý thuyết.