Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

Thế giới số

Meta khao khát các nguồn dữ liệu để đào tạo AI đến mức chấp nhận đối mặt với vụ kiện bản quyền

Sơn Vân • 07/04/2024 11:59

Meta Platforms và những gã khổng lồ công nghệ khác đang nỗ lực tìm kiếm nguồn dữ liệu mới để đào tạo mô hình trí tuệ nhân tạo (AI).

Tại Meta Platforms, vấn đề này nghiêm trọng đến mức các lãnh đạo đã họp gần như hàng ngày vào tháng 3 và tháng 4.2023 để đưa ra kế hoạch, tờ The New York Times đưa tin hôm 6.4.

Khi hệ thống AI trở nên mạnh mẽ hơn, các hãng công nghệ buộc phải tìm kiếm dữ liệu một cách tích cực hơn và có thể khiến họ có nguy cơ vi phạm bản quyền.

Theo The New York Times, trong các cuộc họp của Meta Platforms, một số người tham dự đã đưa ra ý tưởng mua nhà xuất bản Simon & Schuster (được công ty cổ phần tư nhân KKR mua lại với giá 1,62 tỉ USD vào tháng 8.2023). Những người khác đề nghị trả 10 USD/cuốn sách để có được toàn bộ bản quyền với các tựa sách mới.

Vào thời điểm diễn ra các cuộc họp vào tháng 3 và tháng 4.2023, Meta Platforms đã tóm tắt nhiều sách, bài tiểu luận và các tác phẩm trực tuyến khác. Công ty mẹ Facebook đã thuê các nhà thầu ở châu Phi để tập hợp bản tóm tắt các tựa sách hư cấu và phi hư cấu, một số trong đó thông tin có bản quyền.

Những người tham dự đã thảo luận liệu Meta Platforms có thể tiếp tục thu thập dữ liệu từ các nguồn có khả năng được bảo vệ bản quyền mà không cần mất thời gian và tiền bạc để mua thỏa thuận cấp phép hay không.

Khi một luật sư chỉ ra những lo ngại về "đạo đức" của việc lấy tài sản trí tuệ, họ đã im lặng, theo The New York Times. Cuối cùng, các nhà quản lý Meta Platforms đã quyết định dựa vào tiền lệ được thiết lập trong vụ Authors Guild (Hiệp hội Tác giả Mỹ) kiện Google. Đó là vụ kiện năm 2015 được đệ trình lên Tòa án Tối cao Mỹ. Thế nhưng, Tòa án Tối cao Mỹ đã từ chối thụ lý vụ án, giữ nguyên phán quyết của tòa án cấp dưới. Tòa án đó cho biết Google có thể quét và số hóa sách cho dịch vụ Google Books theo nguyên tắc sử dụng hợp lý. Luật sư của Meta Platforms cho biết công ty có thể đào tạo các hệ thống AI riêng theo các nguyên tắc tương tự, theo The New York Times đưa tin.

meta-khao-khat-cac-nguon-du-lieu-de-dao-tao-ai-den-muc-chap-nhan-doi-mat-voi-vu-kien-ban-quyen.jpg — Meta Platforms đang nỗ lực tìm kiếm nguồn dữ liệu mới để đào tạo mô hình AI - Ảnh: Getty Images

Khi chạy đua để phát triển AI mạnh mẽ hơn, Meta Platforms, OpenAI, Google và các hãng công nghệ lớn khác đang tìm cách tìm nguồn càng nhiều nội dung càng tốt để đào tạo các mô hình AI của mình nhằm đạt được kết quả chất lượng tốt hơn.

Một số người nghi ngờ OpenAI sử dụng video trên YouTube thuộc Alphabet để đào tạo Sora, mô hình chuyển văn bản thành video chân thực.

Trong bài phát biểu công khai đầu tiên về chủ đề trên, Neal Mohan (Giám đốc điều hành YouTube) cho biết ông không biết liệu OpenAI có thực sự sử dụng video YouTube để tinh chỉnh Sora hay không. Nếu có thì đó sẽ là hành vi “vi phạm rõ ràng” các điều khoản sử dụng của YouTube, Neal Mohan nói.

ChatGPT, DALL-E và Sora của OpenAI hoạt động bằng cách thu thập tất cả loại nội dung từ khắp nơi trên web và sử dụng dữ liệu đó làm nền tảng để tạo ra nội dung mới, như video, ảnh, văn bản tường thuật...

Cộng đồng AI cho rằng OpenAI sử dụng số lượng lớn video YouTube để đào tạo các mô hình AI, gồm cả sản phẩm mới của họ là Sora. Nó gần như là một bí mật đã được công khai. Điều bí ẩn là làm thế nào OpenAI truy cập đủ nội dung YouTube để thực hiện công việc này.

YouTube cấm việc thu thập video của mình bằng bot và các phương pháp tự động khác, đồng thời cấm tải xuống vì mục đích thương mại. YouTube cũng sẽ hạn chế các nỗ lực tải xuống video trên nền tảng của mình với số lượng lớn.

OpenAI cần lượng lớn văn bản, hình ảnh và video để đào tạo các mô hình AI của mình. Điều này có nghĩa là OpenAI, công ty khởi nghiệp Mỹ được Microsoft đầu tư hàng tỉ USD, nếu muốn vượt qua các giới hạn thì phải tải xuống khối lượng lớn video YouTube hoặc truy cập dữ liệu này theo cách nào đó.

Video YouTube được cung cấp miễn phí trực tuyến, nên việc tải xuống một lượng nhỏ nội dung này cho mục đích nghiên cứu có vẻ vô hại. Thế nhưng, khai thác hàng triệu video để xây dựng các mô hình AI mạnh mẽ có thể là việc hoàn toàn khác.

Trang Insider đã hỏi OpenAI liệu họ có tải xuống video YouTube trên quy mô lớn hay không và liệu công ty này có sử dụng nội dung này làm dữ liệu để đào tạo mô hình AI hay không. Insider cũng hỏi OpenAI về những hạn chế của YouTube về việc tải xuống video với số lượng lớn.

Người phát ngôn của OpenAI cho biết: “Chương trình đào tạo của Sora bao gồm tài liệu từ các nguồn được cấp phép cũng như nội dung có sẵn công khai trên internet”. Người này từ chối bình luận về các câu hỏi cụ thể từ Insider.

Mira Murati, Giám đốc Công nghệ OpenAI, cho biết trong một cuộc phỏng vấn với tờ Wall Street Journal vào tháng trước rằng bà không chắc liệu Sora có được đào tạo bằng video do người dùng tạo từ YouTube, Facebook và Instagram hay không.

Wall Street Journal gần đây đưa tin OpenAI đã thảo luận về việc đào tạo mô hình ngôn ngữ lớn thế hệ tiếp theo, GPT-5, dựa trên các bản trích dẫn từ video công khai trên YouTube.

Cơn sốt dữ liệu đào tạo AI

OpenAI, Google, Meta Platforms, Microsoft, Apple, Amazon ban đầu sử dụng miễn phí dữ liệu lấy từ internet để đào tạo các mô hình AI tạo sinh có thể bắt chước khả năng sáng tạo của con người. Họ nói rằng làm như vậy vừa hợp pháp vừa có đạo đức, dù phải đối mặt với các vụ kiện từ nhiều chủ sở hữu bản quyền về hành vi này.

Ngoài ra, các hãng công nghệ lớn cũng đang âm thầm trả tiền cho nội dung bị ẩn sau tường phí và màn hình đăng nhập, dẫn đến hoạt động giao dịch ngầm về mọi thứ, từ nhật ký trò chuyện đến ảnh cá nhân bị lãng quên từ lâu trên các ứng dụng mạng xã hội cũ.

Edward Klaris từ công ty luật Klaris Law nói: “Đang có một cuộc chạy đua để tìm đến những chủ sở hữu bản quyền có bộ sưu tập riêng tư về những thứ không thể thu thập tự động”. Klaris Law tiết lộ rằng đang tư vấn cho chủ sở hữu nội dung về các giao dịch trị giá hàng chục triệu USD cấp phép về ảnh, video và sách để đào tạo AI.

OpenAI, Google, Meta Platforms, Microsoft, Apple và Amazon đều từ chối bình luận về các giao dịch và thảo luận dữ liệu cụ thể. Thế nhưng, Microsoft và Google đã giới thiệu với Reuters về các quy tắc ứng xử của nhà cung cấp, gồm cả điều khoản về quyền riêng tư dữ liệu.

Google nói thêm rằng sẽ "ngay lập tức hành động, gồm cả việc chấm dứt" thỏa thuận với nhà cung cấp nếu phát hiện vi phạm ra hành vi vi phạm.

Nhiều công ty nghiên cứu thị trường lớn cho biết còn chưa bắt đầu ước tính quy mô của thị trường dữ liệu AI không minh bạch, nơi các công ty thường không tiết lộ các thỏa thuận. Còn hãng Business Research Insights ước tính thị trường hiện ở mức khoảng 2,5 tỉ USD và dự đoán nó có thể tăng gần 30 tỉ USD trong vòng một thập kỷ.

Việc thu thập dữ liệu diễn ra khi các nhà sản xuất mô hình AI tạo sinh phải đối mặt với áp lực ngày càng tăng trong việc giải quyết lượng nội dung khổng lồ mà họ đưa vào hệ thống của mình, một quá trình được gọi là "đào tạo" đòi hỏi sức mạnh tính toán chuyên sâu và thường mất nhiều tháng để hoàn thành.

Các công ty cho biết công nghệ này sẽ rất tốn kém nếu không thể sử dụng kho lưu trữ khổng lồ dữ liệu trang web được thu thập miễn phí, chẳng hạn dữ liệu được cung cấp bởi kho lưu trữ phi lợi nhuận Common Crawl mà họ mô tả là "có sẵn công khai".

Tuy nhiên, cách tiếp cận này đã tạo ra một làn sóng các vụ kiện bản quyền và sức ép pháp lý, đồng thời thúc đẩy các nhà xuất bản thêm mã vào trang web của họ để chặn việc thu thập thông tin.

Để đáp lại, các nhà sản xuất mô hình AI đã bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu, thông qua các thỏa thuận với chủ sở hữu nội dung và ngành công nghiệp môi giới dữ liệu đang phát triển để đáp ứng nhu cầu.

Ví dụ, trong những tháng sau khi OpenAI ra mắt ChatGPT cuối năm 2022, Meta Platforms, Google, Amazon và Apple đều đạt được thỏa thuận với nhà cung cấp hình ảnh chứng khoán Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và bản nhạc trong thư viện của họ cho mục đích đào tạo AI.

Jarrod Yahes, Giám đốc tài chính của Shutterstock, nói với Reuters rằng thỏa thuận với các hãng công nghệ lớn ban đầu dao động từ 25 triệu USD đến 50 triệu USD mỗi công ty, dù hầu hết sau đó đã được mở rộng. Ông nói thêm rằng những hãng công nghệ nhỏ hơn đã làm theo, thúc đẩy một "hàng loạt hoạt động" mới trong hai tháng qua.

Jarrod Yahes từ chối bình luận về các hợp đồng cá nhân.

Freepik, đối thủ cạnh tranh của Shutterstock, nói với Reuters rằng đã đạt được thỏa thuận với hai hãng công nghệ lớn để cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh của mình với mức giá từ 2 đến 4 cent/mỗi ảnh. Joaquin Cuenca Abela, Giám đốc điều hành Freepik, nói có thêm 5 giao dịch tương tự đang được thực hiện nhưng từ chối tiết lộ người mua.

OpenAI, khách hàng ban đầu của Shutterstock, cũng ký thỏa thuận được cấp phép với ít nhất bốn tổ chức tin tức, trong đó có The Associated Press (AP) và Axel Springer.

Bài liên quan

Hacker có thể tấn công người dùng kính VR Meta Quest và trộm thông tin theo kiểu ‘Kẻ đánh cắp giấc mơ’

Các nhà nghiên cứu đã phát hiện ra một lỗ hổng bảo mật tiềm ẩn nghiêm trọng với kính thực tế ảo Quest của Meta Platforms.

Đọc tiếp

Meta, Microsoft, X và Match Group tham gia cuộc chiến của Epic Games chống lại Apple

4 hội đồng liên kết với hơn 1.000 trường kiện Meta, Snap và ByteDance vì gây hại cho học sinh

Meta bắt đầu dán nhãn nội dung do AI tạo ra từ tháng 5

(0) Bình luận

Xếp theo:

Đọc thêm Thế giới số

Nổi bật Một thế giới

Thủ tướng nghiêm khắc phê bình 19 bộ, địa phương về giải ngân vốn đầu tư công

2 giờ trước Tài chính và đầu tư

Thủ tướng Chính phủ nghiêm khắc phê bình 19 bộ, cơ quan trung ương và 28 địa phương đến ngày 15.3.2025 chưa phân bổ chi tiết hết kế hoạch vốn đầu tư công nguồn ngân sách nhà nước năm 2025 đã được giao.

3 mô hình tiêu dùng sáng giá của kinh tế Trung Quốc

Đài Channel News Asia chỉ ra “kinh tế bạc”, “kinh tế băng tuyết”, “kinh tế ra mắt” đang dần...
Triển khai cấp căn cước, tài khoản định danh điện tử cho người dân tại nhà ga Metro số 1

Sáng 5.4, Công an TP.HCM chính thức triển khai cấp thẻ căn cước, tài khoản định danh điện tử...
Tổng Bí thư Tô Lâm điện đàm với Tổng thống Mỹ Donald Trump

Tối 4.4.2025, tại trụ sở Trung ương Đảng, Tổng Bí thư Tô Lâm đã có cuộc điện đàm với Tổng thống...

Đừng bỏ lỡ

Để an toàn giao thông cần trị những căn bệnh mãn tính!

24 phút trước Góc bình luận

Lực lượng Cảnh sát giao thông CATP.HCM vừa ra quân thực hiện cao điểm 50 ngày đêm kiểm tra, xử phạt các lỗi vi phạm có nguy cơ dẫn đến tai nạn giao thông (TNGT).
Khám phá nhanh vụ trộm trị giá 3 tỉ đồng

2 giờ trước Theo dòng thời sự

Trưa 5.4, Thiếu tướng Nguyễn Văn Thuận, Giám đốc Công an TP.Cần Thơ cho biết, Phòng CSHS Công an TP vừa khám phá nhanh vụ trộm cắp tài sản rất lớn trên địa bàn.
Bác sĩ thông tin về tình trạng gãy chân của cựu người mẫu Kỳ Hân khi chơi pickleball

3 giờ trước Thông tin Y học

Liên quan đến cựu người mẫu Kỳ Hân bị gãy chân khi chơi pickleball, sáng 5.4, Bệnh viện Chấn thương chỉnh hình TP.HCM, cho biết bệnh nhân này đã bị gãy 1/3 giữa thân xương đùi bên trái. Hiện bệnh nhân đã được phẫu thuật thành công.
Bắt Giám đốc Công ty CP khoáng sản Thiên An Phát

3 giờ trước Sự kiện

Cơ quan CSĐT Bộ Công an đã khởi tố, bắt tạm giam ông Nguyễn Xuân Tùng (Giám đốc Công ty Cổ phần khoáng sản Thiên An Phát).
GPT-4 'nhớ dai' đến mức nguy hiểm: Nghi vấn OpenAI sao chép nội dung bản quyền

4 giờ trước Khoa học - công nghệ

Một nghiên cứu mới công bố đã làm dấy lên thêm lo ngại về cách OpenAI huấn luyện các mô hình trí tuệ nhân tạo của mình.

Mới nhất

3 mô hình tiêu dùng sáng giá của kinh tế Trung Quốc

một giờ trước Quốc tế

Đài Channel News Asia chỉ ra “kinh tế bạc”, “kinh tế băng tuyết”, “kinh tế ra mắt” đang dần trở thành 3 mô hình tiêu dùng sáng giá của kinh tế Trung Quốc.
Thủ tướng nghiêm khắc phê bình 19 bộ, địa phương về giải ngân vốn đầu tư công

2 giờ trước Tài chính và đầu tư

Thủ tướng Chính phủ nghiêm khắc phê bình 19 bộ, cơ quan trung ương và 28 địa phương đến ngày 15.3.2025 chưa phân bổ chi tiết hết kế hoạch vốn đầu tư công nguồn ngân sách nhà nước năm 2025 đã được giao.
Triển khai cấp căn cước, tài khoản định danh điện tử cho người dân tại nhà ga Metro số 1

3 giờ trước Theo dòng thời sự

Sáng 5.4, Công an TP.HCM chính thức triển khai cấp thẻ căn cước, tài khoản định danh điện tử lưu động cho công dân tại nhà ga tàu Metro số 1 (Bến Thành - Suối Tiên).
Cơ cấu thỏa thuận mua bán TikTok ở Mỹ gần hoàn tất nhưng bị hoãn do Trung Quốc không phê duyệt

6 giờ trước Thế giới số

Thỏa thuận tách tài sản của TikTok tại Mỹ đã bị hoãn lại sau khi Trung Quốc cho biết sẽ không phê duyệt nó sau thông báo về thuế quan từ Tổng thống Donald Trump hôm 2.4, theo hai nguồn tin quen thuộc với vấn đề này.
Trái đất nóng thêm 3°C, thu nhập của chúng ta sẽ bốc hơi 40%

7 giờ trước Kiến thức - Học thuật

Theo nghiên cứu mới của Giảng viên cao cấp về Kinh tế Timothy Neal thuộc Viện Rủi ro và Ứng phó Khí hậu, UNSW Sydneyvà các đồng nghiệp, thiệt hại do biến đổi khí hậu gây ra cho nền kinh tế thế giới đang bị đánh giá thấp rất nhiều, đặc biệt khi tính đến phạm vi toàn cầu của thời tiết khắc nghiệt và hậu quả của nó.

Xem thêm

Cơ quan chủ quản: Hội Thông tin Khoa học và Công nghệ Việt Nam.

ĐC: 24 Lý Thường Kiệt, Hàng Bài, Hoàn Kiếm, Hà Nội.

ĐT: 024.38256203

Hotline nội dung : 0934999945

Tổng biên tập: Hoàng Đại Thanh

Tổng Thư ký Tòa soạn: Nguyễn Đình Mười

Giấy phép số 77/GP-BTTTT do Bộ Thông tin và Truyền thông cấp ngày 26 tháng 2 năm 2020.

Tòa nhà SIMCO Sông Đà, Tiểu KĐT mới Vạn Phúc, Phường Vạn Phúc, Quận Hà Đông, TP. Hà Nội

ĐT: 0984708866

TPHCM: 345/134 Trần Hưng Đạo, phường Cầu Kho, Quận 1

ĐT:

Email: toasoan

Hotline quảng cáo: 096 2445664

Email quảng cáo: sales

Báo giá quảng cáo:

Công ty Cổ phần Truyền thông Một Thế Giới

Meta khao khát các nguồn dữ liệu để đào tạo AI đến mức chấp nhận đối mặt với vụ kiện bản quyền

Hacker có thể tấn công người dùng kính VR Meta Quest và trộm thông tin theo kiểu ‘Kẻ đánh cắp giấc mơ’

Meta

dữ liệu

đào tạo AI

AI

vụ kiện bản quyền

OpenAI

YouTube

Meta, Microsoft, X và Match Group tham gia cuộc chiến của Epic Games chống lại Apple

4 hội đồng liên kết với hơn 1.000 trường kiện Meta, Snap và ByteDance vì gây hại cho học sinh

Meta bắt đầu dán nhãn nội dung do AI tạo ra từ tháng 5

Meta, Microsoft, X và Match Group tham gia cuộc chiến của Epic Games chống lại Apple

4 hội đồng liên kết với hơn 1.000 trường kiện Meta, Snap và ByteDance vì gây hại cho học sinh

Meta bắt đầu dán nhãn nội dung do AI tạo ra từ tháng 5

Gói trợ cấp thôi việc hậu hĩnh cho nhân viên trung bình và 4 bí quyết thành công của Netflix

Trải nghiệm 9 tháng không dùng smartphone của cô gái Gen Z để cai nghiện điện thoại

‘Instagram kiếm được nhiều tiền quảng cáo hơn YouTube’

Phát hiện của chuyên gia Microsoft gây chấn động, giúp thế giới tránh khủng hoảng an ninh kỹ thuật số

CEO Neal Mohan nói về tin đồn OpenAI đào tạo Sora bằng video trên YouTube, nhắc đến Gemini của Google

Chiến lược AI giúp cổ phiếu Samsung tăng vọt, doanh số dòng Galaxy S24 vượt Galaxy S23

Thủ tướng nghiêm khắc phê bình 19 bộ, địa phương về giải ngân vốn đầu tư công

3 mô hình tiêu dùng sáng giá của kinh tế Trung Quốc

Triển khai cấp căn cước, tài khoản định danh điện tử cho người dân tại nhà ga Metro số 1

Tổng Bí thư Tô Lâm điện đàm với Tổng thống Mỹ Donald Trump

Để an toàn giao thông cần trị những căn bệnh mãn tính!

Khám phá nhanh vụ trộm trị giá 3 tỉ đồng

Bác sĩ thông tin về tình trạng gãy chân của cựu người mẫu Kỳ Hân khi chơi pickleball

Bắt Giám đốc Công ty CP khoáng sản Thiên An Phát

GPT-4 'nhớ dai' đến mức nguy hiểm: Nghi vấn OpenAI sao chép nội dung bản quyền

3 mô hình tiêu dùng sáng giá của kinh tế Trung Quốc

Thủ tướng nghiêm khắc phê bình 19 bộ, địa phương về giải ngân vốn đầu tư công

Triển khai cấp căn cước, tài khoản định danh điện tử cho người dân tại nhà ga Metro số 1

Cơ cấu thỏa thuận mua bán TikTok ở Mỹ gần hoàn tất nhưng bị hoãn do Trung Quốc không phê duyệt

Trái đất nóng thêm 3°C, thu nhập của chúng ta sẽ bốc hơi 40%

Zhipu ra mắt tác tử AI miễn phí, nói GLM-Z1-Air có hiệu suất ngang DeepSeek-R1 nhưng chạy nhanh hơn 8 lần

Apple và SpaceX của Elon Musk đối đầu vì kế hoạch mở rộng mạng vệ tinh

Giám đốc công nghệ Meta đánh giá vị thế của Google, Microsoft, Amazon trong cuộc đua AI

Apple chuẩn bị bước tiến lớn nhất vào lĩnh vực sức khỏe với bác sĩ AI, muốn thay đổi ngành y tế

OpenAI, Google, Anthropic với các động thái AI mới gây bất ngờ