Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

Nhịp đập khoa học

Cuộc đua ngầm mua dữ liệu đào tạo AI của Big Tech mang lại cho Photobucket sức sống mới

Sơn Vân • 06/04/2024 15:00

Vào thời kỳ đỉnh cao đầu những năm 2000, Photobucket là trang web lưu trữ hình ảnh hàng đầu thế giới.

Là trụ cột cho việc chia sẻ ảnh trên các dịch vụ phổ biến thời đó như Myspace và Friendster, Photobucket từng tự hào có 70 triệu người dùng, chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ.

Ngày nay, chỉ có 2 triệu người vẫn sử dụng Photobucket, theo công cụ theo dõi phân tích của Similarweb. Thế nhưng, cuộc cách mạng AI có thể mang lại cho Photobucket một sức sống mới.

Ted Leonard, Giám đốc điều hành Photobucket (công ty gồm 40 thành viên ở thị trấn Edwards, bang Colorado, Mỹ), nói với Reuters rằng ông đang đàm phán với nhiều hãng công nghệ để cấp phép cho 13 tỉ bức ảnh và video của Photobucket được sử dụng để đào tạo các mô hình AI tạo sinh.

Ted Leonard đã thảo luận về mức giá từ 5 cent đến 1 USD cho mỗi bức ảnh và hơn 1 USD cho mỗi video, với mức giá rất khác nhau tùy theo người mua và loại ảnh được tìm kiếm.

Ông nói thêm: “Nhiều công ty cần nhiều hơn thế nữa”. Theo Ted Leonard, một đối tác nói rằng muốn có hơn 1 tỉ video, nhiều hơn những gì Photobucket sở hữu.

Photobucket từ chối tiết lộ danh tính người mua tiềm năng với lý do bảo mật thương mại. Các cuộc đàm phán đang diễn ra cho thấy Photobucket có thể nắm giữ nội dung trị giá hàng tỉ USD và đưa ra cái nhìn thoáng qua về thị trường dữ liệu đang phát triển trong cơn sốt AI tạo sinh.

Những hãng công nghệ lớn như Google, Meta Platforms và OpenAI (được Microsoft hậu thuẫn) ban đầu sử dụng miễn phí dữ liệu lấy từ internet để đào tạo các mô hình AI tạo sinh có thể bắt chước khả năng sáng tạo của con người. Họ nói rằng làm như vậy vừa hợp pháp vừa có đạo đức, dù phải đối mặt với các vụ kiện từ nhiều chủ sở hữu bản quyền về hành vi này.

Ngoài ra, các hãng công nghệ nêu trên cũng đang âm thầm trả tiền cho nội dung bị ẩn sau tường phí và màn hình đăng nhập, dẫn đến hoạt động giao dịch ngầm về mọi thứ, từ nhật ký trò chuyện đến ảnh cá nhân bị lãng quên từ lâu trên các ứng dụng mạng xã hội cũ.

cuoc-dua-ngam-mua-du-lieu-dao-tao-ai-cua-big-tech-mang-lai-cho-photobucket-suc-song-moi.png — Photobucket đang đàm phán với nhiều hãng công nghệ để cấp phép cho 13 tỉ bức ảnh và video của mình được sử dụng để đào tạo các mô hình AI tạo sinh - Ảnh: Internet

Edward Klaris từ công ty luật Klaris Law nói: “Đang có một cuộc chạy đua để tìm đến những chủ sở hữu bản quyền có bộ sưu tập riêng tư về những thứ không thể thu thập tự động”. Klaris Law tiết lộ rằng đang tư vấn cho chủ sở hữu nội dung về các giao dịch trị giá hàng chục triệu USD cấp phép về ảnh, video và sách để đào tạo AI.

Reuters nói chuyện với hơn 30 người có kiến thức về các giao dịch dữ liệu AI, bao gồm các giám đốc điều hành hiện tại và trước đây tại các công ty liên quan, luật sư và nhà tư vấn, để cung cấp thông tin chuyên sâu về thị trường non trẻ này.

OpenAI, Google, Meta Platforms, Microsoft, Apple và Amazon đều từ chối bình luận về các giao dịch và thảo luận dữ liệu cụ thể. Thế nhưng, Microsoft và Google đã giới thiệu với Reuters về các quy tắc ứng xử của nhà cung cấp, gồm cả điều khoản về quyền riêng tư dữ liệu.

Google nói thêm rằng sẽ "ngay lập tức hành động, gồm cả việc chấm dứt" thỏa thuận với nhà cung cấp nếu phát hiện vi phạm ra hành vi vi phạm.

Nhiều công ty nghiên cứu thị trường lớn cho biết còn chưa bắt đầu ước tính quy mô của thị trường dữ liệu AI không minh bạch, nơi các công ty thường không tiết lộ các thỏa thuận. Còn hãng Business Research Insights ước tính thị trường hiện ở mức khoảng 2,5 tỉ USD và dự đoán nó có thể tăng gần 30 tỉ USD trong vòng một thập kỷ.

Cơn sốt dữ liệu đào tạo AI

Việc thu thập dữ liệu diễn ra khi các nhà sản xuất mô hình AI tạo sinh phải đối mặt với áp lực ngày càng tăng trong việc giải quyết lượng nội dung khổng lồ mà họ đưa vào hệ thống của mình, một quá trình được gọi là "đào tạo" đòi hỏi sức mạnh tính toán chuyên sâu và thường mất nhiều tháng để hoàn thành.

Các công ty cho biết công nghệ này sẽ rất tốn kém nếu không thể sử dụng kho lưu trữ khổng lồ dữ liệu trang web được thu thập miễn phí, chẳng hạn dữ liệu được cung cấp bởi kho lưu trữ phi lợi nhuận Common Crawl mà họ mô tả là "có sẵn công khai".

Tuy nhiên, cách tiếp cận này đã tạo ra một làn sóng các vụ kiện bản quyền và sức ép pháp lý, đồng thời thúc đẩy các nhà xuất bản thêm mã vào trang web của họ để chặn việc thu thập thông tin.

Để đáp lại, các nhà sản xuất mô hình AI đã bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu, thông qua các thỏa thuận với chủ sở hữu nội dung và ngành công nghiệp môi giới dữ liệu đang phát triển để đáp ứng nhu cầu.

Ví dụ, trong những tháng sau khi OpenAI ra mắt ChatGPT cuối năm 2022, Meta Platforms, Google, Amazon và Apple đều đạt được thỏa thuận với nhà cung cấp hình ảnh chứng khoán Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và bản nhạc trong thư viện của họ cho mục đích đào tạo AI.

Jarrod Yahes, Giám đốc tài chính của Shutterstock, nói với Reuters rằng thỏa thuận với các hãng công nghệ lớn ban đầu dao động từ 25 triệu USD đến 50 triệu USD mỗi công ty, dù hầu hết sau đó đã được mở rộng. Ông nói thêm rằng những hãng công nghệ nhỏ hơn đã làm theo, thúc đẩy một "hàng loạt hoạt động" mới trong hai tháng qua.

Jarrod Yahes từ chối bình luận về các hợp đồng cá nhân.

Freepik, đối thủ cạnh tranh của Shutterstock, nói với Reuters rằng đã đạt được thỏa thuận với hai hãng công nghệ lớn để cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh của mình với mức giá từ 2 đến 4 cent/mỗi ảnh. Joaquin Cuenca Abela, Giám đốc điều hành Freepik, nói có thêm 5 giao dịch tương tự đang được thực hiện nhưng từ chối tiết lộ người mua.

OpenAI, khách hàng ban đầu của Shutterstock, cũng ký thỏa thuận được cấp phép với ít nhất bốn tổ chức tin tức, trong đó có The Associated Press (AP) và Axel Springer.

Thomson Reuters, chủ sở hữu của Reuters News, cho biết đã đạt được thỏa thuận cấp phép nội dung tin tức để giúp đào tạo các mô hình ngôn ngữ lớn AI, nhưng không tiết lộ chi tiết.

"Nội dung có nguồn gốc hợp pháp"

Một ngành công nghiệp gồm các công ty dữ liệu AI chuyên dụng cũng đang nổi lên, đảm bảo quyền với nội dung thực tế thực như podcast, video dạng ngắn và tương tác với trợ lý kỹ thuật số, đồng thời xây dựng mạng lưới nhân viên hợp đồng ngắn hạn để tạo ra các mẫu hình ảnh và giọng nói tùy chỉnh từ đầu.

Defined.ai (có trụ sở tại thành phố Seattle, bang Washington, Mỹ) cấp phép dữ liệu cho nhiều công ty như Google, Meta Platforms, Apple, Amazon và Microsoft. Daniela Braga (Giám đốc điều hành Defined.ai) tiết lộ với Reuters điều này.

Giá cả khác nhau tùy theo người mua và loại nội dung, nhưng Daniela Braga cho biết các công ty thường sẵn sàng trả từ 1 đến 2 USD cho mỗi hình ảnh, 2 đến 4 USD với mỗi video dạng ngắn và 100 đến 300 USD mỗi giờ cho phim dài hơn. Bà nói thêm rằng giá thị trường cho văn bản là 0,001 USD mỗi từ.

Daniela Braga cho biết những hình ảnh khỏa thân, đòi hỏi phải xử lý nhạy cảm nhất, có giá từ 5 đến 7 USD.

Theo Daniela Braga, Defined.ai chia những khoản thu nhập đó với các nhà cung cấp nội dung. Bà nói thêm, Defined.ai tiếp thị các tập dữ liệu của mình là "có nguồn gốc hợp pháp" vì nhận được sự đồng ý từ những người có dữ liệu mà nó sử dụng và loại bỏ thông tin nhận dạng cá nhân.

cuoc-dua-ngam-mua-du-lieu-dao-tao-ai-cua-big-tech-mang-lai-cho-photobucket-suc-song-moi.jpg — Defined.ai cấp phép dữ liệu cho Google, Meta Platforms, Apple, Amazon và Microsoft - Ảnh: Internet

Doanh nhân tại Brazil, một trong những nhà cung cấp của Defined.ai, nói trả khoảng 20% đến 30% tổng giá trị thỏa thuận cho chủ sở hữu những bức ảnh, podcast và dữ liệu y tế mà ông nhận được.

Ông cho biết những hình ảnh đắt giá nhất trong danh mục đầu tư của mình thừng được sử dụng để đào tạo các hệ thống AI chặn nội dung, chẳng hạn hình ảnh bạo lực bị các hãng công nghệ cấm.

Để thực hiện những yêu cầu đó, ông thu thập các hình ảnh về hiện trường vụ án, bạo lực xung đột và các cuộc phẫu thuật (chủ yếu từ cảnh sát, phóng viên ảnh tự do và sinh viên y khoa) thường tại Nam Mỹ và châu Phi, nơi phân phối hình ảnh bạo lực trực quan phổ biến hơn.

Ông nói đã nhận được hình ảnh của các nhiếp ảnh gia tự do ở Gaza kể từ khi bắt đầu cuộc chiến ở đó vào tháng 10, cùng một số hình ảnh từ Israel khi bắt đầu chiến sự.

Reddit bị điều tra hoạt động kinh doanh cấp phép dữ liệu

Dù cấp phép có thể giải quyết một số vấn đề pháp lý và đạo đức, việc hồi sinh kho lưu trữ của các tên tuổi cũ như Photobucket để làm dữ liệu cho các mô hình AI mới nhất lại đặt ra những vấn đề khác, đặc biệt là về quyền riêng tư của người dùng, theo nhiều người trong ngành được Reuters phỏng vấn.

Các hệ thống AI đã bị phát hiện sao chép chính xác của dữ liệu đào tạo chúng, chẳng hạn logo chìm của Getty Images, đoạn văn từ bài viết trên tờ New York Times và hình ảnh người thật. Điều đó đồng nghĩa những bức ảnh riêng tư hoặc những suy nghĩ của một người được đăng cách đây nhiều thập kỷ có thể xuất hiện trong các kết quả đầu ra của AI tạo sinh mà không cần thông báo hoặc có sự đồng ý rõ ràng.

Ted Leonard, Giám đốc điều hành Photobucket, khẳng định ông có cơ sở pháp lý vững chắc cấp cho công ty "quyền không hạn chế" để bán bất kỳ nội dung nào được tải lên Photobucket nhằm mục đích đào tạo hệ thống AI. Ted Leonard coi việc cấp phép dữ liệu như một giải pháp thay thế cho việc bán quảng cáo.

Ông nói: “Chúng tôi cần thanh toán các hóa đơn và điều này có thể mang lại cho chúng tôi khả năng tiếp tục hỗ trợ các tài khoản miễn phí”.

Daniela Braga cho biết tránh mua nội dung từ các công ty nền tảng như Photobucket và thích lấy nguồn ảnh trên mạng xã hội từ những người có ảnh hưởng đã tạo ra chúng, mà bà cho rằng có yêu cầu rõ ràng hơn về quyền cấp phép.

Daniela Braga nói về nội dung từ các công ty nền tảng: “Tôi thấy nó rất rủi ro. Nếu AI tạo ra thứ gì đó giống với hình ảnh của một người chưa bao giờ chấp nhận thì đó là một vấn đề”.

Photobucket không phải là nền tảng duy nhất chấp nhận cấp phép. Automattic, công ty mẹ của Tumblr, thông báo vào tháng trước rằng đang chia sẻ nội dung với "các công ty AI được chọn lọc". Tháng 2, Reuters đưa tin Reddit đã đạt được thỏa thuận để cung cấp nội dung của nó cho việc đào tạo các mô hình AI của Google.

Trước đợt chào bán cổ phiếu lần đầu ra công chúng vào tháng 3, Reddit tiết lộ hoạt động kinh doanh cấp phép dữ liệu của họ bị Ủy ban Thương mại Liên bang Mỹ (FTC) điều tra, thừa nhận rằng nó có thể vi phạm các quy định về quyền riêng tư và sở hữu trí tuệ đang phát triển.

FTC từ chối bình luận về cuộc điều tra Reddit và không cho biết liệu có đang xem xét các giao dịch dữ liệu đào tạo AI khác hay không.

Bài liên quan

Cân bằng giữa dữ liệu đào tạo và kiến thức con người để AI hành động giống nhà khoa học

Những nhà nghiên cứu Trung Quốc đã phát triển một khuôn khổ mới giúp nhà phát triển đào tạo các mô hình học máy mà họ hy vọng có thể dẫn đến việc tạo ra “các nhà khoa học trí tuệ nhân tạo (AI) thực sự” có khả năng cải tiến các thí nghiệm và giải quyết các vấn đề khoa học.

Đọc tiếp

Chiến lược AI giúp cổ phiếu Samsung tăng vọt, doanh số dòng Galaxy S24 vượt Galaxy S23

CEO Neal Mohan nói về tin đồn OpenAI đào tạo Sora bằng video trên YouTube, nhắc đến Gemini của Google

Chủ tịch Alibaba: Các hãng công nghệ Trung Quốc đi sau Mỹ 2 năm trong phát triển AI

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Tổng Bí thư cho ý kiến về đề án về tổ chức quân sự địa phương 'tinh, gọn, mạnh'

2 giờ trước Theo dòng thời sự

Sáng 2.4, Quân ủy Trung ương nhiệm kỳ 2020 - 2025 đã tổ chức hội nghị lần thứ 13, xem xét, cho ý kiến vào đề án về tổ chức quân sự địa phương “tinh, gọn, mạnh” đáp ứng yêu cầu nhiệm vụ trong tình hình mới. Tổng Bí thư Tô Lâm, Bí thư Quân ủy Trung ương chủ trì hội nghị.

Nghị định 75: Kỳ vọng tháo gỡ vướng mắc cho nhiều dự án

Chuyên gia cho rằng Nghị định 75 ban hành kịp thời, kỳ vọng sẽ tháo gỡ được vướng mắc cho các...
AI cho cộng đồng: Tạo nền tảng vững chắc để phát triển kỹ năng số

Việc nâng cao hiểu biết về AI cho toàn dân sẽ giúp Việt Nam nhanh chóng thích ứng với những...
Phiên bản TikTok ở Trung Quốc làm sáng tỏ thuật toán đề xuất video dưới áp lực từ chính quyền

Douyin, phiên bản TikTok ở Trung Quốc, đã ra mắt một trang web đặc biệt để giải thích cách...

Đừng bỏ lỡ

'Hàng triệu tài xế cần được đào tạo' sau tai nạn 3 người chết liên quan công nghệ tự lái ô tô điện Xiaomi SU7

5 phút trước Thế giới số

Các tính năng lái xe tự động tiềm ẩn rủi ro an toàn cao do tài xế thiếu hiểu biết về cách hệ thống hoạt động, theo một lãnh đạo ngành công nghiệp ô tô.
VietinBank 5 năm liên tiếp là ngân hàng SME tốt nhất Việt Nam

một giờ trước Thông tin và phát triển

VietinBank tự hào được vinh danh “Ngân hàng SME tốt nhất Việt Nam” trong 5 năm liên tiếp, khẳng định vị thế tiên phong trong việc hỗ trợ và đồng hành cùng doanh nghiệp vừa và nhỏ (SME) tại Việt Nam.
Hàn Quốc thắt chặt an ninh trước ngày phán quyết việc luận tội Tổng thống Yoon Suk-yeol

một giờ trước Quốc tế

Trang The Korea Herald đưa tin trước thời điểm Tòa Hiến pháp Hàn Quốc ra phán quyết về việc luận tội Tổng thống Yoon Suk-yeol, cảnh sát nước này đã chuẩn bị giải tán các cuộc biểu tình trước lối vào tòa án và thiết lập khu vực cấm tiếp cận.
Vấp ngã khi đi bộ trong nhà, người phụ nữ 51 tuổi ở Long An bị đứt động mạch chày

1 giờ trước Thông tin Y học

Sau cú ngã lúc đang đi bộ trong nhà, người phụ nữ 51 tuổi ở Long An bị lóc da mặt trước cổ chân phải, máu chảy nhiều, lộ gân cơ. Bệnh nhân được chẩn đoán đứt động mạch chày chân phải.
Vụ khai thác cát lậu: Cựu Chủ tịch tỉnh An Giang bị tuyên phạt 8 năm 6 tháng tù

2 giờ trước Sự kiện

Tại phiên xét xử sơ thẩm các bị cáo trong vụ khai thác cát lậu xảy ra tại Công ty CP Đầu tư Trung Hậu 68, HĐXX đã tuyên phạt bị cáo Nguyễn Thanh Bình (cựu Chủ tịch UBND tỉnh An Giang) 8 năm 6 tháng tù về tội “Lợi dụng chức vụ, quyền hạn trong khi thi hành công vụ”.

Mới nhất

Nghị định 75: Kỳ vọng tháo gỡ vướng mắc cho nhiều dự án

21 phút trước Hạ tầng và bất động sản

Chuyên gia cho rằng Nghị định 75 ban hành kịp thời, kỳ vọng sẽ tháo gỡ được vướng mắc cho các dự án mà nhà đầu tư đang sử dụng đất hoặc đã “mua gom” đất, phù hợp với quy hoạch làm nhà ở thương mại nhưng chưa thể thực hiện do không có đất ở.
Tổng Bí thư cho ý kiến về đề án về tổ chức quân sự địa phương 'tinh, gọn, mạnh'

2 giờ trước Theo dòng thời sự

Sáng 2.4, Quân ủy Trung ương nhiệm kỳ 2020 - 2025 đã tổ chức hội nghị lần thứ 13, xem xét, cho ý kiến vào đề án về tổ chức quân sự địa phương “tinh, gọn, mạnh” đáp ứng yêu cầu nhiệm vụ trong tình hình mới. Tổng Bí thư Tô Lâm, Bí thư Quân ủy Trung ương chủ trì hội nghị.
AI cho cộng đồng: Tạo nền tảng vững chắc để phát triển kỹ năng số

4 giờ trước Khoa học - công nghệ

Việc nâng cao hiểu biết về AI cho toàn dân sẽ giúp Việt Nam nhanh chóng thích ứng với những thay đổi của thế giới, tận dụng tiến bộ công nghệ AI để phát triển bền vững cũng như giảm thiểu những tác động tiêu cực của AI.
Điện lực miền Nam đảm bảo cung ứng điện cho 21 tỉnh mùa nắng nóng

4 giờ trước Theo dòng thời sự

Nhằm đảm bảo cung cấp điện an toàn, tin cậy trong năm 2025, đặc biệt vào cao điểm nắng nóng và các tháng mùa khô, Tổng công ty Điện lực miền Nam cùng các đơn vị thành viên tại 21 tỉnh thành đã và đang triển khai nhiều phương án vận hành tối ưu hệ thống lưới điện.
Xuất khẩu thủy sản bứt phá trong quý 1, đạt 2,45 tỉ USD

4 giờ trước Kinh tế - đầu tư - dự án

Xuất khẩu thủy sản Việt Nam phục hồi ấn tượng trong quý 1/2025, với kim ngạch đạt 2,45 tỉ USD, tăng 26% so với cùng kỳ năm 2024.