Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

Nhịp đập khoa học

Meta thu thập bài đăng Facebook, Instagram của hàng tỉ người dùng để đào tạo AI

Sơn Vân • 23:17 12/09/2024

Meta Platforms thừa nhận tất cả văn bản và ảnh mà hàng tỉ người dùng Facebook, Instagram trưởng thành đã đăng công khai kể từ năm 2007 đã được đưa vào các mô hình trí tuệ nhân tạo (AI) của họ.

Trang ABC News (Úc) đưa tin Melinda Claybaugh, Giám đốc Quyền riêng tư toàn cầu của Meta Platforms, ban đầu bác bỏ các tuyên bố về việc sử dụng dữ liệu người dùng từ năm 2007 để đào tạo AI trong một cuộc điều tra của chính phủ nước này trước khi thừa nhận sau khi bị chất vấn thêm.

"Sự thật là trừ khi bạn đã đặt các bài đăng đó ở chế độ riêng tư kể từ năm 2007, Meta đã quyết định thu thập tất cả ảnh và văn bản từ mọi bài đăng công khai trên Instagram hoặc Facebook...", Thượng nghị sĩ David Shoebridge thuộc đảng Xanh nhấn mạnh trong cuộc điều tra.

David Shoebridge hỏi: "Đó là thực tế, phải không?". "Đúng vậy", Melinda Claybaugh trả lời.

Trung tâm quyền riêng tư và bài đăng trên blog của Meta Platforms thừa nhận việc thu thập bài đăng và bình luận công khai từ Facebook, Instagram để đào tạo AI tạo sinh: “Chúng tôi sử dụng bài đăng và bình luận công khai trên Facebook và Instagram để đào tạo các mô hình AI tạo sinh cho những tính năng này và cho cộng đồng nguồn mở. Chúng tôi không sử dụng các bài đăng hoặc bình luận với đối tượng khác ngoài chế độ công khai cho mục đích này”.

Thế nhưng, công ty đã mơ hồ về cách sử dụng dữ liệu, khi nào bắt đầu thu thập và phạm vi thực hiện việc này đến đâu.

Khi được trang The New York Times hỏi vào tháng 6, Meta Platforms không trả lời, ngoài việc xác nhận rằng việc đặt bài đăng thành bất cứ thứ gì khác ngoài chế độ công khai sẽ ngăn chặn việc thu thập dữ liệu trong tương lai. Tất nhiên, điều đó sẽ không xóa dữ liệu đã bị Meta Platforms thu thập. Những người đăng bài trên Facebook và Instagram từ năm 2007 trở lại đây sẽ không biết ảnh và bài của họ sẽ được Meta Platforms sử dụng theo cách này.

Melinda Claybaugh cho biết Meta Platforms không thu thập dữ liệu từ người dùng dưới 18 tuổi. Khi Thượng nghị sĩ Tony Sheldon thuộc đảng Lao động (Úc) hỏi liệu Meta Platforms có thu thập ảnh đăng công khai về con cái ông trên tài khoản cá nhân của ông không, Melinda Claybaugh xác nhận là “có”. Thế nhưng, Giám đốc Quyền riêng tư toàn cầu của Meta Platforms không làm rõ liệu công ty có thu thập dữ liệu từ các tài khoản được tạo khi người dùng vẫn còn là trẻ em hay không.

Người dùng ở EU có quyền lựa chọn không tham gia việc thu thập dữ liệu của họ để đào tạo AI nhờ vào các quy định bảo vệ quyền riêng tư tại địa phương. Meta Platforms gần đây bị cấm sử dụng dữ liệu cá nhân của người Brazil để đào tạo AI, nhưng hàng tỉ người dùng Facebook và Instagram ở các khu vực khác không thể chọn không tham gia nếu muốn giữ bài đăng công khai.

Melinda Claybaugh không thể nói liệu người dùng Úc (hoặc bất kỳ ai khác) có được lựa chọn không tham gia việc thu thập dữ liệu của họ trong tương lai hay không. Ông lập luận rằng tùy chọn này được cung cấp cho người dùng ở EU do không chắc chắn về bối cảnh pháp lý của nó.

"Meta Platforms nói rõ hôm nay rằng nếu Úc có những luật tương tự, dữ liệu của người Úc cũng sẽ được bảo vệ. Việc chính phủ không hành động về quyền riêng tư đồng nghĩa các công ty như Meta đang tiếp tục kiếm tiền và khai thác hình ảnh, video của trẻ em trên Facebook", Thượng nghị sĩ David Shoebridge nói với ABC News.

meta-thu-thap-bai-dang-facebook-instagram-cong-khai-cua-hang-ti-nguoi-dung-de-dao-tao-ai.jpg — Meta Platforms thừa nhận tất cả văn bản và ảnh mà hàng tỉ người dùng Facebook, Instagram đã đăng công khai kể từ năm 2007 đã được đưa vào các mô hình AI của họ - Ảnh: Getty Images

Các bot mới của Meta thu thập dữ liệu web lén lút để đào tạo AI, chỉ 1 đến 1,5% trang hàng đầu chặn được

Meta Platforms gần đây đã tung ra các bot mới có thể thu thập dữ liệu web cho mô hình AI và sản phẩm liên quan mà ít trang chặn được.

Các bot mới này có các tính năng khiến chủ sở hữu trang web khó chặn nội dung của họ bị sao chép và thu thập.

Theo Meta Platforms, bot Meta-ExternalAgent "dành cho các trường hợp sử dụng như đào tạo các mô hình AI hoặc cải thiện sản phẩm bằng cách lập chỉ mục nội dung trực tiếp".

Có tên Meta-ExternalFetcher, bot thứ hai liên quan đến các dịch vụ trợ lý AI của Meta Platforms và thu thập liên kết web để hỗ trợ những chức năng sản phẩm cụ thể.

Hai bot này lần đầu tiên xuất hiện vào khoảng tháng 7, theo trang web lưu trữ của Meta Platforms được phân tích bởi Originality.ai - công ty khởi nghiệp chuyên phát hiện nội dung AI.

Originality.ai là nền tảng chuyên cung cấp công cụ phát hiện nội dung sao chép và trùng lặp trực tuyến. Công ty tập trung vào việc giúp các nhà xuất bản và doanh nghiệp bảo vệ nội dung của họ khỏi bị sao chép hoặc sử dụng trái phép.

Các công ty khởi nghiệp và gã khổng lồ công nghệ đang chạy đua để xây dựng mô hình AI mạnh mẽ nhất. Một thành phần quan trọng là dữ liệu đào tạo chất lượng cao. Một trong những cách chính để thu thập dữ liệu này là gửi các bot lên web để sao chép và thu thập nội dung trực tuyến. Google, OpenAI, Anthropic và một số công ty AI khác đều có những bot này.

Nếu muốn chặn những bot như vậy, chủ sở hữu nội dung sử dụng một quy tắc đã được thiết lập sẵn có tên robots.txt. Quy tắc này ngăn chặn việc tự động thu thập dữ liệu từ trang web. Đây là đoạn mã đã được sử dụng từ cuối những năm 1990 và được chấp nhận rộng rãi như một trong những quy tắc không chính thức hỗ trợ web.

Tuy nhiên, nhu cầu về dữ liệu đào tạo AI đã làm suy yếu hệ thống này. Vào tháng 6, OpenAI và Anthropic đã bị phát hiện qua mặt hoặc lách robots.txt.

Meta lách quy tắc

Meta Platforms cũng có thể đang cố gắng qua mặt robots.txt theo những cách tinh vi. Công ty mẹ Facebook thông báo rằng bot Meta-ExternalFetcher "có thể qua mặt các quy tắc robots.txt".

Trong khi đó, bot Meta-ExternalAgent thực hiện đến hai chức năng, điều khá bất thường. Một là thu thập dữ liệu đào tạo AI, trong khi chức năng còn lại là lập chỉ mục nội dung.

Chủ sở hữu trang web có thể muốn chặn Meta Platforms khỏi việc thu thập dữ liệu để đào tạo mô hình AI, nhưng cũng muốn gã khổng lồ công nghệ Mỹ lập chỉ mục trang web (còn gọi là indexing) của họ để nhiều người dùng truy cập hơn.

Việc kết hợp cả hai chức năng trong một bot duy nhất khiến việc chặn trở nên khó khăn hơn. Chỉ có 1,5% các trang web hàng đầu chặn được bot Meta-ExternalAgent, theo Originality.ai. Con số này ít hơn nhiều so với FacebookBot, trình thu thập dữ liệu Meta Platforms trước đó.

FacebookBot thu thập dữ liệu trực tuyến trong nhiều năm để đào tạo các mô hình ngôn ngữ lớn và công nghệ nhận dạng giọng nói AI của Meta Platforms. Theo Originality.ai, bot này bị gần 10% các trang web hàng đầu chặn, gồm cả Twitter và Yahoo.

Theo Originality.ai, bot mới khác là Meta-ExternalFetcher đang bị chưa đến 1% các trang web hàng đầu chặn.

Jon Gillham, Giám đốc điều hành Originality.ai nói: "Các công ty nên cung cấp khả năng cho trang web chặn dữ liệu của họ khỏi việc bị thu thập và sử dụng để đào tạo AI mà không làm giảm khả năng hiển thị nội dung trang web trong sản phẩm của họ".

Người phát ngôn của Meta Platforms phản bác lại điều này bằng cách nói rằng công ty đang cố gắng "giúp các nhà xuất bản dễ dàng chỉ ra sở thích của họ hơn".

"Giống như các công ty khác, chúng tôi đào tạo các mô hình AI tạo sinh của mình trên nội dung có sẵn công khai trực tuyến. Chúng tôi nhận ra rằng một số nhà xuất bản và chủ sở hữu tên miền web muốn có các tùy chọn khi nói đến trang web và AI tạo sinh của họ", người phát ngôn Meta Platforms viết trong email gửi cho trang Insider.

Meta Platforms có nhiều bot thu thập dữ liệu web để tránh "gói gọn tất cả trường hợp sử dụng dưới một tác nhân duy nhất, cung cấp nhiều sự linh hoạt hơn cho các nhà xuất bản web", người phát ngôn nói thêm.

Chủ sở hữu trang web có thể tìm thông tin về cách chặn bot mới của Meta Platforms tại đây.

Bài liên quan

Meta khai tử công cụ phân tích vô giá giúp hiểu được cách thông tin lan truyền trên Facebook, Instagram

Meta khai tử Crowdtangle, công cụ phân tích vô giá, vì những gì công ty này cho rằng là bất tiện. Nhiều người sẽ còn khó hiểu hơn nữa những gì diễn ra trên Facebook và Instagram sắp tới.

Đọc tiếp

Apple đang phát triển sản phẩm mà Meta của Mark Zuckerberg thất bại

Meta Platforms chưa khai thác hết tiềm năng của AI nhưng đã gặp rắc rối với cơ quan pháp lý

Tạp chí Time vinh danh Giám đốc Cục Quản lý Không gian mạng Trung Quốc cùng CEO của ByteDance, Google, Meta

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Chính phủ đề nghị Mỹ tạm hoãn áp thuế 1-3 tháng để đàm phán

một giờ trước Tài chính và đầu tư

Chính phủ Việt Nam đề nghị phía Mỹ tạm hoãn áp thuế đối ứng đối với hàng hóa Việt Nam từ 1-3 tháng để đàm phán, với tinh thần đảm bảo công bằng, cả hai cùng có lợi...

Chủ tịch Khamtay Siphandone: Phải giữ gìn quan hệ đặc biệt Lào - Việt mãi là quan hệ tốt nhất

“Nhiệm vụ quan trọng của tất cả cán bộ, nhân viên Đại sứ quán Lào ở Việt Nam là phải làm thế...
Đẩy nhanh chuyển đổi số, tạo môi trường phát triển KH-CN

Theo Bộ trưởng Bộ KH-CN Nguyễn Mạnh Hùng, phải đẩy nhanh chuyển đổi số để tạo môi trường phát...
Bệnh chưa rõ nguyên nhân tại Liên bang Nga: Liệu có phải do vi khuẩn Mycoplasma?

Ngày 4.4, Cục Phòng bệnh (Bộ Y tế) thông tin về các trường hợp mắc bệnh chưa rõ nguyên nhân...

Đừng bỏ lỡ

Bill Gates: ‘Chúng ta không sinh ra để làm việc, AI sẽ thay thế con người ở hầu hết công việc’

một phút trước Nhịp đập khoa học

Bill Gates, nhà đồng sáng lập Microsoft, cho rằng con người không sinh ra để làm việc. Theo ông, công việc chỉ là hệ quả của sự thiếu hụt lao động trong lịch sử.
Phó thủ tướng Trần Hồng Hà: 5 năm nữa chỉ số ô nhiễm không khí phải ở mức an toàn

12 phút trước Bảo vệ môi trường

Phó thủ tướng Trần Hồng Hà yêu cầu UBND TP.Hà Nội và TP.HCM khẩn trương khắc phục tình trạng ô nhiễm để trong 5 năm tới đạt mục tiêu chỉ số ô nhiễm không khí (AQI) ở ngưỡng an toàn với sức khỏe con người.
Trung Quốc thông báo áp thuế bổ sung 34% đối với tất cả hàng hóa Mỹ

19 phút trước Chuyển động

Trung Quốc tiến hành bước đi trên cùng thời điểm Tổng thống Trump cho biết ông sẵn sàng xem xét thỏa thuận đổi việc giảm thuế cho Trung Quốc với việc Bắc Kinh đồng ý bán lại ứng dụng TikTok.
Khởi tố Quang Linh Vlog và Hằng Du Mục

27 phút trước Sự kiện

Bộ Công an cho biết Cơ quan CSĐT Bộ Công an đã có lệnh khởi tố bị can đối với Quang Linh Vlog và Hằng Du Mục.
Phó thủ tướng Nguyễn Chí Dũng: Phần lớn kết quả nghiên cứu của Viện Hàn lâm KH-CN mới dừng ở báo cáo hoặc ứng dụng giới hạn

30 phút trước Nhịp đập khoa học

Phó thủ tướng Nguyễn Chí Dũng cho rằng thiếu cơ chế khuyến khích thương mại hóa kết quả nghiên cứu. Phần lớn kết quả nghiên cứu của Viện Hàn lâm KH-CN Việt Nam mới dừng ở báo cáo hoặc ứng dụng giới hạn.

Mới nhất

Chính phủ đề nghị Mỹ tạm hoãn áp thuế 1-3 tháng để đàm phán

một giờ trước Tài chính và đầu tư

Chính phủ Việt Nam đề nghị phía Mỹ tạm hoãn áp thuế đối ứng đối với hàng hóa Việt Nam từ 1-3 tháng để đàm phán, với tinh thần đảm bảo công bằng, cả hai cùng có lợi...
Bệnh chưa rõ nguyên nhân tại Liên bang Nga: Liệu có phải do vi khuẩn Mycoplasma?

1 giờ trước Thông tin Y học

Ngày 4.4, Cục Phòng bệnh (Bộ Y tế) thông tin về các trường hợp mắc bệnh chưa rõ nguyên nhân tại Liên bang Nga trong những ngày gần đây.
Tổng thống Trump: Nga và Ukraine đã sẵn sàng cho thỏa thuận hòa bình

2 giờ trước Quốc tế

Tổng thống Mỹ Donald Trump ngày 3.4 cho biết cả Tổng thống Nga Vladimir Putin và Tổng thống Ukraine Volodymyr Zelensky bày tỏ thiện chí để đạt một thỏa thuận hòa bình, chấm dứt cuộc xung đột kéo dài hơn 3 năm giữa hai quốc gia.
Nâng thành công vòm thép mái nặng 5.300 tấn tại sân bay Long Thành

2 giờ trước Sự kiện

Sáng 4.4, vòm thép mái trung tâm nhà ga sân bay Long Thành nặng 5.300 tấn đã được nâng lên độ cao theo thiết kế và đang được căn chỉnh vào vị trí khớp nối.
Cụm công nghiệp 100% vốn FDI đầu tiên của tỉnh Sóc Trăng

3 giờ trước Kinh tế - đầu tư - dự án

Sau một thời gian xây dựng, dự án cụm công nghiệp 100% vốn FDI đầu tiên của tỉnh Sóc Trăng có diện tích 53,9ha chính thức khánh thành, đưa vào hoạt động.