Khoảng một tuần sau khi OpenAI ra mắt SearchGPT, một số nhà xuất bản tin tức hàng đầu đã bày tỏ rằng họ không muốn liên quan đến công cụ tìm kiếm mới của công ty khởi nghiệp này.
Nhịp đập khoa học

New York Times và nhiều trang tin tức hàng đầu chặn SearchGPT của OpenAI thu thập dữ liệu tìm kiếm

Sơn Vân 03/08/2024 15:38

Khoảng một tuần sau khi OpenAI ra mắt SearchGPT, một số nhà xuất bản tin tức hàng đầu đã bày tỏ rằng họ không muốn liên quan đến công cụ tìm kiếm mới của công ty khởi nghiệp này.

The New York Times và ít nhất 13 trang tin tức khác đã chặn OAI-SearchBot, bot thu thập dữ liệu web để OpenAI có thể truy xuất và hiển thị kết quả phù hợp cho người dùng SearchGPT.

Originality.ai theo dõi vấn đề này và phát hiện rằng 14 trong số 1.000 nhà xuất bản website hàng đầu đã chặn OAI-SearchBot, gồm cả Wired, The New Yorker, Vogue, Vanity Fair và GQ.

Theo Jon Gillham, Giám đốc điều hành Originality.ai, đây là điều khá khó hiểu.

“Tôi không chắc tại sao bất kỳ nhà xuất bản nào lại chặn OAI-SearchBot. Đây là lưu lượng truy cập mà các nhà xuất bản muốn và cần”, ông nói với trang Insider.

Originality.ai là nền tảng chuyên cung cấp công cụ phát hiện nội dung sao chép và trùng lặp trực tuyến. Công ty tập trung vào việc giúp các nhà xuất bản và doanh nghiệp bảo vệ nội dung của họ khỏi bị sao chép hoặc sử dụng trái phép. Họ cung cấp các giải pháp để theo dõi việc sử dụng nội dung và đảm bảo rằng các bản sao chép hoặc nội dung không được phép xuất hiện trên web.

Khi công bố SearchGPT tuần trước, OpenAI nhấn mạnh rằng OAI-SearchBot không thu thập dữ liệu web để đào tạo các mô hình ngôn ngữ lớn. OpenAI khuyên các chủ sở hữu website nên cho phép bot mới này thu thập dữ liệu để “đảm bảo trang của bạn xuất hiện trong kết quả tìm kiếm”.

Nếu trình thu thập dữ liệu không có quyền truy cập vào mọi trang web, SearchGPT có nguy cơ kém hoàn chỉnh hơn so với công cụ tìm kiếm Google.

Trang Insider đã hỏi Jon Gillham liệu có nhà xuất bản tin tức lớn nào chặn bot tìm kiếm của Google không. Ông không biết có nhà xuất bản nào làm vậy.

Thiếu sự tin tưởng hoặc nghi ngờ về lưu lượng tìm kiếm

GPTbot là chương trình khác của OpenAI chuyên thu thập dữ liệu web để đào tạo mô hình AI. Hàng trăm website đã chặn bot này. Điều đó có vẻ hợp lý hơn vì: "Bạn muốn lưu lượng truy cập từ công cụ tìm kiếm, nhưng không muốn cho đi nội dung của mình để đào tạo các mô hình AI có khả năng cạnh tranh với mình".

Tuy nhiên, OpenAI đã dành nhiều năm để thu thập dữ liệu trực tuyến mà không được sự cho phép. Có thể các nhà xuất bản không tin tưởng OpenAI khi "cha đẻ ChatGPT" nói rằng OAI-SearchBot sẽ không bí mật thu thập nội dung để đào tạo dữ liệu AI?

“Tôi nghĩ vậy”, Jon Gillham nói.

Một lý thuyết khác: Kết quả tìm kiếm hiện không phải lúc nào cũng đưa người dùng đến các website đã nỗ lực tạo ra nội dung gốc. Một phần mục tiêu của các công cụ tìm kiếm mới hỗ trợ AI là giữ chân người dùng bằng cách hiển thị bản tóm tắt. Nếu các nhà xuất bản không còn thấy lưu lượng truy cập khổng lồ từ công cụ tìm kiếm nữa thì việc cho phép bot thu thập dữ liệu web của họ có còn cần thiết nữa không?

Khiếu nại từ The New York Times

Jon Gillham lưu ý rằng OpenAI đã bận rộn trong năm nay ký thỏa thuận với các nhà xuất bản để sử dụng kho dữ liệu nội dung của họ.

“Có vẻ như đây là chuỗi hành động có chủ đích của OpenAI, trước tiên là làm quen với các nhà xuất bản bằng cách ký tất cả thỏa thuận hợp tác này và sau đó công bố SearchGPT”, Gillham nói thêm.

Nhà xuất bản lớn nhất từ chối hợp tác với OpenAI là The New York Times. The New York Times đã kiện OpenAI và Microsoft, cáo buộc hai hãng công nghệ này sử dụng trái phép các tác phẩm của họ để tạo ra các sản phẩm cạnh tranh.

“Tờ The New York Times không cho phép sử dụng các tác phẩm của chúng tôi cho mục đích tìm kiếm tạo sinh hay đào tạo AI mà không có thỏa thuận bằng văn bản rõ ràng, bất kể chúng tôi có chặn hoặc hạn chế bất kỳ bot nào thu thập nội dung của chúng tôi hay không”, Charlie Stadtlander, phát ngôn viên của The New York Times, tuyên bố.

Trong đơn kiện OpenAI và Microsoft, The New York Times đã đề cập đến vấn đề các công cụ tìm kiếm ngày càng được trang bị AI và có thể làm giảm lưu lượng truy cập vào những nhà xuất bản tin tức.

“Các bị đơn sử dụng chỉ mục tìm kiếm Bing của Microsoft, sao chép và phân loại nội dung trực tuyến của The New York Times, để tạo ra các phản hồi chứa các đoạn trích chính xác và tóm tắt bài viết trên The New York Times dài và chi tiết hơn nhiều so với các công cụ tìm kiếm truyền thống. Bằng cách cung cấp nội dung The New York Times mà không có sự cho phép hoặc ủy quyền của The New York Times, các công cụ của bị đơn đã làm suy yếu và tổn hại mối quan hệ giữa The Times với độc giả của mình. Qua đó khiến The Times mất doanh thu từ đăng ký, cấp phép, quảng cáo và liên kết”, The New York Times viết trong đơn kiện.

new-york-times-va-nhieu-trang-tin-tuc-hang-dau-khac-chan-searchgpt-cua-openai-thu-thap-du-lieu-tim-kiem.jpg
Một số nhà xuất bản tin tức hàng đầu không muốn liên quan đến SearchGPT, công cụ tìm kiếm mới dựa trên AI của OpenAI - Ảnh: Internet

Hôm 25.7, OpenAI ra mắt SearchGPT, công cụ tìm kiếm sử dụng AI với khả năng truy cập thông tin từ internet theo thời gian thực, tiến vào lĩnh vực do Google thống trị.

Động thái này cũng đặt OpenAI vào cuộc cạnh tranh với nhà đầu tư lớn nhất của mình là Microsoft với công cụ tìm kiếm Bing và dịch vụ mới nổi Perplexity (chatbot AI tập trung vào tìm kiếm được nhà sáng lập Amazon - Jeff Bezos và gã không lồ chip Nvidia hậu thuẫn).

OpenAI cho biết đã mở đăng ký SearchGPT, đang trong giai đoạn nguyên mẫu và được thử nghiệm với một nhóm nhỏ người dùng cùng nhà xuất bản. Công ty có kế hoạch tích hợp các tính năng tốt nhất từ SearchGPT vào ChatGPT trong tương lai.

"Các công cụ hỗ trợ AI từ OpenAI và Perplexity tái khẳng định tìm kiếm là mô hình tương tác nội dung, gây áp lực buộc Google phải làm tốt hơn trong lĩnh vực mà hãng thống trị", nhà phân tích Kingsley Crane từ hãng Canaccord Genuity nhận xét.

Google chiếm ưu thế trong thị trường công cụ tìm kiếm với 91,1% thị phần tính đến tháng 6, theo hãng phân tích web Statcounter. SearchGPT sẽ cung cấp các kết quả tìm kiếm tóm tắt với liên kết nguồn để trả lời truy vấn của người dùng, OpenAI cho biết trong một bài đăng trên blog. Người dùng cũng có thể đặt câu hỏi tiếp theo và nhận được các phản hồi theo ngữ cảnh.

OpenAI sẽ cung cấp cho các nhà xuất bản công cụ để quản lý cách nội dung của họ xuất hiện trong kết quả SearchGPT. News Corp và The Atlantic là hai trong các đối tác xuất bản của SearchGPT.

SearchGPT báo hiệu sự hợp tác chặt chẽ hơn giữa các nhà xuất bản và OpenAI, sau khi "cha đẻ ChatGPT" đạt thỏa thuận được cấp phép nội dung với các hãng thông tấn lớn như Associated Press, News Corp và Axel Springer.

"Các nhà cung cấp công cụ tìm kiếm mới hỗ trợ AI có thể gặp những thách thức riêng, với Perplexity phải đối mặt với hành động pháp lý đang chờ xử lý từ những nhà xuất bản như Wired và Forbes và Condé Nast", Kingsley Crane nói.

Các công cụ tìm kiếm lớn đã cố gắng tích hợp AI vào tìm kiếm kể từ khi ChatGPT trình làng vào tháng 11.2022. Thông qua khoản đầu tư hơn 10 tỉ USD vào OpenAI, Microsoft đã áp dụng công nghệ của công ty này cho công cụ tìm kiếm Bing. Trong khi Google đã triển khai tính năng AI cho công cụ tìm kiếm từ hội nghị nhà phát triển I/O của mình vào tháng 5.

Google không trả lời khi Reuters đề nghị bình luận về tác động tiềm tàng từ SearchGPT với hoạt động kinh doanh của mình.

Cuối tháng 5, OpenAI ký thỏa thuận với News Corp, công ty chủ quản của tờ The Wall Street Journal. Thỏa thuận này cho phép OpenAI sử dụng nội dung từ hơn 12 ấn phẩm của News Corp trong các sản phẩm của họ.

Theo đó, các dịch vụ của OpenAI sẽ có thể hiển thị tin tức từ The Wall Street Journal, Barron's, MarketWatch và các ấn phẩm khác thuộc News Corp.

News Corp là tập đoàn truyền thông đa quốc gia khổng lồ có trụ sở tại Mỹ, sở hữu danh mục đầu tư khổng lồ gồm các tờ báo, tạp chí, trang web, dịch vụ phát thanh truyền hình, dịch vụ bất động sản kỹ thuật số…

Thỏa thuận này diễn ra trong bối cảnh OpenAI đã ký kết thỏa thuận với các công ty truyền thông nổi tiếng ở Mỹ và châu Âu những tuần trước đó, gồm cả Financial Times, Dotdash Meredith và nền tảng truyền thông xã hội Reddit, để hiển thị và được cấp phép nội dung.

"News Corp sẽ chia sẻ chuyên môn để giúp đảm bảo các tiêu chuẩn báo chí cao nhất có mặt trên các dịch vụ của OpenAI", theo thông cáo báo chí thông báo về thỏa thuận.

Theo hãng tin Bloomberg, thỏa thuận này có thể trị giá hơn 250 triệu USD trong 5 năm.

“Chúng tôi tin rằng đây là một thỏa thuận lịch sử sẽ đặt ra các tiêu chuẩn mới về tính xác thực, đạo đức và giá trị trong thời đại kỹ thuật số”, Robert Thomson, Giám đốc điều hành News Corp, cho biết.

“Mối quan hệ hợp tác của chúng tôi với News Corp là một dấu mốc đáng tự hào cho ngành báo chí và công nghệ”, Sam Altman, Giám đốc điều hành của OpenAI, tuyên bố.

Ngày càng nhiều cơ quan báo chí đồng ý hợp tác với OpenAI khi công ty này tìm kiếm nội dung để đào tạo các hệ thống AI của mình, song một số nhà xuất bản khác lại phản đối, trong đó có New York Times.

Bài liên quan
Cựu nhân viên nói OpenAI đang 'đóng tàu Titanic, cần thêm xuồng cứu sinh'
Một cựu nhân viên OpenAI cho biết công ty đang theo bước White Star Line, công ty đã đóng tàu Titanic.

(0) Bình luận
Nổi bật Một thế giới
Điểm mới của lễ trao Giải thưởng Sách quốc gia lần thứ 7
1 giờ trước Văn hóa
Ngày 22.11, Ban tổ chức Giải thưởng Sách quốc gia lần thứ 7 tổ chức họp báo thông tin về lễ trao giải sẽ diễn ra vào ngày 29.11 tại Nhà hát lớn Hà Nội.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
New York Times và nhiều trang tin tức hàng đầu chặn SearchGPT của OpenAI thu thập dữ liệu tìm kiếm