Hợp tác với Đại học Thanh Hoa (Trung Quốc), DeepSeek đã phát triển một kỹ thuật kết hợp hai phương pháp suy luận nhằm định hướng các mô hình trí tuệ nhân tạo (AI) theo sở thích của con người.
Nhịp đập khoa học

DeepSeek tiết lộ phương pháp suy luận AI mới khi nhiều người mong chờ mô hình thế hệ tiếp theo

Sơn Vân 06/04/2025 12:54

Hợp tác với Đại học Thanh Hoa (Trung Quốc), DeepSeek đã phát triển một kỹ thuật kết hợp hai phương pháp suy luận nhằm định hướng các mô hình trí tuệ nhân tạo (AI) theo sở thích của con người.

Công ty khởi nghiệp DeepSeek (Trung Quốc) vừa công bố phương pháp mới nhằm cải thiện khả năng suy luận của các mô hình ngôn ngữ lớn khi công chúng đang chờ R2 ra mắt.

Theo một bài nghiên cứu hợp tác với các nhà nghiên cứu từ Đại học Thanh Hoa, DeepSeek đã phát triển một kỹ thuật kết hợp hai phương pháp có tên mô hình hóa phần thưởng tạo sinh (GRM) và tinh chỉnh phản biện dựa trên nguyên tắc tự đánh giá. Cách tiếp cận kép này nhằm giúp các mô hình ngôn ngữ lớn đưa ra câu trả lời nhanh hơn và tốt hơn cho những truy vấn tổng quát.

Các mô hình DeepSeek-GRM được tạo ra từ nghiên cứu này vượt trội so với những phương pháp hiện có, khi “đạt hiệu suất cạnh tranh” với mô hình phần thưởng công khai mạnh mẽ, theo nhóm nghiên cứu. Mô hình hóa phần thưởng là quá trình giúp hướng dẫn mô hình AI hoạt động theo ưu tiên và sở thích của con người.

Nhóm nghiên cứu cho biết DeepSeek dự định mở mã nguồn các mô hình GRM, nhưng chưa đưa ra mốc thời gian cụ thể.

deepseek-tiet-lo-phuong-phap-suy-luan-ai-moi-khi-nhieu-nguoi-mong-cho-mo-hinh-the-he-tiep-theo.jpg
DeepSeek vừa tiết lộ một phương pháp tiếp cận mới để cải thiện các mô hình AI lý luận - Ảnh: Getty Images

Bài nghiên cứu học thuật này được công bố trên kho lưu trữ khoa học trực tuyến arXiv, giữa lúc xuất hiện tin đồn về bước đi tiếp theo của DeepSeek sau sự chú ý toàn cầu với mô hình nền tảng V3 và mô hình suy luận R1.

Theo hãng tin Reuters, R2 (phiên bản nâng cấp của R1) có thể được ra mắt ngay trong tháng 4 này khi DeepSeek đang nỗ lực tận dụng tên tuổi đang lên. V3 và R1 từng gây chấn động cộng đồng công nghệ toàn cầu vì có hiệu suất ngang các mô hình AI hàng đầu của Mỹ nhưng được DeepSeek đào tạo với chi phí thấp hơn rất nhiều.

Trong một bài viết, DeepSeek tiết lộ đào tạo V3 chỉ bằng 2.048 GPU (bộ xử lý đồ họa) Nvidia H800 trong vòng hai tháng. Đây không phải là loại chip AI hàng đầu của Nvidia. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.

DeepSeek tuyên bố rằng quá trình huấn luyện V3 chỉ tiêu tốn 2,8 triệu giờ GPU với chi phí 5,6 triệu USD, bằng một phần nhỏ thời gian và tiền bạc mà các công ty Mỹ bỏ ra cho các mô hình AI của họ.

DeepSeek vẫn giữ im lặng về tin đồn xoay quanh việc ra mắt R2 và không đưa ra bình luận chính thức về vấn đề này qua các kênh công khai.

DeepSeek cũng không phản hồi câu hỏi của trang SCMP mới đây.

Được thành lập năm 2023 tại thành phố Hàng Châu bởi doanh nhân Lương Văn Phong (40 tuổi), DeepSeek đã nhanh chóng thu hút sự chú ý toàn cầu trong vài tháng gần đây nhưng tránh xuất hiện trước công chúng, chỉ tập trung vào nghiên cứu và phát triển.

Tháng trước, DeepSeek đã nâng cấp mô hình V3 của mình lên phiên bản V3-0324, được quảng bá là có “khả năng suy luận nâng cao, tối ưu hóa phát triển web giao diện người dùng và cải thiện khả năng viết tiếng Trung”.

Vào tháng 2, DeepSeek đã mở mã nguồn năm kho lưu trữ mã của mình, cho phép các nhà phát triển xem xét và đóng góp vào quá trình phát triển phần mềm. Công ty khởi nghiệp này cam kết sẽ đạt được “tiến bộ chân thành với sự minh bạch hoàn toàn”. DeepSeek được các nhà phát triển toàn cầu hoan nghênh, ca ngợi vì tiết lộ các kỹ thuật mà họ sử dụng để xây dựng mô hình R1 hiệu suất cao, chi phí thấp của mình.

Cũng trong tháng 2, Lương Văn Phong đã công bố nghiên cứu kỹ thuật về native sparse attention, phương pháp nhằm tăng hiệu quả xử lý dữ liệu lớn của mô hình ngôn ngữ lớn.

Lương Văn Phong chính là người sáng lập High-Flyer (công ty mẹ DeepSeek). Đây là quỹ đầu cơ định lượng có nguồn tài chính mạnh mẽ đã hỗ trợ đáng kể cho các bước tiến kỹ thuật của DeepSeek.

Cuối tháng 2, Lương Văn Phong cùng các doanh nhân công nghệ khác đã tham dự hội nghị do Chủ tịch Trung Quốc Tập Cận Bình chủ trì tại thủ đô Bắc Kinh, khi DeepSeek được ca ngợi là biểu tượng cho sức mạnh bền bỉ của ngành AI Trung Quốc trong bối cảnh Mỹ nỗ lực kiềm chế sự phát triển AI của nước này.

buoc-di-cua-deepseek-duoc-he-lo-truoc-khi-nha-sang-lap-luong-van-phong-gap-ong-tap-can-binh-1-.jpg
Lương Văn Phong bắt tay Chủ tịch Tập Cận Bình tại hội nghị - Ảnh: Tân Hoa Xã

Thuật toán học tăng cường của ByteDance giúp mô hình AI DeepSeek cải thiện khả năng suy luận phức tạp

Cuối tháng 3, ByteDance đã công bố một hệ thống mới sẽ cải thiện những thành tựu của DeepSeek trong việc đào tạo các mô hình suy luận AI.

Thuật toán học tăng cường DAPO của ByteDance có khả năng mở rộng, giúp mô hình ngôn ngữ lớn đạt được hành vi lý luận phức tạp hơn, chẳng hạn tự kiểm tra và tinh chỉnh lặp đi lặp lại. Thông tin này được công bố trong một nghiên cứu của ByteDance và Viện Nghiên cứu Công nghiệp AI thuộc Đại học Thanh Hoa.

Học tăng cường là phương pháp học máy, trong đó một tác nhân học cách đưa ra quyết định bằng cách tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu của học tăng cường là giúp tác nhân tối đa hóa phần thưởng dài hạn thông qua các hành động mà nó thực hiện trong môi trường.

Thuật toán này đã vượt qua phương pháp học tăng cường GRPO trong mô hình lập luận R1 của DeepSeek. Cụ thể hơn, DAPO đạt 50 điểm trong American Invitational Mathematics Examination 2024 khi sử dụng mô hình Qwen2.5-32B của Alibaba. Trong khi đó, GRPO chỉ đạt 47 điểm với cùng mô hình Qwen2.5-32B của Alibaba, theo kết quả nghiên cứu.

Đáng chú ý, DAPO đạt được kết quả tốt hơn với số bước đào tạo ít hơn một nửa so với GRPO.

GRPO là một trong những phương pháp huấn luyện của DeepSeek, giúp mô hình AI học bằng cách so sánh các hành động khác nhau và cập nhật dựa trên một nhóm quan sát.

American Invitational Mathematics Examination là cuộc thi toán học cấp cao dành cho học sinh trung học ở Mỹ. Đây là vòng thi thứ hai trong hệ thống các kỳ thi Toán học của Mỹ, diễn ra sau khi thí sinh đạt điểm cao trong American Mathematics Competitions.

American Mathematics Competitions là kỳ thi toán học do Hiệp hội Toán học Mỹ tổ chức nhằm phát hiện và bồi dưỡng học sinh có năng khiếu toán.

American Invitational Mathematics Examination là một trong những kỳ thi quan trọng nhất với học sinh giỏi toán muốn tham gia các kỳ thi toán học cấp quốc gia và quốc tế như Olympic Toán học Quốc tế (IMO).

Thành tựu này nhận được nhiều đánh giá tích cực từ giới học thuật và công nghiệp. Kỹ sư Philipp Schmid của Google DeepMind đã chia sẻ dự án trên mạng xã hội X và nhận xét rằng DAPO tốt hơn so với GRPO của DeepSeek trong học tăng cường.

Nhóm nghiên cứu của ByteDance và Đại học Thanh Hoa cũng đã thử nghiệm phương pháp GRPO nhưng đạt kết quả kém hơn DeepSeek 17 điểm trong American Invitational Mathematics Examination. Điều này cho thấy có thể họ chưa nắm được một số kỹ thuật huấn luyện quan trọng trong mô hình R1 của DeepSeek, theo nhóm nghiên cứu. Họ cũng đề xuất bốn kỹ thuật mới để vượt qua DeepSeek.

"Việc minh bạch và hợp tác như thế này mang lại lợi ích cho cộng đồng", Arpit Sharma, trưởng bộ phận hệ sinh thái của công ty hạ tầng đám mây Aethir, chia sẻ trên X.

Tuy nhiên, một số người vẫn hoài nghi. Vitaly Kurin, nhà nghiên cứu cấp cao của Nvidia, đặt câu hỏi trên X liệu việc so sánh số bước huấn luyện có thực sự phù hợp không, vì điều này không đồng nghĩa với việc giảm tổng thời gian huấn luyện.

Dự án DAPO được dẫn dắt bởi thực tập sinh Yu Qiying của ByteDance, người đang theo học tiến sĩ tại Đại học Thanh Hoa. Dự án cũng có sự tham gia của các thực tập sinh khác, gồm cả sinh viên năm thứ tư Tong Yuxuan của Đại học Thanh Hoa và Sheng Guangming (học tiến sĩ tại Đại học Hồng Kông).

ByteDance đang mở rộng các nỗ lực thu hút nhân tài AI hàng đầu trước khi họ tốt nghiệp. Hôm 20.3, đội ngũ mô hình ngôn ngữ lớn của ByteDance đã đăng thông báo tuyển dụng thực tập sinh nghiên cứu, nhắm đến những ứng viên "có niềm tin và đam mê mãnh liệt với công nghệ". Các ứng viên, nếu chưa tốt nghiệp trước tháng 9.2025, có thể làm việc tại nhiều thành phố như Bắc Kinh, Thượng Hải, Singapore cũng như San Jose và Seattle tại Mỹ.

Trước đó, đội ngũ mô hình ngôn ngữ lớn của ByteDance đã tổ chức một cuộc họp nội bộ, trong đó các đồng lãnh đạo Zhu Wenjia và Wu Yonghui (mới gia nhập từ Google) đã tái khẳng định mục tiêu "khám phá giới hạn của AI và cam kết thúc đẩy mã nguồn mở", theo hãng truyền thông nhà nước ChinaStarMarket.

Bài liên quan
Tim Cook ca ngợi DeepSeek trước hội nghị cho nhà phát triển khi Apple Intelligence đang chờ Trung Quốc phê duyệt
Tại Diễn đàn Phát triển Trung Quốc diễn ra ở thủ đô Bắc Kinh, Tim Cook gọi các mô hình trí tuệ nhân tạo (AI) của DeepSeek là "xuất sắc" trong bối cảnh người tiêu dùng nước này đang chờ đợi sự ra mắt của Apple Intelligence.

(0) Bình luận
Nổi bật Một thế giới
Thủ tướng: Mỹ là thị trường lớn nhất, nhưng không phải duy nhất
một giờ trước Thị trường và chính sách
Thủ tướng nêu rõ, Mỹ là thị trường xuất khẩu lớn nhất của Việt Nam, nhưng không phải là duy nhất, đồng thời đây cũng là cơ hội để cơ cấu lại nền kinh tế theo hướng nhanh, bền vững, xanh hóa, số hóa.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
DeepSeek tiết lộ phương pháp suy luận AI mới khi nhiều người mong chờ mô hình thế hệ tiếp theo