Jensen Huang: Các nhà đầu tư hiểu sai về tiến bộ AI của DeepSeek khiến Nvidia mất gần 600 tỉ USD một ngày

Nhịp đập khoa học - Ngày đăng : 21:39, 21/02/2025

Các nhà đầu tư đã rút ra kết luận sai lầm từ những tiến bộ của DeepSeek trong lĩnh vực trí tuệ nhân tạo (AI), Jensen Huang - Giám đốc điều hành Nvidia nói tại sự kiện trực tuyến được phát sóng hôm 20.2.
Nhịp đập khoa học

Jensen Huang: Các nhà đầu tư hiểu sai về tiến bộ AI của DeepSeek khiến Nvidia mất gần 600 tỉ USD một ngày

Sơn Vân {Ngày xuất bản}

Các nhà đầu tư đã rút ra kết luận sai lầm từ những tiến bộ của DeepSeek trong lĩnh vực trí tuệ nhân tạo (AI), Jensen Huang - Giám đốc điều hành Nvidia nói tại sự kiện trực tuyến được phát sóng hôm 20.2.

DeepSeek, công ty khởi nghiệp Trung Quốc thuộc sở hữu của quỹ đầu tư High-Flyer, vào tháng 1 đã ra mắt mô hình suy luận mã nguồn mở R1 có hiệu suất mạnh mẽ nhưng được đào tạo với chi phí chỉ bằng một phần nhỏ nguồn vốn so với sản phẩm của các gã khổng lồ công nghệ Mỹ.

Các nhà đầu tư phản ứng với tin tức này bằng cách bán tháo cổ phiếu Nvidia, khiến hãng chip AI số 1 thế giới mất gần 600 tỉ USD vốn hóa thị trường chỉ trong ngày 27.1. Chính Jensen Huang cũng mất gần 20% tài sản ròng của mình trong đợt cổ phiếu Nvidia giảm sâu này. Tuy nhiên sau đó, cổ phiếu Nvidia đã phục hồi phần lớn giá trị bị mất và hiện ở mức 140,11 USD.

Trong cuộc phỏng vấn được ghi hình trước hôm 20.2 tại buổi DDN ra mắt nền tảng phần mềm mới Infinia, Jensen Huang cho rằng phản ứng mạnh mẽ trên thị trường xuất phát từ sự hiểu sai của các nhà đầu tư.

Các nhà đầu tư đặt câu hỏi liệu hàng nghìn tỉ USD chi tiêu cho hạ tầng AI của các tập đoàn công nghệ lớn có thực sự cần thiết hay không, nếu việc huấn luyện mô hình AI yêu cầu ít sức mạnh tính toán hơn.

Là đối tác của Nvidia, DDN (DataDirect Networks) chuyên về lưu trữ dữ liệu và giải pháp hạ tầng dành cho các ứng dụng hiệu suất cao, đặc biệt là trong lĩnh vực AI, khoa học dữ liệu, điện toán hiệu năng cao (HPC) và đám mây doanh nghiệp.

DDN cung cấp các hệ thống lưu trữ được tối ưu hóa để xử lý khối lượng dữ liệu lớn với tốc độ cao, giúp hỗ trợ các mô hình AI, nghiên cứu khoa học, phân tích dữ liệu và các ứng dụng yêu cầu năng lực tính toán mạnh mẽ. Các sản phẩm của DDN thường được sử dụng trong các trung tâm dữ liệu, phòng thí nghiệm nghiên cứu và các hãng công nghệ lớn.

Jensen Huang cho biết ngành công nghiệp này vẫn cần sức mạnh tính toán cho các phương pháp hậu huấn luyện, giúp mô hình AI có thể rút ra kết luận hoặc dự đoán sau khi được huấn luyện.

Khi các phương pháp hậu huấn luyện phát triển và đa dạng hơn, nhu cầu về sức mạnh tính toán từ các chip Nvidia cũng sẽ tăng theo, ông nói thêm.

Jensen Huang nói rằng nhiều nhà đầu tư có quan niệm đơn giản về AI, nghĩ rằng quá trình phát triển mô hình AI chỉ bao gồm hai giai đoạn là huấn luyện trước và suy luận, trong đó suy luận được hiểu là AI chỉ cần nhận câu hỏi và ngay lập tức trả lời. Giám đốc điều hành Nvidia cho rằng quan niệm này là không chính xác.

Suy luận đề cập đến quá trình khi một mô hình AI, sau khi được huấn luyện để nhận diện các mẫu trong tập dữ liệu được chọn lọc, có thể bắt đầu nhận ra các mẫu tương tự trong dữ liệu mới mà nó chưa từng thấy trước đó. Nhờ vậy, mô hình AI có thể suy luận và đưa ra dự đoán tương tự con người.

Jensen Huang nhấn mạnh rằng giai đoạn huấn luyện trước vẫn quan trọng, nhưng hậu huấn luyện mới là "phần quan trọng nhất của trí thông minh" và là nơi AI "học cách giải quyết vấn đề".

Tỷ phú 62 tuổi người Mỹ gốc Đài Loan nói rằng những tiến bộ của DeepSeek đang tiếp thêm năng lượng cho thế giới AI.

"Thật sự vô cùng hào hứng. Năng lượng trên toàn thế giới khi R1 là mã nguồn mở thật đáng kinh ngạc", Jensen Huang nói.

Các đại diện Nvidia trước đó đã nói về phản ứng của thị trường bằng các tuyên bố bằng văn bản với nội dung tương tự, nhưng Jensen Huang chưa đưa ra bình luận công khai nào cho đến sự kiện hôm 20.2.

Ông đã bảo vệ trước những lo ngại ngày càng tăng rằng việc mở rộng quy mô mô hình AI đang gặp khó khăn nhiều tháng qua. Trước khi DeepSeek được nhiều người biết đến, các báo cáo về việc tốc độ cải tiến mô hình AI tại OpenAI chậm lại làm dấy lên nghi ngờ rằng sự bùng nổ AI có thể không thực sự đáp ứng được kỳ vọng, do đó Nvidia sẽ không thể tiếp tục kiếm tiền nhiều như trước.

Vào tháng 11.2024, Jensen Huang khẳng định rằng việc mở rộng quy mô mô hình AI vẫn đang diễn ra mạnh mẽ, chỉ là đã chuyển từ giai đoạn huấn luyện sang giai đoạn suy luận. Hôm 20.2, ông cũng nói rằng các phương pháp hậu huấn luyện "thực sự rất phức tạp" và rằng các mô hình AI sẽ tiếp tục được cải thiện nhờ các phương pháp suy luận mới.

jensen-huang-cac-nha-dau-tu-hieu-sai-ve-tien-bo-ai-cua-deepseek-khien-nvidia-mat-gan-600-ti-usd-mot-ngay.jpg
Ông Jensen Huang thảo luận về phản ứng của các nhà đầu tư với DeepSeek tại sự kiện DDN ra mắt nền tảng phần mềm mới Infinia - Ảnh chụp màn hình

Những bình luận từ Jensen Huang về DeepSeek có thể cho thấy trước phần nào nội dung cuộc báo cáo kết quả kinh doanh đầu tiên của Nvidia trong năm 2025, dự kiến diễn ra vào ngày 26.2. DeepSeek đã trở thành chủ đề được thảo luận nhiều trong các buổi kết quả kinh doanh của các hãng công nghệ, từ Airbnb đến Palantir.

Đối thủ của Nvidia là AMD cũng đã nhận được câu hỏi tương tự vào đầu tháng 2. Lisa Su, Giám đốc điều hành AMD, cho biết DeepSeek đang thúc đẩy sự đổi mới theo hướng "tốt cho việc ứng dụng AI".

DeepSeek sẽ công khai mã nguồn các mô hình AI, tiếp tục cam kết với mã nguồn mở

Hôm 21.2, DeepSeek thông báo sẽ công khai mã nguồn của các mô hình AI của mình, thể hiện cam kết mạnh mẽ hơn với AI mã nguồn mở.

Trong một bài đăng trên mạng xã hội X, DeepSeek cho biết sẽ mở mã nguồn 5 kho lưu trữ mã vào tuần tới, mô tả động thái này là "bước tiến nhỏ nhưng chân thành mà họ sẽ chia sẻ với sự minh bạch hoàn toàn".

Cam kết với mã nguồn mở giúp DeepSeek khác biệt so với hầu hết công ty AI khác tại Trung Quốc, vốn có xu hướng sử dụng mô hình nguồn đóng giống các đối thủ ở Mỹ.

Lương Văn Phong, nhà sáng lập DeepSeek, nói trong một cuộc phỏng vấn với một hãng truyền thông Trung Quốc vào tháng 7.2024 rằng công ty không ưu tiên việc thương mại hóa các mô hình AI của mình và rằng mã nguồn mở có thể mang lại lợi thế về sức mạnh mềm.

Sức mạnh mềm là khả năng một quốc gia, tổ chức hoặc cá nhân gây ảnh hưởng đến người khác thông qua sự hấp dẫn và thuyết phục, thay vì ép buộc hay dùng sức mạnh quân sự, kinh tế. Khái niệm này do Joseph Nye, một nhà khoa học chính trị người Mỹ, đưa ra vào những năm 1990.

"Việc có người khác theo dõi sự đổi mới của bạn mang lại cảm giác về thành tựu rất lớn. Thực tế, mã nguồn mở mang tính văn hóa nhiều hơn là thương mại và việc đóng góp vào nó giúp chúng tôi nhận được sự tôn trọng", Lương Văn Phong nói.

Mã nguồn mà DeepSeek sắp công khai sẽ đóng vai trò như nền tảng hỗ trợ các mô hình AI của công ty trước đây. Chúng từng được phát triển dựa trên những nền tảng mã nguồn mở có sẵn, chẳng hạn Llama của Meta Platforms.

Thông báo này được đưa ra sau khi DeepSeek tiết lộ những ưu tiên phát triển tiếp theo trong một nghiên cứu kỹ thuật mới, với Lương Văn Phong là 1 trong 15 đồng tác giả. Nghiên cứu này tập trung vào Native Sparse Attention (NSA), hệ thống được cho là giúp các mô hình AI xử lý lượng dữ liệu khổng lồ hiệu quả hơn.

Nghiên cứu được DeepSeek công bố hôm 16.1 trên arXiv – diễn đàn trực tuyến dành cho cộng đồng khoa học chuyên nghiệp. Chỉ một ngày sau đó, Lương Văn Phong (40 tuổi) cùng nhiều doanh nhân công nghệ đã tham dự hội thảo do ông Tập Cận Bình chủ trì tại Bắc Kinh, thủ đô Trung Quốc.

Nghiên cứu cho thấy Lương Văn Phong và đội ngũ các nhà khoa học trẻ của DeepSeek đang tiếp tục thúc đẩy giới hạn trong ngành, sau khi công ty đạt bước đột phá với các mô hình AI mã nguồn mở tiên tiến V3 và R1.

“Ngoài thiết kế tối ưu hóa cho phần cứng máy tính hiện đại, NSA giúp tăng tốc suy luận đồng thời giảm chi phí tiền huấn luyện, mà không làm giảm hiệu suất”, theo nghiên cứu.

Ngoài ra, nghiên cứu chỉ ra rằng NSA “sánh ngang hoặc vượt trội” so với các mô hình AI phát triển theo cơ chế “chú ý đầy đủ” (full attention) trên các tiêu chuẩn đánh giá chung, tác vụ ngữ cảnh dài và suy luận dựa trên hướng dẫn.

Cơ sở người dùng của DeepSeek tăng đột biến kể từ tháng 1. Tại Trung Quốc, DeepSeek là dịch vụ chatbot phổ biến nhất tháng 1 với 22,2 triệu người dùng hoạt động hằng ngày, vượt qua con số 16,95 triệu của Douban do ByteDance (công ty mẹ TikTok) phát triển, theo Aicpb.com - trang web chuyên theo dõi các sản phẩm AI.

Sơn Vân