Với khả năng tạo video chân thực từ văn bản, Sora đã mang đến nhiều đồn đoán về bí mật đằng sau hiệu suất ấn tượng của nó.
Xie Saining tại Đại học New York, một trong hai nhà phát triển DiT, đã tweet rằng “dữ liệu có thể là yếu tố quan trọng nhất cho sự thành công của Sora”. Ông ước tính rằng Sora có thể có khoảng 3 tỉ tham số.
Ông viết: “Nếu đúng thì đây không phải là kích thước mô hình phi lý. Nó có thể gợi ý rằng việc đào tạo Sora có thể không yêu cầu nhiều GPU như người ta dự đoán. Tôi hy vọng sẽ có những cải tiến rất nhanh trong tương lai”.
Vài tháng trước khi Sora ra mắt, một nhóm nhà nghiên cứu đã phát hành VBench, công cụ đo điểm chuẩn cho các mô hình tạo video, được thiết kế để đánh giá hiệu suất Gen-2 của hãng Runway (Mỹ) và Pika. Trong số 16 chiều, Gen-2 nổi bật ở các lĩnh vực gồm chất lượng hình ảnh và chất lượng thẩm mỹ, nhưng lại yếu ở dải động và kiểu dáng bề ngoài. Pika, được đồng sáng lập bởi ứng cử viên tiến sĩ Guo Wenjing (người Trung Quốc) tại Đại học Stanford (Mỹ), giỏi nhất về tính nhất quán của nền và hiện tượng nhấp nháy theo thời gian nhưng cần cải thiện về chất lượng hình ảnh.
Nhóm phát triển VBench, bao gồm các nhà nghiên cứu từ Đại học Công nghệ Nanyang (Singapore) và Phòng thí nghiệm AI Thượng Hải (Trung Quốc), nhận thấy Sora vượt trội về chất lượng video tổng thể so với các mô hình khác, dựa trên các video demo do OpenAI cung cấp. Có rất ít thông tin về cách Sora chuyển lời gợi ý văn bản thành video.
Lu Yanxia, Giám đốc nghiên cứu về công nghệ mới nổi của IDC Trung Quốc, nói gã khổng lồ công nghệ Baidu, Alibaba và Tencent sẽ là những công ty đầu tiên triển khai các dịch vụ tương tự ở nước này. Bà cho biết những công ty AI Trung Quốc như iFlyTek, SenseTime và Hikvision (tất cả đều bị Mỹ trừng phạt) cũng sẽ tham gia cuộc đua.
Tuy nhiên theo các nhà phân tích, Trung Quốc vẫn phải đối mặt với trận chiến khó khăn khi thị trường công nghệ nước này ngày càng trở nên tách biệt với thế giới về vốn, phần cứng, dữ liệu và thậm chí cả con người.
Khoảng cách vốn hóa thị trường giữa các hãng công nghệ hàng đầu Trung Quốc so với các công ty ở Mỹ như Microsoft, Google và Nvidia đã bị mở rộng đáng kể những năm gần đây, kể từ khi Bắc Kinh quyết định hạn chế sức mạnh của Big Tech với lý do kiềm chế "mở rộng vốn vô lý".
Dù Trung Quốc từng được coi là có lợi thế về số lượng dữ liệu, Lu Yanxia cho biết nước này hiện đối mặt với sự khan hiếm dữ liệu chất lượng cần thiết để đào tạo các mô hình mới này, lại gặp thêm khó khăn từ việc bị hạn chế tiếp cận chip AI tiên tiến.
Theo Lu Yanxia, thiếu nhân tài là mối lo ngại khác vì những người giỏi nhất và sáng giá nhất trong lĩnh vực AI của Trung Quốc thường dễ dàng tỏa sáng hơn khi làm việc cho những công ty hàng đầu ở Mỹ.
Ví dụ, tại OpenAI, các chuyên gia công nghệ có nền tảng giáo dục từ Trung Quốc là một nhóm chủ chốt. Trong số 1.677 thành viên liên kết của OpenAI trên mạng xã hội LinkedIn, 23 người trong số họ từng học tại Đại học Thanh Hoa (Trung Quốc), tổ chức giáo dục đại học phổ biến thứ 9 trong số các nhân viên của công ty khởi nghiệp Mỹ này, vượt qua cả Đại học Cambridge và Đại học Yale.
Đại học Stanford, Đại học California, Berkeley và Viện Công nghệ Massachusetts là ba tổ chức giáo dục hàng đầu trong số các nhân viên OpenAI, với 88, 80 và 59 người lần lượt liệt kê các trường đó trên hồ sơ LinkedIn của họ.
Song ngay cả khi có những tài năng cần thiết, các chuyên gia vẫn đặt câu hỏi liệu AI tạo sinh của Trung Quốc có thể tiến xa đến đâu khi phải đối mặt với những hạn chế hiện có từ căng thẳng thương mại Mỹ -Trung.
Hãng dịch vụ tài chính Ping An Securities cảnh báo rằng các hạn chế xuất khẩu chất bán dẫn tiếp tục từ Mỹ “có thể đẩy nhanh sự trưởng thành của ngành công nghiệp chip AI ở Trung Quốc, nhưng các lựa chọn thay thế trong nước có thể không như mong đợi”.
Chính quyền Biden đã chặn các công ty Trung Quốc tiếp cận các công cụ bán dẫn tiên tiến nhất thế giới thông qua các hạn chế với các sản phẩm liên quan, gồm bất kỳ công nghệ nào có nguồn gốc từ Mỹ. Vào tháng 10.2023, Mỹ lại thắt chặt những hạn chế, ngăn các công ty Trung Quốc mua vài mẫu GPU mà Nvidia từng thiết kế đặc biệt cho khách hàng quốc gia châu Á này.
Alexander Harrowell, nhà phân tích chính về điện toán tiên tiến tại nhóm cố vấn và nghiên cứu công nghệ Omdia, lưu ý rằng Trung Quốc có các lựa chọn khác ngoài GPU Nvidia để đào tạo mô hình ngôn ngữ lớn. “Bạn có thể sử dụng TPU (bộ xử lý Tensor) của Google, Ascend của Huawei, Trainium của Amazon Web Services hoặc một trong số ít chip của các công ty khởi nghiệp”, ông nói.
Song việc thay thế GPU phải trả giá. Alexander Harrowell cho biết: “Càng rời xa hướng đi dựa trên GPU, bạn sẽ càng phải tốn nhiều công sức hơn trong việc phát triển phần mềm và quản trị hệ thống”.
Theo Xu Liang (doanh nhân AI ở Hàng Châu), cũng sẽ có những cơ hội dành riêng cho thị trường Trung Quốc. Ông nói: “Với việc xuất bản báo cáo kỹ thuật về Sora và các mô hình video nguồn mở sắp ra mắt, sẽ có nền tảng để người chơi Trung Quốc học hỏi”. Ông nói thêm rằng các mô hình tạo video từ văn bản địa phương sẽ hỗ trợ tốt hơn cho ngôn ngữ Trung Quốc.
Giáo sư Wang Shuyi tại Đại học Sư phạm Thiên Tân lưu ý rằng một trong những video demo của Sora có cảnh con rồng Trung Quốc đang nhảy múa, mà ông cho là mô tả mang tính khuôn mẫu về hoạt động này. Ông nói nhiều nhóm dân tộc, truyền thống dân gian, phong tục và sự đa dạng về địa lý của Trung Quốc cung cấp rất nhiều tài liệu cho các mô hình tạo video địa phương để phục vụ tốt hơn cho người dùng trong nước.
Wang Shuyi cũng bác bỏ ý kiến rằng có một "khoảng cách không vượt qua được" giữa AI của Trung Quốc và Mỹ.
"Liệu các công ty Trung Quốc có muốn chỉ theo đuổi và sản xuất những bản sao mỗi khi đối thủ Mỹ tung ra sản phẩm mới lạ, hay họ muốn đặt ra mục tiêu lớn hơn để theo đuổi AI tổng quát (AGI) an toàn?", Wang Shuyi đặt câu hỏi.
AGI là một AI siêu thông minh, tiên tiến đến mức có thể làm được nhiều việc ngang bằng hoặc tốt hơn con người. AGI cũng có thể tự cải thiện, tạo ra một vòng phản hồi vô tận với khả năng vô hạn.