Một số CEO kỳ vọng GPT-5 của OpenAI sẽ tạo nên cuộc cách mạng thay đổi nền kinh tế

Nhịp đập khoa học - Ngày đăng : 06:00, 31/07/2024

Cuộc đua trí tuệ nhân tạo (AI) đang rất sôi động khi OpenAI cạnh tranh với Anthropic, Meta Platforms và Google để tạo ra mô hình AI mạnh mẽ nhất. OpenAI đã tạo ra dấu ấn với việc phát hành mô hình ngôn ngữ lớn GPT-4, GPT-4o và các đối thủ đã cố gắng chạy theo để bắt kịp.

Nhịp đập khoa học

Một số CEO kỳ vọng GPT-5 của OpenAI sẽ tạo nên cuộc cách mạng thay đổi nền kinh tế

Sơn Vân • 31/07/2024 06:00

OpenAI đã làm việc chăm chỉ để phát triển mô hình ngôn ngữ lớn mới nhất của mình, hy vọng nó sẽ đại diện cho sự thay đổi mang tính cách mạng. Công ty được Microsoft hậu thuẫn từng thu hút sự chú ý của công chúng với việc phát hành chatbot AI ChatGPT vào tháng 11.2022.

"Nếu có thể cung cấp công nghệ phù hợp với tầm nhìn đầy tham vọng về những gì AI có thể đạt được, OpenAI sẽ mang lại sự thay đổi đáng kể cho triển vọng của chính mình, cũng như cho nền kinh tế rộng lớn hơn. Nếu không đạt yêu cầu thì có thể là thảm họa", Hamish Low và các nhà phân tích khác tại hãng Enders Analysis viết trong một ghi chú nghiên cứu gần đây.

Enders Analysis là công ty phân tích thị trường, đặc biệt tập trung vào lĩnh vực công nghệ truyền thông. Họ cung cấp các báo cáo nghiên cứu, phân tích sâu về các xu hướng, thị trường và công ty trong ngành công nghệ.

OpenAI tham gia cuộc chiến khốc liệt khi đối mặt với danh sách ngày càng tăng các đối thủ giàu có và chi tiêu lớn. Giữ vị trí dẫn đầu trong lĩnh vực AI là chìa khóa để OpenAI tự chứng minh mình với các nhà tài trợ công nghệ lớn mà hãng phụ thuộc, các nhà phân tích cho biết thêm.

GPT-5 sẽ tốt hơn bao nhiêu?

GPT-5 chắc chắn sẽ mạnh mẽ hơn GPT-4. Song liệu điều đó có đủ để GPT-5 trở nên nổi bật so với hàng loạt các mô hình AI ngày càng ấn tượng khác trong bối cảnh OpenAI dường như đang thua lỗ hàng tỉ USD?

Một số khách hàng tiềm năng của GPT-5 không hoàn toàn chắc chắn điều này.

"Tôi không biết liệu GPT-5 có tạo ra một sự thay đổi lớn hay không", Jake Heller, Giám đốc điều hành và đồng sáng lập Casetext, cho hay. Casetext là hãng công nghệ sử dụng trí AI để cung cấp các công cụ và dịch vụ hỗ trợ cho các luật sư và chuyên gia pháp lý.

Jake Heller đã triển khai GPT-4 cùng những mô hình ngôn ngữ lớn thương mại khác để giúp luật sư xem xét tài liệu, đánh giá hợp đồng và thực hiện vô số nhiệm vụ khác mà thường được các cộng sự mới ra trường làm với mức giá 500 USD/giờ.

Theo Jake Heller, với những nhiệm vụ như vậy, việc chuyển từ GPT-3 sang GPT-4 giống như "trường cấp 1 sang đại học". Đó là sự thay đổi to lớn, mang tính cách mạng. Ông mong đợi GPT-5 sẽ giống như việc chuyển từ đại học lên chương trình tiến sĩ, chắc chắn sẽ tốt hơn nhưng không nhất thiết phải thay đổi thế giới.

Nhiệm vụ nhiều giai đoạn

Hy vọng lớn nhất của Jake Heller là GPT-5 sẽ có khả năng "thực hiện nhiều hành động chủ động hơn", nghĩa là có thể hoàn thành các nhiệm vụ gồm nhiều bước phức tạp mà không bị lạc hướng. Chẳng hạn đọc một tài liệu pháp lý, tham khảo điều luật liên quan, đối chiếu với án lệ, so sánh với bằng chứng, sau đó đưa ra câu hỏi cho việc lấy lời khai.

"Hiện tại, tôi nói rằng các mô hình AI chưa đủ thông minh. Bạn đôi khi thấy nó bị mắc kẹt hoặc chỉ lệch hướng", Jake Heller nói.

Nếu có thể được tin tưởng để tự hành động và đưa ra các quyết định đáng tin cậy về cách xử lý các nhiệm vụ nhiều giai đoạn, GPT-5 có thể thay thế cộng sự mới ra trường trở thành cộng sự năm ba hoặc thậm chí là đối tác. Điều này sẽ làm cho nó trở nên giá trị hơn rất nhiều với những người như Jake Heller.

OpenAI-bat-dau-dao-tao-mo-hinh-AI-tien-tien-moi-huong-toi-AGI-GPT-5-khong-xuat-hien-trong-90-ngay-toipng — GPT-5 chắc chắn sẽ mạnh mẽ hơn GPT-4 - Ảnh: Internet

Cửa sổ ngữ cảnh lớn hơn

Jake Heller cũng mong đợi, GPT-5 sẽ có một cửa sổ ngữ cảnh lớn hơn đáng kể, điều này sẽ cho phép nó xử lý các khối văn bản lớn hơn cùng lúc và so sánh các hợp đồng hoặc tài liệu pháp lý có thể dài hàng trăm trang.

Cửa sổ ngữ cảnh (còn được gọi là bộ nhớ dài) là kỹ thuật được sử dụng trong các mô hình ngôn ngữ lớn để giúp chúng xử lý các yêu cầu phức tạp và tạo ra phản hồi chính xác hơn. Cửa sổ ngữ cảnh hoạt động bằng cách cho phép mô hình AI xem xét một lượng lớn văn bản trước và sau truy vấn của người dùng, giúp nó hiểu rõ hơn về bối cảnh của truy vấn và tạo ra phản hồi phù hợp hơn.

Jake Heller cũng hào hứng về khả năng đa phương tiện của GPT-5, làm việc với âm thanh, video và văn bản.

"Tôi vừa mới nói chuyện với một thẩm phán hôm qua, người đã hỏi khi nào chúng ta có cơ hội để đưa vào mô hình AI các đoạn video từ camera từ cảnh sát hoặc CCTV của hiện trường tội phạm và xem xét chúng làm bằng chứng? Vì vậy, khách hàng chắc chắn đang yêu cầu điều đó", Jake Heller nói.

GPT-5 có đáng giá không?

Hầu hết mọi người đồng ý rằng công nghệ trên GPT-5 sẽ tốt hơn, nhưng câu hỏi quan trọng và ít hấp dẫn hơn là liệu tất cả khả năng mới này có đáng giá để người dùng bỏ thêm chi phí hay không.

"Tôi không muốn thực hiện khoản đầu tư đó trừ khi cảm thấy thật sự thoải mái rằng kinh tế sẽ hợp lý", theo Hooman Radfar, Giám đốc điều hành Collective - nền tảng AI dành cho các doanh nhân tự do. Collective sử dụng AI cho các việc như phân loại chi phí kinh doanh và phân tích tác động thuế.

Hooman Radfar nói rằng ông liên tục so sánh hệ thống nội bộ của mình với các sản phẩm AI thương mại, quyết định khi nào nên tự đào tạo mô hình và khi nào nên mua. Ông cho biết rằng với nhiều nhiệm vụ, các mô hình AI của Collective hoạt động tốt hơn GPT-4 tới 40%.

Tuy nhiên, Hooman Radfar rất mong đợi GPT-5, mà ông nghĩ sẽ có khả năng lý luận cải thiện, không chỉ trả lời chính xác những câu hỏi khó của người dùng mà còn giải thích cách nó có được những câu trả lời đó. Đây là sự khác biệt quan trọng.

Ông cũng đang suy nghĩ về chi phí để vận hành GPT-5.

"Mỗi khi OpenAI đưa ra một mô hình mới, chúng tôi có thể chạy lại các bài kiểm tra của mình và nói: ‘Được rồi, liệu nó đã đạt tiêu chuẩn chưa?’. Nếu nó đạt tiêu chuẩn, câu hỏi tiếp theo là: 'Chi phí mỗi token có hợp lý không?'. Nếu chi phí quá cao hoặc không hợp lý, tôi có thể sẽ chờ phiên bản khác", Hooman Radfar nói. Token là đơn vị dữ liệu được mô hình AI xử lý.

Hiện tại, nhiều người dùng đang chọn các mô hình AI nhỏ hơn, rẻ hơn và các công ty đang ngày càng cạnh tranh về giá cả hơn là hiệu suất. Chưa rõ liệu các khả năng bổ sung của GPT-5 có đủ để thu hút các nhà phát triển quan tâm đến giá cả hay không.

Hôm 18.7, OpenAI đã mắt GPT-4o mini, mô hình AI nhỏ gọn, giá rẻ nhằm mục đích làm cho công nghệ của họ trở nên tiết kiệm hơn và tiêu tốn ít năng lượng hơn, giúp công ty này hướng đến nhóm khách hàng rộng lớn hơn.

OpenAI đang nỗ lực để làm cho việc phát triển các ứng dụng dựa trên mô hình AI của họ trở nên rẻ hơn và nhanh hơn, vào thời điểm mà các đối thủ mạnh về tài chính như Meta Platforms và Google cố gắng chiếm một phần lớn hơn trong thị trường.

GPT-4o mini là bản rút gọn của mô hình AI đa phương thức GPT-4o được OpenAI trình làng vào tháng 5, có khả năng trò chuyện bằng giọng nói thực tế và tương tác qua văn bản lẫn hình ảnh.

Theo OpenAI, GPT-4o mini có giá 15 cent cho mỗi triệu token đầu vào và 60 cent cho mỗi triệu token đầu ra, rẻ hơn 60% so với GPT-3.5 Turbo.

Hiện GPT-4o mini hoạt động tốt hơn GPT-4 về các khả năng trò chuyện. Điều này đồng nghĩa là khi tương tác với cả hai mô hình AI này, người dùng có xu hướng thích câu trả lời và cách trò chuyện của GPT-4o mini hơn so với GPT-4.

GPT-4o mini đạt 82% trên thang điểm Massive Multitask Language Understanding (MMLU). MMLU là chuẩn đánh giá về trí thông minh và lý luận văn bản của các mô hình ngôn ngữ. Điểm MMLU cao hơn cho thấy mô hình có thể hiểu và sử dụng ngôn ngữ tốt hơn trong nhiều lĩnh vực khác nhau, nâng cao khả năng sử dụng trong thực tế.

Theo OpenAI, GPT-4o mini đạt điểm số 82% MMLU so với 77.9% của Gemini Flash từ Google và 73.8% từ Claude Haiku của Anthropic. Các mô hình ngôn ngữ nhỏ hơn yêu cầu ít năng lực tính toán hơn để chạy, khiến chúng trở thành một lựa chọn phải chăng hơn cho các công ty có nguồn lực hạn chế muốn triển khai AI tạo sinh trong hoạt động của họ.

Hiện tại, bạn có thể sử dụng GPT-4o mini để xử lý và làm việc với văn bản và hình ảnh thông qua giao diện lập trình ứng dụng (API). Trong tương lai, OpenAI sẽ mở rộng khả năng của GPT-4o mini để có thể xử lý cả video và âm thanh, không chỉ giới hạn ở văn bản và hình ảnh.

Người dùng ChatGPT miễn phí, Plus và Team có thể truy cập GPT-4o mini (kiến thức cập nhật đến tháng 10.2023) bắt đầu từ ngày 18.7 thay cho GPT-3.5 Turbo. Trong khi người dùng doanh nghiệp có thể truy cập GPT-4o mini một tuần sau đó, OpenAI cho biết.

Sơn Vân