Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

Giáo sư kinh tế kinh ngạc vì ChatGPT từ điểm D đạt điểm A ở bài kiểm tra chỉ sau 3 tháng

Sơn Vân | 26/03/2023, 23:59

Giáo sư Bryan Caplan kinh ngạc trước sự tiến bộ của ChatGPT vì cải thiện điểm số từ D lên A trong bài kiểm tra kinh tế học của ông chỉ sau 3 tháng.

Bryan Caplan, giáo sư kinh tế tại Đại học George Mason (Mỹ), nói với trang Insider rằng phiên bản mới nhất của ChatGPT có thể khiến ông thua món đặt cược lớn nhất từng tham gia.

GPT-3.5 không hiểu lý thuyết cơ bản

Viết trong một bài đăng trên blog vào tháng 1, Bryan Caplan nói đã đặt ra các câu hỏi cho ChatGPT, lúc đó hoạt động dựa trên mô hình ngôn ngữ GPT-3.5, từ kỳ thi giữa kỳ mùa thu của mình.

Bryan Caplan nói các câu hỏi trong bài thi này nhằm mục đích kiểm tra sự hiểu biết của sinh viên về kinh tế học, thay vì yêu cầu họ thuộc lòng sách giáo khoa hoặc được xem như các bài tập về trí nhớ.

Phiên bản cũ của ChatGPT đã gặp vấn đề khi chỉ đạt điểm 31/100 trong bài kiểm tra, tương đương điểm D.

Bryan Caplan nói với Insider rằng ChatGPT không hiểu các khái niệm cơ bản, chẳng hạn nguyên tắc lợi thế so sánh và lợi thế tuyệt đối. Ông nói các câu trả lời của ChatGPT cũng mang tính chính trị hơn là kinh tế.

“ChatGPT đã làm rất tốt việc bắt chước một sinh viên kinh tế Đại học George Mason rất yếu”, Bryan Caplan viết trong bài đăng trên blog vào tháng 1 của mình.

Bryan Caplan không phải là học giả duy nhất thất vọng với ChatGPT. Dù ChatGPT vượt qua kỳ thi Trường Kinh doanh Wharton (Mỹ) vào tháng 1, giáo sư trường này cho biết chatbot của OpenAI mắc những lỗi đáng ngạc nhiên trong các phép tính đơn giản.

Cuộc đánh cược lớn

Bryan Caplan thích cá cược. Trước đây, ông đã đặt cược 23 món công khai và thắng tất cả. Các món cược với số tiền khiêm tốn khoảng 100 USD và thường liên quan đến các chủ đề kỹ thuật như dự đoán tỷ lệ thất nghiệp, chỉ số lạm phát.

Bryan Caplan cũng suýt thắng một vụ cá cược năm 2008 rằng không quốc gia thành viên nào sẽ rời Liên minh châu Âu (EU) trước năm 2020: Vương quốc Anh rời Liên minh châu Âu vào tháng 1.2020.

Bryan Caplan từng rất thất vọng về các câu trả lời của ChatGPT đến nỗi ông đã đánh cược rằng một mô hình trí tuệ nhân tạo (AI) sẽ không đạt điểm A trên 6/7 bài kiểm tra của ông trước năm 2029.

Thế nhưng khi GPT-4 được phát hành, Bryan Caplan sốc trước sự tiến bộ của nó. Nó đạt 73% trong cùng một bài kiểm tra giữa kỳ, tương đương với điểm A và nằm trong số những điểm cao nhất trong lớp của ông.

ChatGPT-4 đạt 73% trong bài kiểm tra kinh tế của Giáo sư Bryan Caplan

Hoạt động dựa trên mô hình ngôn ngữ GPT-4, bản nâng cấp của ChatGPT (ChatGPT-4 hiện có tính pí) đã khắc phục một số vấn đề ban đầu trong GPT-3.5. Theo tuyên bố của OpenAI, điều này bao gồm làm cho GPT có khả năng phản hồi chính xác hơn 40% và xử lý các chỉ dẫn tinh vi hơn.

Với Bryan Caplan, những cải tiến là rõ ràng. ChatGPT-4 trả lời rõ ràng các câu hỏi của ông, hiểu các nguyên tắc mà trước đây chatbot này gặp khó khăn. GPT-4 cũng đạt điểm tuyệt đối khi giải thích và đánh giá các khái niệm do các nhà kinh tế học như Paul Krugman đưa ra.

"Điều duy nhất tôi muốn nói là nó có vẻ tốt hơn rất nhiều", Bryan Caplan nói.

Bryan Caplan cho rằng dữ liệu đào tạo ChatGPT có thể đã chọn bài đăng trên blog trước đây của ông, nơi ông giải thích câu trả lời. Thế nhưng, các đồng nghiệp nói với Bryan Caplan rằng điều này rất khó xảy ra.

Bryan Caplan nói rằng đã đưa cho ChatGPT-4 những bài kiểm tra mới mà nó chưa từng thấy trước đó. Kết quả là ChatGPT-4 đạt được điểm tốt hơn cả với mức điểm 73% trước đó.

"Tôi đã rất tự mãn trong nhận định của mình và không còn tự mãn nữa", Bryan Caplan nói.

Bryan Caplan tự tin hơn rằng sẽ thắng cá cược liên quan đến AI lần tới. Ông có một vụ cá cược với Eliezer Yudkowsky, người có quan điểm bi quan về AI và từng tranh luận với Giám đốc điều hành OpenAI - Sam Altman rằng AI sẽ dẫn đến sự tận diệt của thế giới trước ngày 1.1.2030.

“Tôi sẵn sàng để tham gia vào nhiều hơn những vụ cá cược về AI liên quan đến sự tận diệt của thế giới, bởi tôi nghĩ những người này đã hoàn toàn mất trí”, Bryan Caplan cho hay. Điều này đồng nghĩa ông không tin AI dẫn đến sự tận diệt của thế giới.

Khó kiểm tra

Các chatbot AI khiến các giám khảo phải đau đầu. Các giáo sư nói với trang Insider rằng khó có thể chứng minh hành vi đạo văn với tài liệu từ ChatGPT vì không có bằng chứng cụ thể về hành vi về việc vi phạm quyền sở hữu trí tuệ.

Bryan Caplan nói rằng đang nghĩ đến việc loại bỏ bài tập về nhà được chấm điểm sau sự trỗi dậy của ChatGPT. Ông hy vọng thói quen thay đổi câu hỏi thường xuyên sẽ đủ để ngăn sinh viên tái sử dụng câu trả lời của ChatGPT trong một bài kiểm tra.

Nhiều cải tiến đáng giá của GPT-4

Theo OpenAI, GPT-4 tiên tiến hơn trong ba lĩnh vực chính: Tính sáng tạo, đầu vào trực quan và ngữ cảnh dài hơn. Về khả năng sáng tạo, OpenAI nói GPT-4 tốt hơn nhiều trong cả việc tạo và cộng tác với người dùng trong các dự án sáng tạo. Ví dụ về những điều này gồm âm nhạc, kịch bản, viết kỹ thuật và thậm chí là “học phong cách viết của người dùng”.

GPT-4 hiện có thể xử lý tối đa 25.000 từ văn bản từ người dùng. Bạn thậm chí có thể gửi cho GPT-4 một liên kết web và yêu cầu nó tương tác với văn bản từ trang đó. OpenAI cho biết điều này có thể hữu ích cho việc tạo nội dung dài cũng như “các cuộc hội thoại mở rộng”.

GPT-4 hiện cũng có thể nhận hình ảnh làm cơ sở để tương tác. Trong ví dụ trên trang web GPT-4, mô hình ngôn ngữ mới được cung cấp hình ảnh của một số nguyên liệu làm bánh và được hỏi có thể làm gì với chúng.

Theo OpenAI, công ty đã dành 6 tháng để tinh chỉnh GPT-4 theo hướng an toàn và phù hợp hơn.

OpenAI cho biết GPT-4 được đào tạo với phản hồi của con người để đạt được những bước tiến này, đồng thời tuyên bố đã làm việc với “hơn 50 chuyên gia để có phản hồi sớm trong các lĩnh vực bao gồm an toàn và bảo mật AI”.

Sam Altman, Giám đốc điều hành OpenAI, cho biết mô hình ngôn ngữ mới được cải tiến theo hướng sáng tạo hơn và ít thiên vị hơn so với bản trước đó. Ông nhấn mạnh đây là công nghệ AI tiên tiến chưa từng có, được đào tạo bằng cách sử dụng phản hồi của con người kết hợp công nghệ học sâu (deep learning).

GPT-4 có khả năng xử lý đa phương thức đầu vào, gồm cả hình ảnh, giúp người dùng tương tác với nhiều chế độ.

Sam Altman nói GPT-4 có hàng loạt khả năng mà các hệ thống AI hiện chưa thể đạt được. Cụ thể hơn, GPT-4 có thể đạt 1.410 điểm trong kỳ thi SAT - một trong những kỳ thi chuẩn hóa cho việc đăng ký vào một số đại học tại Mỹ; đạt 4 hoặc 5 trong thang điểm 5 của các kỳ thi nâng cao (AP) ở các bộ môn Lịch sử Nghệ thuật, Sinh học, Giải tích và Hóa học - số điểm đủ cao để nhận được tín chỉ đại học.

GPT-4 đã đánh bại 90% số người tham gia để vượt qua kỳ thi sát hạch trở thành luật sư, vượt 99% học sinh thi Olympic Sinh học. GPT-4 cũng đạt điểm cao nhất trong ít nhất 34 bài kiểm tra khác nhau trong các lĩnh vực như kinh tế vĩ mô, viết bài, Toán học hay thậm chí nội dung về nghiên cứu rượu vang.

Hơn nữa, OpenAI tuyên bố GPT-4 có thể lập trình bằng nhiều loại ngôn ngữ khác nhau, tạo kịch bản nội dung tùy theo yêu cầu, trả lời câu hỏi phức tạp cũng như tương tác với hình ảnh. Với khả năng tạo văn bản nhiều hơn 8 lần so với GPT-3.5, OpenAI cho biết mô hình ngôn ngữ mới có thể được sử dụng như một công cụ giảng dạy cho sinh viên.

Bài liên quan

CEO Be My Eyes: GPT-4 có thể giúp các công ty phục vụ tốt cộng đồng người mù

Trí tuệ nhân tạo (AI) phát triển đã thúc đẩy nhiều công ty đầu tư và sử dụng công nghệ để cải tiến sản phẩm, dịch vụ của họ. Giám đốc điều hành Be My Eyes trình bày cách mà "bước nhảy vọt trong công nghệ" này giúp các công ty hoạt động tốt hơn trong việc cung cấp dịch vụ của họ.

Đọc tiếp

Microsoft xây dựng hệ thống với hơn 10.000 chip Nvidia cho OpenAI để phát triển GPT-4

'GPT-4 ảnh hưởng nhiều đến những người có học thức kiếm được từ 80.000 USD/năm'

Elon Musk lên tiếng trước ý kiến thay Chủ tịch Fed bằng GPT-4

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Tổng Bí thư: KH-CN, đổi mới sáng tạo là con đường duy nhất để đưa đất nước phát triển

5 giờ trước Nhịp đập khoa học

Theo Tổng Bí thư Tô Lâm, phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số là lựa chọn bắt buộc, là con đường duy nhất để đưa đất nước phát triển và nâng cao đời sống cho nhân dân. Phải triển khai thật mạnh để quản trị xã hội tốt hơn và tăng năng suất lao động.

ChatGPT lập kỷ lục mới về lượng người dùng nhờ tính năng tạo ảnh theo phong cách Ghibli

Cơn sốt tạo ảnh trí tuệ nhân tạo (AI) theo phong cách Ghibli bằng ChatGPT đã dẫn đến sự gia...
Quỹ nhà ở quốc gia: Cần có cơ chế ứng ra hoặc cho vay rồi thu về

Ông Lê Văn Bình cho rằng nếu chỉ dùng Quỹ nhà ở quốc gia để xây nhà ở xã hội thì sẽ không đủ...
Chủ tịch VUSTA: Xây dựng năng lượng xanh bền vững cần có sự tham gia của đội ngũ khoa học

Để có thể xây dựng và phát triển ngành năng lượng và điện lực Việt Nam theo hướng bền vững,...

Đừng bỏ lỡ

Cửa hàng ứng dụng của Apple và Google chứa các VPN miễn phí liên kết với tập đoàn Trung Quốc bị Mỹ trừng phạt

1 giờ trước Thế giới số

Phát hiện mới tiết lộ rằng các ứng dụng VNP giúp "duyệt web riêng tư" miễn phí, phổ biến với người dùng Mỹ, có liên kết với Qihoo 360. Đây là tập đoàn bị Mỹ đưa vào danh sách đen vào năm 2020.
Kết quả đề án xây dựng 4.500 phòng học tại TP.HCM chưa đáp ứng mục tiêu đề ra

2 giờ trước Giáo dục

Ngày 1.4, Ban Văn hóa - Xã hội, HĐND TP.HCM có buổi giám sát việc triển khai thực hiện Đề án xây dựng 4.500 phòng học chào mừng kỷ niệm 50 năm Ngày Giải phóng miền Nam thống nhất đất nước.
Các bị cáo trong vụ 'bảo kê' xe quá tải qua Đồng Nai bị đề nghị cao nhất từ 9 - 10 năm tù

2 giờ trước Sự kiện

Chiều 1.4, tại phiên tòa xét xử sơ thẩm đối với các bị cáo trong vụ môi giới hối lộ xảy ra tại Trạm Cảnh sát giao thông Suối Tre, Viện KSND tỉnh Đồng Nai đã đề nghị mức án cho các bị cáo.
Bộ Y tế đình chỉ lưu thông 4 phụ gia thực phẩm vi phạm về nhãn hàng hóa

3 giờ trước Thông tin Y học

Ngày 1.4, Cục An toàn thực phẩm (Bộ Y tế) đã ra thông báo đình chỉ lưu thông 4 loại phụ gia thực phẩm do vi phạm quy định về ghi nhãn hàng hóa.
Các chuyên gia y tế Vinmec sẽ đồng hành chăm sóc sức khỏe tuyển thủ quốc gia

3 giờ trước Thông tin Y học

Vinmec sẽ cử các chuyên gia y tế giàu kinh nghiệm trực tiếp tham gia và đồng hành chăm sóc sức khỏe cho các tuyển thủ trong suốt quá trình tập huấn, thi đấu tại các giải đấu lớn quốc tế.

Mới nhất

ChatGPT lập kỷ lục mới về lượng người dùng nhờ tính năng tạo ảnh theo phong cách Ghibli

1 giờ trước Nhịp đập khoa học

Cơn sốt tạo ảnh trí tuệ nhân tạo (AI) theo phong cách Ghibli bằng ChatGPT đã dẫn đến sự gia tăng kỷ lục về số lượng người dùng chatbot của OpenAI vào tuần trước, khiến máy chủ bị quá tải và tạm thời giới hạn tính năng này.
Quỹ nhà ở quốc gia: Cần có cơ chế ứng ra hoặc cho vay rồi thu về

5 giờ trước Hạ tầng và bất động sản

Ông Lê Văn Bình cho rằng nếu chỉ dùng Quỹ nhà ở quốc gia để xây nhà ở xã hội thì sẽ không đủ nguồn lực, bởi không có quỹ nào đủ lớn để gánh toàn bộ chi phí xây dựng hàng trăm nghìn căn hộ trên cả nước.
Tổng Bí thư: KH-CN, đổi mới sáng tạo là con đường duy nhất để đưa đất nước phát triển

5 giờ trước Nhịp đập khoa học

Theo Tổng Bí thư Tô Lâm, phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số là lựa chọn bắt buộc, là con đường duy nhất để đưa đất nước phát triển và nâng cao đời sống cho nhân dân. Phải triển khai thật mạnh để quản trị xã hội tốt hơn và tăng năng suất lao động.
Bản án nào cho các cựu lãnh đạo tỉnh An Giang ‘tiếp tay’ khai thác cát lậu?

6 giờ trước Theo dòng thời sự

Ngày mai (2.4), Hội đồng xét xử TAND TP.HCM sẽ tuyên án sơ thẩm đối với các bị cáo trong vụ án khai thác cát lậu xảy ra tại Công ty cổ phần Đầu tư Trung Hậu 68 - Tổng 68.
Bộ Tài chính: Khối lượng công việc rất lớn, các đơn vị phải làm việc ngày đêm, cả thứ bảy, Chủ nhật

6 giờ trước Theo dòng thời sự

Thứ trưởng Bộ Tài chính Lê Tấn Cận cho biết, sau khi rà soát văn bản theo định hướng sửa đổi Hiến pháp, Bộ Tài chính cần phải sửa đổi 195 văn bản quy phạm pháp luật. Khối lượng công việc rất lớn, các đơn vị của bộ làm việc không ngơi nghỉ, cả ngày đêm, cả thứ bảy, Chủ nhật.