Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

GPT-4 vượt qua kỳ thi hội đồng X quang: Tiềm năng và hạn chế của mô hình AI trong y học

Sơn Vân | 25/05/2023, 17:03

GPT-4 hơn GPT-3.5 đến 12 điểm %, nhưng chuyên gia chỉ ra hạn chế của AI trong phán đoán.

Do công ty khởi nghiệp OpenAI (Mỹ) phát triển, GPT-4 là phiên bản mới nhất mô hình ngôn ngữ lớn làm nền tảng cho ChatGPT hoạt động, ra mắt vào ngày 13.3.

Theo OpenAI, GPT-4 tiên tiến hơn trong ba lĩnh vực chính: Tính sáng tạo, đầu vào trực quan và ngữ cảnh dài hơn. OpenAI nói GPT-4 tốt hơn nhiều trong cả việc tạo và cộng tác với người dùng trong các dự án sáng tạo.

GPT-4 hiện có thể xử lý tối đa 25.000 từ văn bản từ người dùng. Bạn thậm chí có thể gửi cho GPT-4 một liên kết web và yêu cầu nó tương tác với văn bản từ trang đó. OpenAI cho biết điều này có thể hữu ích cho việc tạo nội dung dài cũng như “các cuộc hội thoại mở rộng”.

GPT-4 với khả năng tạo văn bản nhiều hơn 8 lần so với GPT-3.5 nên OpenAI cho biết mô hình ngôn ngữ mới có thể được sử dụng như công cụ giảng dạy sinh viên.

Sam Altman, Giám đốc điều hành OpenAI, cho biết GPT-4 được cải tiến theo hướng sáng tạo hơn và ít thiên vị hơn so với bản trước đó. Ông nhấn mạnh đây là công nghệ AI tiên tiến chưa từng có, được đào tạo bằng cách sử dụng phản hồi của con người kết hợp công nghệ học sâu.

Theo Sam Altman, GPT-4 có hàng loạt khả năng mà các hệ thống AI hiện chưa thể đạt được. Cụ thể hơn, GPT-4 có thể đạt 1.410 điểm trong kỳ thi SAT - một trong những kỳ thi tiêu chuẩn hóa cho việc đăng ký vào các đại học tại Mỹ; đạt 4 hoặc 5 trong thang điểm 5 của các kỳ thi nâng cao (AP) ở các bộ môn Lịch sử Nghệ thuật, Sinh học, Giải tích và Hóa học - số điểm đủ cao để nhận được tín chỉ đại học.

GPT-4 đã đánh bại 90% số người tham gia để vượt qua kỳ thi sát hạch trở thành luật sư ở Mỹ, vượt 99% học sinh thi Olympic Sinh học. GPT-4 cũng đạt điểm cao nhất trong ít nhất 34 bài kiểm tra khác nhau trong các lĩnh vực như kinh tế vĩ mô, viết bài, Toán học hay thậm chí nội dung về nghiên cứu rượu vang.

Ngoài ra, OpenAI cũng cho biết GPT-4 sử dụng an toàn hơn đáng kể so với thế hệ trước. Công ty đã dành 6 tháng để tinh chỉnh GPT-4 theo hướng an toàn và phù hợp hơn. OpenAI cho biết GPT-4 được đào tạo với phản hồi của con người để đạt được những bước tiến này, đồng thời tuyên bố đã làm việc với “hơn 50 chuyên gia để có phản hồi sớm trong các lĩnh vực bao gồm an toàn và bảo mật AI”.

Theo nghiên cứu mới đây của Đại học Toronto (Canada), GPT-4 đủ thông minh để vượt qua kỳ thi dạng hội đồng X quang.

Cụ thể hơn, GPT-4 đã trả lời đúng 81% trong số 150 câu hỏi trắc nghiệm ở kỳ thi. Thế nhưng, nghiên cứu được công bố trên Radiology, tạp chí của Hiệp hội X quang Bắc Mỹ (RSNA), cũng phát hiện ra các thiếu sót của GPT-4.

"Khi phân tích hình ảnh y khoa, một bác sĩ X quang thực hiện ba việc: Tìm kiếm những phát hiện, sử dụng suy luận nâng cao để hiểu ý nghĩa của những phát hiện này, sau đó truyền đạt cho bệnh nhân và các bác sĩ khác", Rajesh Bhayana nói với đài Fox News Digital. Bà là bác sĩ X quang và lãnh đạo bộ phận công nghệ tại Đại học Hình ảnh Y khoa Toronto thuộc Bệnh viện Đa khoa Toronto ở Canada.

"Hầu hết các nghiên cứu về AI trong X quang đều tập trung vào thị giác máy tính, nhưng các mô hình ngôn ngữ như GPT thực chất đang thực hiện bước hai và ba (suy luận nâng cao và các nhiệm vụ ngôn ngữ). Nghiên cứu của chúng tôi cung cấp cái nhìn sâu sắc về khả năng của GPT trong lĩnh vực X quang, làm nổi bật tiềm năng đáng kinh ngạc của các mô hình ngôn ngữ lớn, cùng những hạn chế hiện tại khiến nó không đáng tin cậy", Rajesh Bhayana chia sẻ thêm.

Những nhà nghiên cứu đã tạo ra các câu hỏi theo phong cách, nội dung và độ khó của kỳ thi Đại học Hoàng gia Canada và Hội đồng X quang Mỹ. Vì ChatGPT chưa chấp nhận hình ảnh nên các nhà nghiên cứu chỉ giới hạn ở những câu hỏi dựa trên văn bản.

Các câu hỏi được đặt ra cho hai phiên bản GPT khác nhau: GPT-3.5 và GPT-4.

gpt-4-vuot-qua-ky-thi-hoi-dong-x-quang(1).jpg — Phiên bản mới nhất của GPT đủ thông minh để vượt qua kỳ thi kiểu hội đồng chụp X quang - Ảnh: iStock

Cải thiện rõ rệt trong suy luận nâng cao

Theo kết quả nghiên cứu, phiên bản GPT-3.5 đã trả lời đúng 69% câu hỏi (104 trên 150), gần đạt mức 70% theo yêu cầu của Đại học Hoàng gia Canada.

GPT-3.5 gặp khó khăn nhất với các câu hỏi liên quan đến suy luận nâng cao, chẳng hạn như mô tả các phát hiện hình ảnh.

GPT-4 trả lời đúng 81% (121 trên 150) câu hỏi tương tự, vượt quá ngưỡng 70%. Phiên bản mới của GPT làm tốt hơn nhiều trong việc trả lời các câu hỏi suy luận nâng cao.

Rajesh Bhayana cho biết: “Mục đích của nghiên cứu là để xem GPT hoạt động như thế nào trong lĩnh vực X quang – cả về suy luận nâng cao và kiến thức cơ bản. GPT-4 hoạt động rất tốt trong cả hai lĩnh vực này và thể hiện sự hiểu biết được cải thiện về ngữ cảnh của ngôn ngữ dành riêng cho X quang. Điều này rất quan trọng để cho phép các công cụ tiên tiến hơn mà các bác sĩ X quang có thể sử dụng trở nên hiệu quả hơn”.

Các nhà nghiên cứu đã rất ngạc nhiên trước sự cải thiện rõ rệt của GPT-4 về khả năng suy luận nâng cao so với GPT-3.5.

Rajesh Bhayana nói: “Những phát hiện của chúng tôi làm nổi bật tiềm năng ngày càng tăng của các mô hình ngôn ngữ lớn này trong X quang cũng như các lĩnh vực y học khác”.

Tiến sĩ Harvey Castro, chuyên khoa y học khẩn cấp được chứng nhận tại thành phố Dallas (bang Texas, Mỹ) và là diễn giả quốc gia về AI trong chăm sóc sức khỏe, không tham gia vào nghiên cứu nhưng đã xem xét các phát hiện.

Ông nói với Fox News Digital: "Bước nhảy vọt về hiệu suất từ GPT-3.5 lên GPT-4 có thể là nhờ tập dữ liệu đào tạo mở rộng hơn và sự nhấn mạnh vào việc học tăng cường từ con người. Khóa đào tạo mở rộng này cho phép GPT-4 diễn giải, hiểu và sử dụng kiến thức tích hợp sẵn hiệu quả hơn".

Học tăng cường từ con người đề cập đến việc sử dụng phản hồi và hướng dẫn từ con người để cải thiện hiệu suất của mô hình ngôn ngữ lớn.

Song theo Harvey Castro, để đạt điểm cao hơn trong bài kiểm tra tiêu chuẩn không nhất thiết đồng nghĩa với hiểu biết sâu sắc hơn về một chủ đề y tế như X quang.

Ông nói: “Điều đó cho thấy GPT-4 nhận dạng mô hình tốt hơn dựa trên lượng thông tin khổng lồ mà nó đã được huấn luyện”.

Tác giả chính của nghiên cứu mới cho biết: “Những phát hiện của chúng tôi làm nổi bật tiềm năng của các mô hình ngôn ngữ lớn trong X quang cũng như trong các lĩnh vực y học khác” - Ảnh: Getty Images

Tương lai của mô hình ngôn ngữ lớn trong chăm sóc sức khỏe

Nhiều chuyên gia công nghệ y tế, gồm cả Rajesh Bhayana, tin rằng các mô hình ngôn ngữ lớn như GPT-4 sẽ thay đổi cách con người tương tác với công nghệ nói chung và cụ thể hơn là trong y học.

"Chúng đã được tích hợp vào các công cụ tìm kiếm như Google, hồ sơ y tế điện tử như Epic và phần mềm chuyển giọng thành văn bản trong lĩnh vực y tế như Nuance. Thế nhưng có nhiều ứng dụng tiên tiến hơn của những công cụ này sẽ biến đổi việc chăm sóc sức khỏe hơn nữa", Rajesh Bhayana nói với Fox News Digital.

Trong tương lai, Rajesh Bhayana tin rằng những mô hình ngôn ngữ lớn này có thể trả lời chính xác các câu hỏi của bệnh nhân, giúp bác sĩ đưa ra chẩn đoán và hướng dẫn các quyết định điều trị.

Tập trung vào X quang, Rajesh Bhayana dự đoán rằng mô hình ngôn ngữ lớn có thể giúp nâng cao khả năng của các bác sĩ và giúp họ làm việc hiệu quả hơn.

Tuy nhiên, bà nhận xét: “Các mô hình ngôn ngữ lớn chưa đủ tin cậy để sử dụng cho thực hành lâm sàng, nhưng chúng tôi đang đi đúng hướng một cách nhanh chóng”.

Hạn chế của mô hình ngôn ngữ lớn trong y học

Có lẽ hạn chế lớn nhất của mô hình ngôn ngữ lớn trong X quang là không có khả năng giải thích dữ liệu hình ảnh, một khía cạnh quan trọng, Harvey Castro nói.

Rajesh Bhayana chỉ ra rằng các mô hình ngôn ngữ lớn như GPT cũng được biết đến với xu hướng "ảo giác", cung cấp thông tin không chính xác theo cách rất tự tin.

"Các mô hình chưa đủ tin cậy để sử dụng cho thực hành lâm sàng. Những ảo giác này giảm trong GPT-4 so với GPT-3.5, nhưng vẫn xảy ra quá thường xuyên để có thể sử dụng trong thực hành lâm sàng", Rajesh Bhayana nói.

Rajesh Bhayana nói thêm: “Các bác sĩ và bệnh nhân nên nhận thức được những điểm mạnh và hạn chế của các mô hình ngôn ngữ lớn này, gồm cả việc biết rằng chúng không thể được coi là nguồn thông tin duy nhất hiện nay”.

Harvey Castro cho rằng dù các mô hình ngôn ngữ lớn có thể có đủ kiến thức để vượt qua các bài kiểm tra, nhưng không thể sánh kịp bác sĩ khi xác định chẩn đoán của bệnh nhân và lập kế hoạch điều trị.

Ông nói: “Các kỳ thi tiêu chuẩn, gồm cả chẩn đoán hình ảnh, thường tập trung vào các trường hợp như trong giáo trình. Thế nhưng trong thực hành lâm sàng, bệnh nhân hiếm khi xuất hiện các triệu chứng như ở giáo trình".

Harvey Castro cho biết mỗi bệnh nhân có các triệu chứng, tiền sử và các yếu tố cá nhân riêng biệt có thể khác với các trường hợp "tiêu chuẩn".

"Sự phức tạp này thường đòi hỏi khả năng phán đoán và ra quyết định tinh tế. Đây là khả năng mà AI, gồm cả các mô hình tiên tiến như GPT-4, đang thiếu", ông nhận định.

Dù điểm số được cải thiện của GPT-4 là đầy hứa hẹn, Harvey Castro cho biết còn nhiều việc phải làm để đảm bảo rằng các công cụ AI chính xác, an toàn và có giá trị trong môi trường lâm sàng thực tế.

Bài liên quan

Rộ tin GPT-5 đạt đến khả năng không tưởng, ra mắt cuối năm 2023

Tin đồn đang lan truyền cho biết GPT-5 có thể đạt đến giai đoạn đào tạo cuối cùng vào tháng 12.2023.

Đọc tiếp

Giám đốc nghiên cứu Microsoft mất ngủ vài tuần vì GPT-4

Sau bức thư ngỏ của hơn 1.800 chuyên gia, CEO OpenAI bác tin đang huấn luyện GPT-5

Microsoft thêm bản nâng cấp AI đáng giá cho ChatGPT và Bing để cạnh tranh với Google

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Thủ tướng: Hợp tác kinh tế với Mỹ trên nguyên tắc hai bên cùng có lợi

6 giờ trước Thị trường và chính sách

Chiều 5.4, Thủ tướng Chính phủ Phạm Minh Chính chủ trì họp Thường trực Chính phủ và lãnh đạo các bộ ngành, cơ quan Trung ương về hợp tác kinh tế, thương mại cân bằng, bền vững với Mỹ; triển khai thông điệp cuộc điện đàm giữa Tổng Bí thư Tô Lâm với Tổng thống Mỹ Donald Trump sau khi Mỹ công bố chính sách thuế quan mới.

Thủ tướng: 2030-2045 Việt Nam phải phát triển được công nghiệp đường sắt

Thủ tướng cho biết mục tiêu là đến năm 2030-2045 phải phát triển được công nghiệp đường sắt...
'Vũ khí' mới cho cuộc chiến chống ung thư và đại dịch: Chất tăng cường vắc xin mạnh nhất thế giới

Miễn dịch tăng cường giải quyết thách thức "chặng đường cuối" trong việc đưa vắc xin đến đúng...
Hải quan và Biên phòng Mỹ hướng dẫn thực thi thuế đối ứng, thủy sản Việt lưu ý rủi ro đặc thù

Hải quan và Biên phòng Mỹ (CBP) ban hành hướng dẫn về thuế bổ sung theo Lệnh hành pháp ngày...

Đừng bỏ lỡ

Bộ trưởng Tài chính Mỹ: Chứng khoán Mỹ mất 5.400 tỉ USD 2 ngày là vấn đề của Mag 7, không phải do thuế từ ông Trump

5 giờ trước Thế giới số

Sự sụt giảm này liên quan nhiều hơn đến sự xuất hiện của công ty trí tuệ nhân tạo DeepSeek (Trung Quốc) trong năm nay hơn là các chính sách kinh tế từ Tổng thống Donald Trump, Bộ trưởng Tài chính Mỹ Scott Bessent nói, cho thấy ít lo ngại về đà lao dốc hiện tại.
TP.HCM yêu cầu quận huyện tạm dừng sửa chữa, nâng cấp trụ sở làm việc

7 giờ trước Theo dòng thời sự

Chủ tịch UBND TP.HCM Nguyễn Văn Được vừa ban hành công văn yêu cầu tạm dừng triển khai các công trình, dự án sửa chữa, cải tạo, nâng cấp trụ sở làm việc trong khi sắp xếp bộ máy theo Kết luận 126 và 127 của Bộ Chính trị, Ban Bí thư.
Hội đồng Anh nâng cao kỹ năng xanh cho thanh niên ĐBSCL ứng phó biến đổi khí hậu

8 giờ trước Giáo dục

Biến đổi khí hậu đang là mối quan tâm hàng đầu của giới trẻ toàn cầu. Trước thách thức này, nhiều quốc gia đã nhận thức rõ vai trò của giáo dục, nghệ thuật và văn hóa trong việc định hình tư duy và hành động ứng phó với biến đổi khí hậu một cách hiệu quả và bền vững.
Sán dây dài gần 1m trú ngụ trong ruột chàng trai mê ăn món tái

9 giờ trước Thông tin Y học

Sau khi phát hiện sán chui ra từ hậu môn trong lúc ngủ và cảm thấy đau bụng vùng thượng vị, tiêu chảy kéo dài, cơ thể mệt mỏi, chán ăn, thanh niên ở Long An phải tìm đến bác sĩ.
Chuyến tàu đặc biệt chở đoàn diễu binh thực hiện nhiệm vụ A50 về đến ga Biên Hòa

12 giờ trước Sự kiện

Sáng 5.4, chuyến tàu đặc biệt của Bộ Quốc phòng đã chở những cán bộ chiến sĩ của các khối diễu binh, diễu hành từ Hà Nội đã về đến ga Biên Hòa (Đồng Nai).

Mới nhất

Thủ tướng: Hợp tác kinh tế với Mỹ trên nguyên tắc hai bên cùng có lợi

6 giờ trước Thị trường và chính sách

Chiều 5.4, Thủ tướng Chính phủ Phạm Minh Chính chủ trì họp Thường trực Chính phủ và lãnh đạo các bộ ngành, cơ quan Trung ương về hợp tác kinh tế, thương mại cân bằng, bền vững với Mỹ; triển khai thông điệp cuộc điện đàm giữa Tổng Bí thư Tô Lâm với Tổng thống Mỹ Donald Trump sau khi Mỹ công bố chính sách thuế quan mới.
Thủ tướng: 2030-2045 Việt Nam phải phát triển được công nghiệp đường sắt

10 giờ trước Nhịp đập khoa học

Thủ tướng cho biết mục tiêu là đến năm 2030-2045 phải phát triển được công nghiệp đường sắt (làm chủ sản xuất toa xe, đầu máy và hệ sinh thái liên quan công nghiệp đường sắt…).
'Vũ khí' mới cho cuộc chiến chống ung thư và đại dịch: Chất tăng cường vắc xin mạnh nhất thế giới

10 giờ trước Nhịp đập khoa học

Miễn dịch tăng cường giải quyết thách thức "chặng đường cuối" trong việc đưa vắc xin đến đúng nơi, có thể thay đổi cục diện trong cuộc chiến chống ung thư và đại dịch, theo các nhà khoa học.
Hải quan và Biên phòng Mỹ hướng dẫn thực thi thuế đối ứng, thủy sản Việt lưu ý rủi ro đặc thù

11 giờ trước Kinh tế - đầu tư - dự án

Hải quan và Biên phòng Mỹ (CBP) ban hành hướng dẫn về thuế bổ sung theo Lệnh hành pháp ngày 2.4.2025. Quy định có hiệu lực từ 12 giờ 1 phút sáng (giờ EDT) ngày 5.4.2025.
Thủ tướng nghiêm khắc phê bình 19 bộ, địa phương về giải ngân vốn đầu tư công

15 giờ trước Tài chính và đầu tư

Thủ tướng Chính phủ nghiêm khắc phê bình 19 bộ, cơ quan trung ương và 28 địa phương đến ngày 15.3.2025 chưa phân bổ chi tiết hết kế hoạch vốn đầu tư công nguồn ngân sách nhà nước năm 2025 đã được giao.