GPT-4 vượt qua kỳ thi hội đồng X quang: Tiềm năng và hạn chế của mô hình AI trong y học

Do công ty khởi nghiệp OpenAI (Mỹ) tạo ra, GPT-4, phiên bản mới nhất của mô hình ngôn ngữ lớn làm nền tảng cho ChatGPT hoạt động, được phát hành vào ngày 13.3.

OpenAI tuyên bố rằng GPT-4 tiên tiến hơn trong ba lĩnh vực chính: tính sáng tạo, đầu vào trực quan và ngữ cảnh dài hơn. Theo OpenAI, GPT-4 hoạt động tốt hơn nhiều trong cả việc tạo và cộng tác với người dùng trong các dự án sáng tạo.

Hiện tại, GPT-4 có thể xử lý tối đa 25.000 từ văn bản từ người dùng. Ngay cả khi bạn gửi cho GPT-4 một liên kết web và yêu cầu nó tương tác với văn bản từ trang đó, bạn thậm chí có thể gửi cho GPT-4. Theo OpenAI, điều này có thể hữu ích cho việc tạo nội dung dài và "các cuộc hội thoại mở rộng".

OpenAI tuyên bố rằng mô hình ngôn ngữ mới có thể được sử dụng như công cụ giảng dạy sinh viên vì GPT-4 có khả năng tạo văn bản cao hơn 8 lần so với GPT-3.5.

Theo Sam Altman, Giám đốc điều hành OpenAI, GPT-4 đã được cải tiến theo hướng sáng tạo hơn và ít thiên vị hơn so với bản trước đó. Ông nhấn mạnh rằng đây là công nghệ AI tiên tiến chưa từng có được tạo ra bằng cách sử dụng phản hồi của con người kết hợp công nghệ học sâu.

Sam Altman tuyên bố rằng các hệ thống AI hiện không thể đạt được nhiều khả năng như GPT-4. Cụ thể hơn, GPT-4 có thể đạt điểm số 1.410 điểm trong SAT, một trong những kỳ thi tiêu chuẩn hóa cho việc đăng ký vào các đại học tại Mỹ; đạt điểm 4 hoặc 5 trên thang điểm 5 của các kỳ thi nâng cao (AP) ở các bộ môn Lịch sử Nghệ thuật, Sinh học, Giải tích và học, số điểm đủ cao để nhận được tín chỉ đại học.

GPT-4 đã vượt qua 99% số người tham gia để vượt qua kỳ thi sát hạch trở thành luật sư ở Mỹ và vượt qua 99% học sinh thi Olympic Sinh học. GPT-4 cũng nhận được điểm số cao nhất trong ít nhất 34 bài kiểm tra khác nhau trong các môn học như kinh tế vĩ mô, viết bài, Toán học hoặc thậm chí nội dung về nghiên cứu rượu vang.

Ngoài ra, OpenAI khẳng định rằng GPT-4 sử dụng an toàn hơn đáng kể so với thế hệ trước. Công ty đã dành sáu tháng để tinh chỉnh GPT-4 theo hướng an toàn và phù hợp hơn. OpenAI tuyên bố đã làm việc với "hơn 50 chuyên gia để có phản hồi sớm trong các lĩnh vực an toàn và bảo mật AI" và nói rằng GPT-4 được đào tạo với phản hồi của con người để đạt được những bước tiến này.

GPT-4 đủ thông minh để vượt qua kỳ thi dạng hội đồng X quang, theo nghiên cứu gần đây của Đại học Toronto (Canada).

GPT-4 đã giải quyết chính xác 81% trong số 150 câu hỏi trắc nghiệm của kỳ thi. Tuy nhiên, nghiên cứu được công bố trên Radiology, tạp chí của Hiệp hội X quang Bắc Mỹ (RSNA), cũng tìm thấy các thiếu sót của GPT-4.

Rajesh Bhayana nói với đài Fox News Digital rằng một bác sĩ X quang thực hiện ba nhiệm vụ khi phân tích hình ảnh y tế: "Tìm kiếm những phát hiện, sử dụng suy luận nâng cao để hiểu ý nghĩa của những phát hiện này, sau đó truyền đạt cho bệnh nhân và các bác sĩ khác." Bà là bác sĩ X quang và giám đốc bộ phận công nghệ tại Đại học Hình ảnh Y khoa Toronto thuộc Bệnh viện Đa khoa Toronto ở Canada.

Phần lớn các nghiên cứu về AI trong X quang đều tập trung vào thị giác máy tính, nhưng các mô hình ngôn ngữ như GPT thực chất đang thực hiện bước thứ hai và thứ ba (suy luận nâng cao và các nhiệm vụ ngôn ngữ). Theo Rajesh Bhayana, nghiên cứu của chúng tôi cung cấp cái nhìn sâu sắc về khả năng của GPT trong lĩnh vực X quang, làm nổi bật tiềm năng đáng kinh ngạc của các mô hình ngôn ngữ lớn, cùng với những hạn chế hiện tại khiến nó không đáng tin cậy.

Theo phong cách, nội dung và độ khó của kỳ thi Đại học Hoàng gia Canada và Hội đồng X quang Hoa Kỳ, các nhà nghiên cứu đã tạo ra các câu hỏi. Các nhà nghiên cứu chỉ giới hạn ở những câu hỏi dựa trên văn bản vì ChatGPT không chấp nhận hình ảnh.

GPT-3,5 và GPT-4 là hai phiên bản GPT được cung cấp các câu hỏi khác nhau.

gpt-4-vuot-qua-ky-thi-hoi-dong-x-quang(1).jpg — Phiên bản mới nhất của GPT đủ thông minh để vượt qua kỳ thi kiểu hội đồng chụp X quang - Ảnh: iStock

Cải thiện rõ rệt trong suy luận nâng cao

Phiên bản GPT-3.5 đã trả lời đúng 69% câu hỏi (104 trên 150), gần đạt mức 70% yêu cầu của Đại học Hoàng gia Canada.

GPT-3.5 gặp khó khăn nhất khi giải quyết các vấn đề liên quan đến suy luận nâng cao, chẳng hạn như cách mô tả các phát hiện hình ảnh.

GPT-4 giải quyết chính xác 81% (121 trên 150) câu hỏi tương tự, vượt quá ngưỡng 70%. Phiên bản mới của GPT làm tốt hơn nhiều trong việc trả lời các câu hỏi suy luận nâng cao.

Theo Rajesh Bhayana, mục tiêu của nghiên cứu là xem GPT hoạt động như thế nào trong lĩnh vực X quang, cả về suy luận nâng cao và kiến thức cơ bản. GPT-4 thể hiện sự hiểu biết được cải thiện về ngữ cảnh của ngôn ngữ dành riêng cho X quang và hoạt động rất tốt trong cả hai lĩnh vực này. Điều này rất quan trọng để cho phép các công cụ tiên tiến hơn mà các bác sĩ X quang có thể sử dụng hiệu quả hơn.

Các nhà nghiên cứu đã rất ngạc nhiên trước sự cải thiện rõ rệt của GPT-4 về khả năng suy luận nâng cao so với GPT-3,5.

Theo Rajesh Bhayana, "Những phát hiện của chúng tôi làm nổi bật tiềm năng ngày càng tăng của các mô hình ngôn ngữ quan trọng này trong X quang và các lĩnh vực y học khác."

Tiến sĩ Harvey Castro, chuyên khoa y học khẩn cấp được chứng nhận tại thành phố Dallas (bang Texas, Mỹ) và là diễn giả quốc gia về AI trong chăm sóc sức, không tham gia vào nghiên cứu mà thay vào đó đã xem xét các phát hiện.

Ông khẳng định với Fox News Digital rằng "Bước nhảy vọt về hiệu suất từ GPT-3,5 lên GPT-4 có thể là do tập dữ liệu đào tạo mở rộng hơn và sự nhấn mạnh vào việc học tăng cường từ con người." Ông giải thích rằng bằng cách sử dụng kiến thức tích hợp sẵn hiệu quả hơn, GPT-4 có thể diễn giải, hiểu và sử dụng nó.

Việc sử dụng phản hồi và hướng dẫn từ con người để cải thiện hiệu suất của mô hình ngôn ngữ lớn được gọi là học tăng cường từ con người.

Theo Harvey Castro, để đạt điểm cao hơn trong bài kiểm tra tiêu chuẩn không phải lúc nào cũng đòi hỏi nhiều kiến thức hơn về một chủ đề y tế như X quang.

Theo ông, "Điều đó cho thấy GPT-4 nhận dạng mô hình tốt hơn dựa trên lượng thông tin khổng lồ mà nó đã được huấn luyện".

Tác giả chính của nghiên cứu mới cho biết: “Những phát hiện của chúng tôi làm nổi bật tiềm năng của các mô hình ngôn ngữ lớn trong X quang cũng như trong các lĩnh vực y học khác” - Ảnh: Getty Images

Tương lai của mô hình ngôn ngữ lớn trong chăm sóc sức

Theo nhiều chuyên gia công nghệ y tế, bao gồm cả Rajesh Bhayana, các mô hình ngôn ngữ lớn như GPT-4 sẽ thay đổi cách con người tương tác với công nghệ nói chung và cụ thể hơn là với y học.

"Chúng đã được tích hợp vào các công cụ tìm kiếm như Google, hồ sơ y tế điện tử như Epic và phần mềm chuyển đổi giọng nói thành văn bản trong lĩnh vực y tế như Nuance. Tuy nhiên, Rajesh Bhayana nói với Fox News Digital rằng có nhiều ứng dụng tiên tiến hơn của những công cụ này sẽ cải thiện việc chăm sóc sức hơn nữa.

Rajesh Bhayana trong tương lai dự đoán rằng những mô hình ngôn ngữ lớn này có thể giải quyết chính xác các câu hỏi của bệnh nhân, hỗ trợ bác sĩ đưa ra chẩn đoán và đưa ra các quyết định điều trị.

Rajesh Bhayana, người tập trung vào X quang, dự đoán rằng mô hình ngôn ngữ lớn có thể tăng cường khả năng của các bác sĩ và hỗ trợ họ làm việc hiệu quả hơn.

Tuy nhiên, cô ấy nói, "Các mô hình ngôn ngữ lớn không đủ tin cậy để sử dụng cho thực hành lâm sàng, nhưng chúng tôi đang đi đúng hướng một cách nhanh chóng."

Hạn chế của mô hình ngôn ngữ lớn trong y học

Theo Harvey Castro, không có khả năng giải thích dữ liệu hình ảnh có thể là hạn chế lớn nhất đối với mô hình ngôn ngữ lớn trong X quang.

Theo Rajesh Bhayana, các mô hình ngôn ngữ lớn như GPT cũng được biết đến với xu hướng "ảo giác", cung cấp thông tin không chính xác một cách rất tự tin.

"Các mô hình không đủ tin cậy để sử dụng cho thực hành lâm sàng. Theo Rajesh Bhayana, những ảo giác này giảm trong GPT-4 so với GPT-3.5 nhưng vẫn xảy ra quá thường xuyên để có thể sử dụng trong thực hành lâm sàng.

Theo Rajesh Bhayana, "Các bác sĩ và bệnh nhân nên nhận thức được những điểm mạnh và hạn chế của các mô hình ngôn ngữ lớn này, bao gồm cả việc biết rằng chúng không thể được coi là nguồn thông tin duy nhất hiện nay."

Theo Harvey Castro, mặc dù các mô hình ngôn ngữ lớn có thể có đủ kiến thức để vượt qua các bài kiểm tra, nhưng chúng không thể so sánh với tầm quan trọng của bác sĩ trong việc xác định chẩn đoán bệnh nhân và lập kế hoạch điều trị.

Ông nói: "Các bài kiểm tra tiêu chuẩn, bao gồm cả chẩn đoán hình ảnh, thường tập trung vào các trường hợp như trong giáo trình. Tuy nhiên, trong thực hành lâm sàng, bệnh nhân hiếm khi gặp các triệu chứng như trong giáo trình.

Theo Harvey Castro, mỗi bệnh nhân có các triệu chứng, tiền sử và các yếu tố cá nhân riêng biệt có thể khác với các trường hợp "tiêu chuẩn".

"Sự phức tạp này thường đòi hỏi khả năng phán đoán và đưa ra quyết định tinh tế. Theo ông, đây là khả năng mà AI, bao gồm cả các mô hình tiên tiến như GPT-4, thiếu hụt.

Mặc điểm số được cải thiện của GPT-4 là đáng khích lệ, Harvey Castro cho biết còn nhiều việc phải làm để đảm bảo rằng các công cụ AI chính xác, an toàn và có giá trị trong môi trường lâm sàng thực tế.

Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống

Tham gia bình luận

Tin cùng chuyên mục Xem tất cả

NASA phát hiện 'công trình bí ẩn' trên sao Hỏa?

Thử nghiệm liệu pháp tế bào gốc mới điều trị bệnh Parkinson

Trung Quốc sản xuất hàng loạt robot hình người siêu thực làm bạn đồng hành

Iran phát triển hệ thống điều trị ung thư chi phí thấp bằng công nghệ xung điện

Phát hiện thú vị về cà phê ngon nhờ cốc đựng