GPT-4 vượt trội hầu hết sinh viên trong kỳ thi trở thành luật sư, chuyên gia nói gì?

Công ty khởi nghiệp OpenAI đã nâng cấp GPT-4, mô hình trí tuệ nhân tạo (AI) và phát hành vào ngày 14.3, đã đạt 297 điểm trong bar exam. Hai giáo sư luật và hai nhân viên hãng công nghệ pháp lý Casetext đã tiến hành thử nghiệm này.

Kỳ thi cấp bằng luật sư được gọi là Bar exam được tổ chức tại Hoa Kỳ và một số quốc gia khác trên thế giới. Sau khi sinh viên tốt nghiệp đại học và hoàn thành chương trình đào tạo luật sư tại trường luật, kỳ thi này thường được tổ chức.
Một trong những kỳ thi khó nhất ở Mỹ, bar exam đánh giá kiến thức và tư duy, bao gồm các bài luận và bài kiểm tra hiệu suất được tạo ra để mô phỏng công việc pháp lý với các câu hỏi trắc nghiệm. Thí sinh phải đạt điểm đủ cao để được cấp giấy phép hành nghề luật sư và được thực hiện tại tiểu bang hoặc khu vực mà họ muốn hoạt động.

Theo các nhà nghiên cứu, điều này đặt GPT-4 vào trường hợp có khoảng 90% thí sinh thi thực tế và đủ để được hành nghề luật ở phần lớn các bang của Hoa Kỳ.

Các tác giả nghiên cứu viết: "Bằng cách giải quyết các nhiệm vụ phức tạp đòi hỏi kiến thức pháp lý sâu rộng, khả năng đọc hiểu và viết”.

Chưa đầy bốn tháng trước, hai trong số các nhà nghiên cứu đã kết luận rằng mô hình ngôn ngữ lớn trước đó của OpenAI, GPT-3.5 mà ChatGPT dựa vào để hoạt động, không đạt được điểm vượt qua bar exam, cho thấy công nghệ này đang cải thiện nhanh như thế nào.

GPT-4 đã trả lời đúng gần 76% số câu hỏi trắc nghiệm của bar exam, tăng từ khoảng 50% với GPT-3.5, vượt trội hơn 7% so với người làm bài thi.

Tuy nhiên, Hội nghị Giám khảo Luật sư Quốc gia Mỹ, nơi thiết kế phần trắc nghiệm, nói hôm 15.3 rằng các luật sư có những kỹ năng đặc biệt sở hữu được thông qua giáo dục và kinh nghiệm mà "AI hiện không thể sánh bằng."

Daniel Martin Katz, giáo sư tại Đại học Luật Chicago-Kent, đồng tác giả nghiên cứu, cho biết trong một cuộc phỏng vấn rằng ông ngạc nhiên nhất về khả năng của GPT-4 trong việc đưa ra các câu trả lời bài luận và bài kiểm tra hiệu suất mạch lạc, phần lớn có liên quan đến câu hỏi.

"Chà, nó có thể làm được bài trắc nghiệm, nhưng không bao giờ có thể làm được các bài luận, theo những gì tôi đã nghe rất nhiều người nói. Daniel Martin Katz cho hay.

Kỳ thi luật sư đã thu hút được nhiều sự chú ý hơn bất chấp thực tế là AI đã thể hiện tốt trong các bài thi tiêu chuẩn hóa khác, chẳng hạn như SAT và GRE. Khi công bố mô hình ngôn ngữ mới này vào ngày 14 tháng 3, OpenAI đã quảng cáo điểm đỗ bar exam của GPT-4 là 297 điểm.

Các câu hỏi trong bài thi đều giống nhau, thời gian dành cho mỗi người làm bài là như nhau và cách chấm điểm là như nhau cho tất cả. Bài thi chuẩn hóa được cung cấp một cách rất nhất quán.
Đối với các cuộc thi tuyển sinh đại học trong hệ thống giáo dục Mỹ, SAT là một bài đánh giá năng lực được chuẩn hóa.
GRE là một bài kiểm tra được sử dụng trong quá trình tuyển sinh của các trường đại học Hoa Kỳ.

Theo Sean Silverman, gia sư luyện thi luật sư, nhiều người đang chú ý đến bar exam do độ khó được công nhận rộng rãi của nó. Trong số những người dự thi đã học trường luật ba năm, tỷ lệ vượt qua lần đầu tiên ở kỳ thi cấp phép luật sư năm nay là 78%.

Theo Sean Silverman, mọi người có thể ít ấn tượng hơn khi biết rằng AI có thể vượt qua bài kiểm tra được tạo ra cho học sinh trung học, chẳng hạn như SAT, "chứ không phải là bài thi để trở thành luật sư."

gpt-4-vuot-troi-hau-het-sinh-vien-tot-nghiep-o-ky-thi-tro-thanh-luat-su.jpg — Theo các nhà nghiên cứu, kết quả của kỳ thi bar exam cho thấy rằng GPT-4 có thể phù hợp với luật sư con người.

Sam Altman, Giám đốc điều hành OpenAI, đã tuyên bố trong sự kiện công bố GPT-4 ngày 14.3 rằng mô hình ngôn ngữ mới được cải tiến theo hướng sáng tạo hơn và ít thiên vị hơn so với bản trước đó. Ông nhấn mạnh rằng đây là công nghệ AI tiên tiến chưa từng có được đào tạo bằng cách sử dụng phản hồi của con người kết hợp công nghệ học sâu (deep learning).

Người dùng có thể tương tác với nhiều chế độ khác nhau nhờ khả năng xử lý đa phương thức đầu vào, bao gồm cả hình ảnh của GPT-4. Tính năng chưa từng có trước đây, được đánh giá là cho phép người dùng có thêm chọn để sáng tạo, bao gồm việc chấp nhận hình ảnh đầu vào và xuất ra văn bản.

Theo Sam Altman, các hệ thống AI hiện chưa thể đạt được nhiều khả năng như GPT-4. Cụ thể hơn, GPT-4 có thể đạt 1.410 điểm trong kỳ thi SAT; đạt 4 hoặc 5 trong thang điểm 5 của các kỳ thi nâng cao (AP) ở các bộ môn Lịch sử Nghệ thuật, Sinh học, Giải tích và học - số điểm đủ cao để nhận được tín chỉ đại học.

GPT-4 đã vượt qua 99% số người tham gia để vượt qua kỳ thi sát hạch trở thành luật sư, tương đương 99% học sinh thi Olympic Sinh học. GPT-4 cũng nhận được điểm số cao nhất trong ít nhất 34 bài kiểm tra khác nhau trong các môn học như kinh tế vĩ mô, viết bài, Toán học hoặc thậm chí nội dung về nghiên cứu rượu vang.

Ngoài ra, OpenAI khẳng định rằng GPT-4 có thể lập trình bằng nhiều ngôn ngữ khác nhau, tạo kịch bản nội dung theo yêu cầu, trả lời câu hỏi phức tạp và tương tác với hình ảnh. OpenAI cho biết mô hình ngôn ngữ mới có thể được sử dụng như một công cụ giảng dạy cho sinh viên với khả năng tạo văn bản cao hơn 8 lần so với GPT-3.5.

OpenAI tuyên bố rằng GPT-4 tiên tiến hơn trong ba lĩnh vực chính: tính sáng tạo, đầu vào trực quan và ngữ cảnh dài hơn. OpenAI khẳng định rằng GPT-4 có nhiều khả năng sáng tạo hơn nhiều trong cả việc tạo và cộng tác với người dùng trong các dự án. Âm nhạc, kịch bản, viết kỹ thuật và thậm chí "học phong cách viết của người dùng" là một vài ví dụ về những điều này.

Hiện tại, GPT-4 có thể xử lý tối đa 25.000 từ văn bản từ người dùng. Ngay cả khi bạn gửi cho GPT-4 một liên kết web và yêu cầu nó tương tác với văn bản từ trang đó, bạn thậm chí có thể gửi cho GPT-4. Theo OpenAI, điều này có thể hữu ích cho việc tạo nội dung dài và "các cuộc hội thoại mở rộng".

GPT-4 có thể chấp nhận ảnh làm cơ sở để tương tác. Mô hình ngôn ngữ mới trên trang web GPT-4 cung cấp hình ảnh của một số nguyên liệu làm bánh và được hỏi có thể làm gì với chúng.

Ngoài ra, OpenAI đã tuyên bố rằng GPT-4 sử dụng an toàn hơn đáng kể so với thế hệ trước. Theo đại diện của OpenAI, công ty đã dành sáu tháng để tinh chỉnh GPT-4 theo hướng an toàn và phù hợp hơn.

OpenAI tuyên bố đã làm việc với "hơn 50 chuyên gia để có phản hồi sớm trong các lĩnh vực như an toàn và bảo mật AI" và nói rằng GPT-4 được đào tạo với phản hồi của con người để đạt được những bước tiến này.

Theo OpenAI, GPT-4 vẫn gặp vấn đề với "thành kiến xã hội, mơ hồ về một số sự kiện và câu hỏi thù địch", giống như các phiên bản trước của GPT.

Nói cách khác, GPT-4 không hoàn hảo, nhưng OpenAI tuyên bố rằng đây là tất cả những vấn đề mà công ty đang cố gắng giải quyết.

Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống