Dựa trên hồ sơ các công ty đại chúng của Uỷ ban Chứng khoán và Giao dịch Mỹ (SEC), Patronus AI - startup chuyên đánh giá sức mạnh của các mô hình ngôn ngữ lớn (LLM), đã xây dựng bộ dữ liệu gồm hơn 10.000 câu hỏi và câu trả lời liên quan. Một số câu hỏi yêu cầu AI phải trích xuất dữ liệu, tính toán và suy luận đơn giản.
Bốn mô hình LLM mạnh nhất hiện nay như GPT-4 và GPT-4-Turbo của OpenAI, Claude 2 của Anthropic và Llama 2 của Meta, thực hiện bài test 150 câu hỏi trích từ bộ dữ liệu nói trên.
Kết quả cho thấy, không mô hình nào thể hiện được sức mạnh xử lý phân tích như kỳ vọng. Cụ thể, phiên bản mạnh nhất của OpenAI, GPT-4-Turbo có tới 88% trả lời sai trong chế độ không truy cập dữ liệu, và chỉ đạt tỷ lệ chính xác 85% khi được trợ lý con người trỏ chuột đến đoạn văn bản cụ thể để tìm câu trả lời.
Llama 2, mô hình AI nguồn mở của Meta phát triển, dẫn đầu về tình trạng “ảo giác”, trả lời sai tới 70%, chỉ đúng 19% ngay cả khi được cấp quyền truy cập dữ liệu.
Trong khi đó, khi nhập “bối cảnh dài” hơn, Claude 2 của Anthropic hoạt động tương đối tốt, với thành tích trả lời đúng 75%, trả lời sai 21% và từ chối trả lời 3%. Tại phần thi này, GPT-4-Turbo trả lời đúng 79% câu hỏi và trả lời sai 17% trong số đó.
“ Tỷ lệ hiệu suất đó hoàn toàn không thể chấp nhận được ”, Anand Kannappan, người đồng sáng lập Patronus AI cho biết. “ Tỷ lệ trả lời đúng phải cao hơn nhiều để có thể tự động hoá và sẵn sàng sản xuất ”.
Phát hiện này cho thấy chặng đường để mô hình AI có thể được tích hợp vào những ngành được quản lý chặt chẽ như tài chính, còn rất xa, dù là quy trình dịch vụ khách hàng hay nghiên cứu đổi mới.
Khả năng trích xuất số liệu nhanh chóng và thực hiện phân tích báo cáo tài chính cơ bản là một trong những ứng dụng hứa hẹn nhất mà chatbot AI có thể hỗ trợ con người trong lĩnh vực tài chính đầy cạnh tranh.
Các tập đoàn lớn đang đổ tiền phát triển mô hình AI riêng để xử lý khối dữ liệu tài chính khổng lồ, chẳng hạn như Bloomberg LP tìm cách sử dụng AI để phân tích tiêu đề tài chính. Trong khi đó, JPMorgan xây dựng công cụ đầu tư tự động hỗ trợ bởi AI. Một dự báo gần đây của McKinsey cho biết AI tạo sinh có thể thúc đẩy ngành ngân hàng thêm hàng nghìn tỷ đô la mỗi năm.
Song, chặng đường này còn ở khá xa. Khi Microsoft lần đầu tiên ra mắt Bing Chat tích hợp GPT của OpenAI, họ đã sử dụng chatbot này để tóm tắt thông cáo báo chí về thu nhập. Những người quan sát nhanh chóng nhận ra những con số mà AI trả lời bị sai lệch, hay thậm chí bịa đặt.
“ Những sai số như vậy là không thể chấp nhận được, đặc biệt trong các ngành được quản lý chặt chẽ. Tỷ lệ sai 1 trên 20 đã là không đủ ”, đồng sáng lập Qian nói.
Dù vậy, Kannappan vẫn bày tỏ lạc quan về sự phát triển của công nghệ trong thời gian tới. “ Các mô hính sẽ hoàn thiện hơn theo thời gian. Chúng tôi kỳ vọng về lâu dài, phần lớn công việc có thể được tự động hoá. Nhưng gần như chắc chắn các công ty vẫn phải có trợ lý con người để hỗ trợ AI thực hiện công việc của chúng ”.
Một phần của thách thức khi kết hợp LLM vào các sản phẩm thực tế là thuật toán không mang tính xác định, nghĩa là chúng không được đảm bảo sẽ trả ra cùng một kết quả dù có đầu vào giống nhau. Đồng nghĩa các công ty cần thực hiện kiểm tra nghiêm ngặt hơn để đảm bảo rằng AI đang hoạt động chính xác, không lạc đề và cung cấp kết quả đáng tin cậy.
Đại diện OpenAI đã chỉ ra các nguyên tắc sử dụng AI, trong đó cấm đưa ra lời khuyên tài chính phù hợp bằng cách sử dụng mô hình của OpenAI mà không có người đủ trình độ xem xét thông tin và yêu cầu bất kỳ ai sử dụng mô hình OpenAI trong ngành tài chính phải cung cấp tuyên bố từ chối trách nhiệm trước những hạn chế của AI. Chính sách sử dụng của OpenAI cũng nói rằng các mô hình của OpenAI không được tinh chỉnh để cung cấp lời khuyên tài chính.
Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống