Khi đánh giá độ chính xác phản hồi chatbot AI

Trong nỗ lực đáp trả ChatGPT của OpenAI, Google đã phát hành phiên bản giới hạn của chatbot Bard vào tháng 3 vừa qua.

Công ty đã thuê một lực lượng khá lớn lao động từ bên thứ ba để đánh giá chất lượng của các phản hồi từ chatbot AI này. Tuy nhiên, các đối tác thừa nhận rằng họ thường không có đủ thời gian để đánh giá độ chính xác của những phản hồi truy vấn này.

Một nhà thầu đang giúp cải thiện chatbot Google là Appen. Các nhân viên của công ty này không được thông báo rằng nhiệm vụ của họ liên quan đến Bard, nhưng các cuộc thảo luận nội bộ về nhiệm vụ mới bắt đầu vào ngày 7/2, khoảng thời gian gã khổng lồ tìm kiếm lần đầu tiên công bố chatbot AI của mình.

Đối tác Google thừa nhận ‘đoán mò’ khi đánh giá độ chính xác phản hồi chatbot AI - 1 — Khi các đối tác Google thừa nhận rằng họ phải "đoán mò" câu trả lời trong một số trường hợp nhất định, độ chính xác mà các phản hồi của Bard AI đưa ra đang bị đặt câu hỏi.

Những đối tác, được gọi là "người đánh giá", thường xem xét thuật toán tìm kiếm của Google và mức độ liên quan của quảng cáo được đặt trong kết quả tìm kiếm, cũng như gắn cờ các URL độc hại để chúng không hiển thị trên trang kết quả.

Theo một nguồn tin từ Insider, phần lớn công việc của các nhà đánh giá đã chuyển sang xem xét các lời nhắc của AI kể từ tháng Giêng. Họ cho rằng không có đủ thời gian để chấm điểm độ chính xác của các phản hồi mà con bot đưa ra, vì vậy đôi khi họ chỉ có thể đưa ra "dự đoán tốt nhất".

Sau khi mọi người phát hiện ra rằng chatbot đưa ra câu trả lời sai ngay trong sự kiện ra mắt, Bard đã nhận được chỉ trích. Theo Google, chatbot sẽ tốt hơn theo thời gian và không nên coi ứng dụng này là sự thay thế cho công cụ tìm kiếm.

Trước khi ra mắt, vào tháng 2, Google cũng yêu cầu nhân viên dành từ 2 đến 4 giờ để kiểm tra con bot, đặt câu hỏi cho nó và gắn cờ những câu trả lời không phù hợp với tiêu chuẩn của công ty.

Các nhà thầu khẳng định rằng họ có một khoảng thời gian nhất định để hoàn thành từng nhiệm vụ, từ 60 giây đến hơn vài phút. Tuy nhiên, những người đánh giá nói rằng rất khó để đánh giá phản hồi khi họ không hiểu về chủ đề chatbot đang đề cập đến, trong đó có các chủ đề kỹ thuật như blockchain.

Các nhân viên sẽ cố gắng hoàn thành nhiệm vụ ngay cả khi họ không thể đánh giá chính xác các phản hồi chatbot đưa ra vì mỗi nhiệm vụ được giao thể hiện thời gian đều tính phí.

Những nhân viên này khẳng định rằng họ muốn tìm hiểu đúng sự thật và cung cấp trải nghiệm chatbot chất lượng tốt nhất có thể, nhưng đơn giản là họ không có đủ thời gian để nghiên cứu vấn đề trước khi đưa ra xếp loại.

Theo một trong những người đánh giá chia sẻ, "Bạn cần 3 giờ nghiên cứu để hoàn thành một nhiệm vụ 60 giây, đó là vấn đề chúng tôi đang gặp phải hiện nay."

(Nguồn: Vietnamnet/Insider)

Bổ ích
Xúc động
Sáng tạo
Độc đáo
Phẫn nộ

Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống