Kỹ sư hé lộ rằng Google đào tạo Bard bằng các phản hồi của ChatGPT trước khi nghỉ việc và làm cho OpenAI

Kỹ sư hé lộ rằng Google đào tạo Bard bằng các phản hồi của ChatGPT trước khi nghỉ việc và làm cho OpenAI

Mô hình ngôn ngữ lớn có thể tạo nội dung dựa trên lời nhắc được gọi là Google Bard. Điều này có thể bao gồm giải thích các chủ đề, trả lời câu hỏi hoặc tạo các đoạn văn bản dựa trên yêu cầu đơn giản của người dùng. Công nghệ của Bard đang mang lại sức mạnh cho Bing chatbot và nó hoạt động rất giống với ChatGPT, gây bão trên toàn thế giới vào năm ngoái.

Máy tính được lập trình để tự động tạo ra nội dung mới, chẳng hạn như văn bản, hình ảnh, âm thanh và video, bằng cách sử dụng trí tuệ nhân tạo được gọi là kỹ thuật tạo văn bản. Nó khác với các hệ thống AI khác, chẳng hạn như máy học sâu (deep learning) hoặc học máy (machine learning), trong việc dự đoán kết quả từ dữ liệu có sẵn. Hệ thống generative AI có thể tự tạo ra dữ liệu mới và phong phú hơn thay vì dựa trên dữ liệu được huấn luyện. Các mô hình ngôn ngữ tự động tạo văn bản, các hệ thống nhận dạng hình ảnh, video và âm thanh đều là những ví dụ về cách sử dụng generative AI.

Trong tuần đầu tiên ra mắt công chúng, Bard đã hành động khá giống ChatGPT, nghĩa là thiếu sót về nhiều mặt. Bard thường hiểu sai các chi tiết thực tế, đôi khi bị "ảo giác" và tạo ra những câu trả lời vô nghĩa, đồng thời không trích dẫn nguồn tham khảo theo bất kỳ cách nào.

Tuy nhiên, hậu trường có thể quan tâm nhiều hơn đến cách Bard được đào tạo. Theo trang The Information, Jacob Devlin, cựu kỹ sư AI của Google, không đồng tình với việc Google sử dụng dữ liệu từ ChatGPT để đào tạo Bard.

Theo Jeff Dean, Giám đốc Google AI và các quản lý cấp cao khác, đội Bard, được hỗ trợ bởi các nhân viên Brain, đang huấn luyện mô hình học máy của Jacob Devlin bằng dữ liệu từ ChatGPT. Jacob Devlin chia sẻ những lo lắng của mình với Sundar Pichai, Giám đốc điều hành Google, và Jeff Dean.

Theo Jacob Devlin, các phản hồi từ ChatGPT được công khai trên trang web ShareGPT đang đóng một vai trò quan trọng trong đội Bard. Đây là nơi người dùng thường xuyên chia sẻ các phản hồi mà họ nhận được từ chatbot OpenAI. Theo Jacob Devlin, việc đào tạo như vậy có thể khiến phản hồi của Bard giống với ChatGPT hơn.

Sau khi chia sẻ mối lo ngại của mình, Jacob Devlin đã từ chức và chuyển sang làm việc cho OpenAI. Theo trang The Information, Google cũng ngừng sử dụng dữ liệu đó để đào tạo Bard.

Theo The Information, các nhân viên Google khác biết về tình huống này dường như tin rằng việc sử dụng dữ liệu như vậy đã vi phạm các điều khoản dịch vụ OpenAI. Điều khoản này cấm sử dụng đầu ra của ChatGPT "để phát triển các mô hình cạnh tranh với OpenAI."

Sau khi thông tin đó xuất hiện, Google đưa ra một tuyên bố ngắn gọn với trang The Verge rằng Bard không được đào tạo với dữ liệu có nguồn gốc từ ChatGPT.

Tuyên bố của Google dường như không loại trừ chắc chắn rằng dữ liệu từ ChatGPT đã từng được sử dụng để đào tạo Bard hay chưa, nhưng có vẻ như điều đó ít nhất không còn đúng nữa.

Theo The Information, đội Brain của Google và DeepMind, một công ty thuộc Alphabet (chủ sở hữu Google) đang hợp tác để cạnh tranh tốt hơn với OpenAI. Theo The Information, dự án của họ, được gọi là Gemini, là nỗ lực nhằm "cố gắng bắt kịp các khả năng của GPT-4 của OpenAI." Điều này sẽ đòi hỏi phải đạt được 1.000 tỉ tham số (cách đo các tính toán trong một mô hình học máy) giống như GPT-4.

ku-su-he-lo-google-dung-phan-hoi-tu-chatgpt-de-dao-tao-bard.jpg
Kỹ sư Jeff Dean báo cáo với lãnh đạo Google rằng Bard được đào tạo bằng dữ liệu phản hồi từ ChatGPT rồi nghỉ việc, đầu quân cho OpenAI

Vào ngày 21.3, Google bắt đầu triển khai Bard cho một số người dùng và chatbot AI này nhanh chóng gặp vấn đề trong câu trả lời. Chuyên gia AI Kate Crawford đã đăng một cuộc trao đổi với Bard trong đó cô hỏi tập dữ liệu đào tạo cho chatbot AI này đến từ đâu.

Trong ảnh chụp màn hình cuộc trò chuyện, Bard trả lời rằng tập dữ liệu của nó "được thu thập từ nhiều nguồn khác nhau", trong đó có "dữ liệu nội bộ của Google", chẳng hạn như Gmail.

Có ai lo ngại về việc Bard tuyên bố rằng tập dữ liệu đào tạo bao gồm cả Gmail không? Kate Crawford viết, "Tôi cho rằng điều đó hoàn toàn sai lầm, nếu không thì Google đang vượt qua một số ranh giới pháp lý nghiêm trọng."

Vài giờ sau đó, Google đã cố gắng làm rõ thêm thông tin. Công ty đề cập rằng "Bard là một thử nghiệm sớm dựa trên các mô hình ngôn ngữ lớn và sẽ phạm sai lầm" trong một tweet. Nó không được huấn luyện dựa trên dữ liệu từ Gmail.

Trong một bình luận khác đã bị sau đó, Google khẳng định rằng "Không có dữ liệu riêng tư nào sẽ được sử dụng trong quá trình huấn luyện Bard."

Trong phản hồi của Kate Crawford, Bard cũng tuyên bố rằng nó được đào tạo bằng cách sử dụng "bộ dữ liệu văn bản và mã từ web, chẳng hạn như Wikipedia, GitHub và Stack Overflow", cũng như dữ liệu từ các doanh nghiệp "hợp tác với Google để cung cấp dữ liệu cho quá trình huấn luyện Bard".

Trước đó, Bard cũng đặt Google vào cảnh oái oăm. Jane Manchun Wong (blogger công nghệ ở Hồng Kông) cho thấy chatbot này dường như đồng tình với Bộ Tư pháp Mỹ về vụ kiện chống độc quyền với Google trong lĩnh vực quảng cáo kỹ thuật số trong ảnh chụp màn hình cuộc đối thoại cùng Bard.

Bộ Tư pháp Mỹ và một số thẩm phán bang đã đệ trình vụ kiện chống lại Google vào tháng 1. Về cơ bản, đơn kiện này cho rằng Google đã sử dụng sức mạnh của mình để ép buộc các nhà quảng cáo kỹ thuật số phải phụ thuộc vào công ty này.

Sundar Pichai đã cảnh báo nhân viên cẩn thận về những sai sót tiềm ẩn khi bắt đầu sử dụng Bard. "Khi nhiều người bắt đầu sử dụng BarD và kiểm tra hiệu quả của nó, họ sẽ làm chúng tôi ngạc nhiên. Nhiều thứ xảy ra sẽ không như ý muốn, ông Sundar Pichai đã viết trong email gửi nhân viên hôm 22.3, được trang CNBC đăng tải.

Google hôm 21.3 đã bắt đầu phát hành công khai chatbot Bard với mong muốn thu hút người dùng và nhận được phản hồi để vượt qua Microsoft trong cuộc đua về công nghệ AI.

Bắt đầu từ Mỹ và Vương quốc Anh, người dùng có thể tham gia danh sách chờ để truy cập Bard tiếng Anh tại địa chỉ https://bard.google.com, chương trình trước đây chỉ dành cho những người thử nghiệm được phê duyệt. Theo Google, Bard là một thử nghiệm cho phép hợp tác với generative AI.

Jack Krawczyk, Giám đốc sản phẩm cấp cao của Google, cho biết công ty tập trung vào người dùng khi được hỏi liệu các động lực cạnh tranh có đứng sau sự ra mắt của Bard hay không. Theo ông, "Những người thử nghiệm nội bộ và bên ngoài đã tìm đến Bard vì đã tăng năng suất, thúc đẩy ý tưởng và kích thích sự tò mò của họ."

Jack Krawczyk đã trình diễn cách Bard tạo ra các khối văn bản trong nháy mắt, khác với cách ChatGPT gõ từng từ để trả lời, trong buổi trình diễn trang web bard.google.com của Reuters.

Nếu người dùng muốn có kết quả web cho một truy vấn cụ thể, Bard cũng bao gồm tính năng hiển thị ba phiên bản khác nhau hoặc "bản nháp" của bất kỳ câu trả lời cụ thể nào mà người dùng có thể chuyển đổi và hiển thị nút Google.

Tuy nhiên, độ chính xác vẫn là một vấn đề đáng ngại ngại ngại. Lời cảnh báo của Google xuất hiện trong cửa sổ pop-up trong bài trình diễn và "Bard không phải lúc nào cũng đúng."

Tháng trước, video quảng cáo cho thấy Bard trả lời sai một câu hỏi khiến vốn hóa thị trường Alphabet (công ty mẹ của Google) giảm hơn 100 tỷ USD trong ngày.

Google đã nêu bật một số sai lầm trong bản demo với Reuters, bao gồm cả việc Bard trả lời sai rằng dương xỉ cần ánh sáng mạnh để trả lời một truy vấn.

Khi được hỏi về 4 đoạn trong một câu hỏi khác, Bard cũng cung cấp 9 đoạn văn bản. Để đánh giá không tốt sau câu trả lời đó, Jack Krawczyk nhấp vào nút ngón tay chỉa xuống.

"Chúng tôi hiểu rõ giới hạn của công nghệ và muốn đưa ra một kế hoạch rõ ràng về tốc độ triển khai," ông nói.

Google đã chia sẻ một ảnh động mà chatbot này đang hoạt động trong một tweet quảng cáo Bard hôm 6.2. Bard trả lời các câu hỏi của người dùng, bao gồm cả câu hỏi về kính viễn vọng James Webb. Tuy nhiên, một trong những câu trả lời của Bard là không chính xác. Cụ thể hơn, Bard khẳng định rằng James Webb là kính viễn vọng đầu tiên tìm thấy một hành tinh ngoài hệ Mặt trời. Sự thật là ESO (Đài thiên văn phía nam châu Âu) đã tìm thấy hành tinh đó gần 20 năm trước bằng kính viễn vọng VLT của họ.

Nhà vật lý thiên văn Grant Tremblay (Mỹ) đã chỉ ra lỗi kiến thức thiên văn của Bard. Theo Grant Tremblay, mặc dù gây ấn tượng nhưng các chatbot AI "thường đưa ra câu trả lời sai một cách rất tự tin."

Đây được xem xét như một minh điển hình về những sai sót có thể xảy ra với các chatbot dựa trên AI. Chúng có thể đưa ra các thông tin không chính xác nhưng giống như có căn cứ, điều này có thể dẫn đến việc nhiều người sẽ hiểu sai thông tin.

Sau đó, Sundar Pichai yêu cầu tất cả nhân viên Google dành 2 đến 4 giờ để giúp thử nghiệm sản phẩm để chatbot này có thể sẵn sàng ra mắt.

"Tôi biết thời điểm này rất thú vị và đó là điều tôi hy vọng: Công nghệ cơ bản đang phát triển nhanh chóng với rất nhiều tiềm năng. Điều quan trọng nhất chúng tôi có thể làm lúc này là tập trung vào việc tạo ra một sản phẩm tuyệt vời và phát triển nó một cách có trách nhiệm, Sundar Pichai đã viết cho nhân viên Google trong một bản ghi nhớ hồi tháng 2.

Việc phát hành các sản phẩm generative AI đang gặp nhiều khó khăn hơn bởi Google. Google từ lâu đã được coi là công ty tiên phong trong lĩnh vực nghiên cứu AI, nhưng một số nhà phê bình cho rằng công ty quá chậm chạp trong việc phát triển các công cụ và dịch vụ của riêng mình để sẵn sàng cho công chúng sử dụng.

Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống

Nguồn tin:

 

Tham gia bình luận