Các học giả Kent Chang, Mackenzie Cramer, Sandeep Soni và David Bamman thảo luận về khả năng ghi nhớ của ChatGPT/GPT-4 với các tài liệu có bản quyền trong bài viết Speak, Memory: An Archaeology of Books Known to Chat GPT/GPT-4.
Theo nghiên cứu này, "chúng tôi phát hiện ra rằng các mô hình OpenAI đã ghi nhớ một bộ sưu tập lớn các tài liệu có bản quyền và mức độ ghi nhớ này liên quan đến tần suất xuất hiện của các đoạn văn trong những cuốn sách đó."
Ngoài danh sách hơn 570 cuốn sách được xác định (có thể tìm thấy tại đây), nhóm học giả đã xuất bản mã và dữ liệu của mình trên GitHub.
Các cuốn sách như Harry Potter, Nineteen Eighty-Four, The Lord of the Rings trilogy, The Hunger Games, Hitchhiker's Guide to the Galaxy, Fahrenheit 451, A Game of Thrones, Dune... được phát hiện là nguồn cảm hứng cho GPT-4.
Các học giả chỉ ra rằng sách khoa học viễn tưởng và giả tưởng chiếm ưu thế trong danh sách này, điều mà họ cho là do sự phổ biến của những tựa sách đó trên web. Họ chỉ ra rằng việc ghi nhớ nội dung cuốn sách cụ thể có tác dụng truy vấn. Chẳng hạn, ChatGPT hoặc GPT-4 đưa ra dự đoán chính xác hơn khi trả lời các câu hỏi như "Đoạn văn này được xuất bản vào năm nào?" do đã ghi nhớ nội dung sách.
ChatGPT thể hiện ít kiến thức hơn về các tác phẩm ở các thể loại khác, đây là một kết quả của việc quen thuộc với khoa học viễn tưởng và giả tưởng.
Theo các nhà nghiên cứu, ChatGPT hoặc các mô hình mà chatbot AI này được xây dựng dựa trên để chứa toàn bộ nội dung của các cuốn sách được trích dẫn không được các nhà nghiên cứu khẳng định.
Các tác giả giải thích trong bài viết: "Dữ liệu đằng sau ChatGPT và GPT-4 về cơ bản là không thể biết được bên ngoài OpenAI. Chúng tôi không cố gắng truy cập dữ liệu huấn luyện thực sự đằng sau những mô hình này hoặc bất kỳ thành phần cốt lõi nào của chúng vào bất kỳ thời điểm nào. Chúng tôi chỉ sử dụng phương pháp suy diễn xác suất để đánh giá mức độ quen thuộc của các mô hình AI với một tập hợp các sách cụ thể. Tuy nhiên, chúng tôi không thể xác định chắc chắn liệu những đoạn văn được trích xuất từ các cuốn sách này có thực sự hiển thị dữ liệu huấn luyện cho các mô hình AI hay không.
Các học giả đề xuất sử dụng dữ liệu huấn luyện công khai để làm cho hành vi của các mô hình trở nên minh bạch hơn nhằm làm cho các câu hỏi như vậy có thể được trả lời. Họ thực hiện dự án trên để hiểu những gì các mô hình này đã ghi nhớ vì chúng có hành vi khác nhau khi phân tích các văn bản văn học từng được sử dụng để huấn luyện.
Nhà nghiên cứu chính về AI và khoa học đạo đức của hãng Hugging Face, Margaret Mitchell, nói với trang The Register rằng "Quản lý dữ liệu vẫn chưa hoàn thiện trong học máy. 'Không nên sử dụng dữ liệu huấn luyện để kiểm tra mô hình.' Đó là một câu châm ngôn phổ biến trong học máy. Tuy nhiên, tôi hy vọng công việc này sẽ giúp thúc đẩy sự tiến bộ trong việc quản lý dữ liệu có trách nhiệm hơn trong lĩnh vực đó.
Các nhà khoa học máy tính tại Đại học California ít tập trung vào ý nghĩa bản quyền của việc ghi nhớ văn bản hơn là vào việc không thể hiểu được cách thức hoạt động của các mô hình máy học này (OpenAI không tiết lộ dữ liệu được sử dụng để đào tạo chúng) và điều đó ảnh hưởng như thế nào đến độ chính xác của phân tích văn bản.
Tuy nhiên, các vấn đề liên quan đến bản quyền có thể không thể tránh được, đặc biệt nếu các ứng dụng dựa trên các mô hình này tạo ra các đoạn văn bản tương đối giống hoặc giống hệt với các đoạn văn bản được bảo vệ bản quyền mà chúng đã học.
Theo Tyler Ochoa, giáo sư khoa luật tại Đại học Santa Clara ở bang California (Mỹ), sẽ có các vụ kiện chống lại các nhà sản xuất mô hình ngôn ngữ lớn tạo ra văn bản, chẳng hạn như OpenAI, Google và những hãng khác.
Ông tuyên bố rằng các vấn đề bản quyền liên quan đến tạo văn bản AI hoàn toàn giống với các vấn đề về tạo hình ảnh AI.
Thứ nhất: Việc sao chép một lượng lớn văn bản hoặc hình ảnh để đào tạo mô hình có hợp lý không? Ông tuyên bố rằng điều đó có thể đúng.
Thứ hai: Có phải hành vi vi phạm bản quyền nếu mô hình đầu ra quá giống với đầu vào, thứ mà bài viết của các học giả gọi là "ghi nhớ", không? Ông nói câu trả lời gần như chắc chắn là có.
Thứ ba: Nếu đầu ra của trình tạo văn bản AI không phải là bản sao của văn bản hiện có, thì nó có được bảo vệ bản quyền không? Tyler Ochoa cho biết câu trả lời là không vì luật bản quyền Mỹ yêu cầu sự sáng tạo của con người, mặc dù một số quốc gia sẽ không đồng ý và sẽ bảo vệ các tác phẩm do AI tạo ra.
Tuy nhiên, ông bổ sung rằng việc lựa chọn, tổ chức và sửa đổi kết quả đầu ra của mô hình AI sẽ làm tăng bảo vệ bản quyền.
Ông nói: "Cho đến nay, chúng tôi đã chứng kiến các vụ kiện về vấn đề một và ba. Các vụ kiện cho đến nay đều liên quan đến các mô hình tạo hình ảnh AI, nhưng không thể tránh khỏi các vụ kiện chống lại các mô hình tạo văn bản AI. Chúng tôi chưa thấy bất kỳ trường hợp nào liên quan đến vấn đề thứ hai. Các bài viết của các nhà nghiên cứu từ Đại học California cho thấy sự giống nhau như vậy là có thể. Theo tôi, khi điều đó xảy ra, sẽ có các vụ kiện và gần như chắc chắn sẽ cấu thành hành vi vi phạm bản quyền.
Theo Tyler Ochoa, " thuộc vào mức độ mà người dùng truy vấn hoặc khuyến khích mô hình đạt được kết quả, chủ sở hữu hoặc người dùng mô hình phải chịu trách nhiệm pháp lý hoặc cả hai đều phải chịu, thuộc vào mức độ."
Khi được đề nghị bình luận về các vấn đề nêu trên, OpenAI không trả lời.
Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống