Do thu thập 300 tỉ thông tin bí mật từ các bài đăng trên Internet huấn luyện AI của huấn luyện, OpenAI đã bị kiện vi phạm quyền riêng tư.

Theo vụ kiện dài 157 trang từ Clarkson (công ty luật ở bang California, Mỹ), OpenAI đã vi phạm các luật về quyền riêng tư bằng cách thu thập 300 tỷ từ trên Internet, bao gồm "sách, bài viết, trang web, bài đăng, thông tin cá nhân mà không có sự cho phép", để huấn luyện một lượng ngôn ngữ khá lớn.

Theo vụ kiện, OpenAI đã vi phạm quyền của hàng triệu người dùng Internet bằng cách sử dụng các bình luận mạng xã hội, bài đăng trên blog, bài viết trên Wikipedia và công thức nấu ăn gia đình của họ. Clarkson trước đây đã thực hiện một số vụ kiện tập thể quy mô lớn về các vấn đề từ vi phạm dữ liệu đến quảng cáo sai sự thật.

Theo Ryan Clarkson, thành viên quản lý của công ty luật, Clarkson muốn đại diện cho "những người thực sự có thông tin bị đánh cắp và sử dụng sai mục đích thương mại để tạo ra công nghệ rất mạnh mẽ này."

Vào ngày 28 tháng 6, Clarkson đệ trình vụ kiện lên án liên bang ở quận phía bắc California. Người phát ngôn OpenAI, công ty khởi nghiệp tạo ChatGPT, không trả lời khi được đề nghị bình luận.

Vụ kiện đi vào cốt lõi của câu hỏi lớn chưa được giải quyết liên quan đến sự gia tăng các công cụ generative AI như chatbot và trình tạo hình ảnh. Một loại trí tuệ nhân tạo được lập trình để tự động tạo ra nội dung mới, chẳng hạn như văn bản, hình ảnh, âm thanh và video, được gọi là generative AI. Nó khác với các hệ thống AI khác như máy học sâu hoặc học máy trong việc dự đoán kết quả từ dữ liệu có sẵn. Thay vì dựa trên dữ liệu được huấn luyện, generative AI có thể tự tạo ra dữ liệu mới và phong phú hơn.

Công nghệ này hoạt động bằng cách thu thập hàng tỉ từ trực tuyến và học cách kết hợp chúng để tạo ra các suy luận. Các mô hình ngôn ngữ lớn có thể dự đoán những gì cần trả lời để đáp lại truy vấn từ người dùng sau khi hấp thụ đủ dữ liệu, giúp chúng có khả năng làm thơ, trò chuyện phức tạp và vượt qua các kỳ thi chuyên nghiệp. Tuy nhiên, những người viết hàng tỉ từ đó chưa bao giờ đồng ý để một công ty như OpenAI sử dụng chúng vì lợi nhuận cá nhân.

Clarkson hy vọng án có thể đưa ra quyết định để thiết lập một số biện pháp bảo vệ về cách các thuật toán AI được huấn luyện và cách người dùng được bồi thường khi dữ liệu của họ được sử dụng. Clarkson đã có một nhóm nguyên đơn và đang tích cực tìm kiếm thêm.

Clarkson cáo buộc OpenAI thu thập bí mật 300 tỉ từ trên internet để huấn luyện mô hình ngôn ngữ lớn - Ảnh: Internet

Không rõ liệu việc sử dụng dữ liệu thu thập từ internet công cộng để huấn luyện các công cụ có thể mang lại lợi nhuận đáng kể cho nhà phát triển chúng có được hợp pháp hay không. Theo một số nhà phát triển AI, việc sử dụng dữ liệu từ internet nên được coi là hợp lý (sử dụng hợp lý). Việc sử dụng một cách không thể nhận ra so với bản gốc có thể được coi là hợp lý trong phạm vi fair sử nếu tác phẩm bản quyền được biến đổi, sáng tạo hoặc sử dụng theo cách không thể nhận ra.

Theo Katherine Gardner, luật sư sở hữu trí tuệ tại Gunderson Dettmer, hãng chủ yếu đại diện cho các công ty khởi nghiệp công nghệ, câu hỏi về việc sử dụng Fair sử là "vấn đề mở mà chúng ta sẽ thấy tại án những tháng và năm tới."

Các tác phẩm bản quyền được sử dụng để huấn luyện các mô hình AI có thể bị các công ty dùntg, nhưng những nghệ sĩ và chuyên gia sáng tạo khác chứng minh điều này. Theo Katherine Gardner, những người chỉ đăng bài hoặc bình luận trên một trang web khó có thể yêu cầu bồi thường.

Theo Katherine Gardner, bạn đang cấp phép rất rộng rãi cho trang đó có thể sử dụng nội dung của mình theo bất kỳ cách nào khi bạn đưa nội dung lên một trang truyền thông xã hội hoặc bất kỳ trang nào khác. Người dùng cuối bình thường sẽ rất khó nói rằng họ có quyền nhận bất kỳ khoản thanh toán hoặc bồi thường nào cho việc sử dụng dữ liệu của họ như một phần trong quá trình huấn luyện AI.

Vụ kiện của Clarkson cũng làm tăng danh sách thách thức pháp lý ngày càng tăng đối với các doanh nghiệp đang xây dựng và hy vọng thu được lợi nhuận từ AI.

Vào tháng 11.2022, một vụ kiện tập thể chống lại OpenAI và Microsoft đã được đệ trình về cách hai công ty này sử dụng mã máy tính trong nền tảng mã hóa trực tuyến GitHub (do Microsoft sở hữu) để đào tạo các công cụ AI.

Vào tháng 2, Getty Images kiện Stability AI, một công ty khởi nghiệp AI nhỏ hơn OpenAI, về việc sử dụng trái phép các bức ảnh của mình để huấn luyện trình tạo hình ảnh.

Một người dẫn chương trình phát thanh Georgia đã kiện OpenAI trong tháng này vì tội phỉ báng. Người này khẳng định rằng ChatGPT đã tạo ra câu trả lời cáo buộc sai trái rằng anh ta gian lận.

Không phải công ty duy nhất sử dụng kho dữ liệu thu thập từ Internet để huấn luyện các mô hình AI của họ là OpenAI. Ngày càng có nhiều doanh nghiệp khác đang làm điều tương tự, bao gồm Google, Facebook, Microsoft và ngày càng nhiều doanh nghiệp khác. Tuy nhiên, Clarkson quyết định kiện OpenAI vì vai trò của công ty trong việc thúc đẩy các đối thủ lớn hơn phát triển AI thông qua ChatGPT rất phổ biến.

Theo ông, "Họ là công ty đã châm ngòi cho cuộc chạy đua AI này. Họ là mục tiêu đầu tiên tự nhiên.

Các phiên bản trước đã nhận dữ liệu từ Wikipedia, bài viết tin tức và nhận xét trên mạng xã hội, nhưng OpenAI không chia sẻ loại dữ liệu nào được đưa vào GPT-4, mô hình ngôn ngữ lớn mới nhất của công ty. Chatbot từ Google (Bard) và một số doanh nghiệp khác cũng sử dụng các bộ dữ liệu tương tự.

Các cơ quan quản lý đang xem xét việc ban hành luật mới yêu cầu các doanh nghiệp minh bạch hơn về dữ liệu được đưa vào AI của họ. Theo Katherine Gardner, cũng có khả năng vụ kiện sẽ khiến thẩm phán buộc tội một công ty như OpenAI cung cấp thông tin về loại dữ liệu mà họ đã sử dụng.

Một số hãng đã cố gắng ngăn chặn các công ty AI thu thập dữ liệu của họ. Theo trang Financial Times, Apple và Spotify đã yêu cầu nhà phân phối âm nhạc Universal Music Group chặn các công cụ thu thập dữ liệu vào tháng 4.

Trang mạng xã hội Reddit đang ngừng cung cấp truy cập vào luồng dữ liệu của mình, trích dẫn đến việc các hãng công nghệ lớn trong nhiều năm đã thu thập các bình luận và cuộc trò chuyện trên trang web của mình. Elon Musk, chủ sở hữu Twitter, đã đe Microsoft vì sử dụng dữ liệu Twitter để huấn luyện AI. Tỷ phú giàu nhất thế giới đang xây dựng công ty AI riêng của mình.

Lập luận rằng công ty này không đủ minh bạch với những người đăng ký sử dụng các công cụ của mình, vụ kiện tập thể mới chống lại OpenAI đã đi xa hơn trong các cáo buộc. Cụ thể, OpenAI không tiết lộ dữ liệu cung cấp cho mô hình ngôn ngữ lớn có thể được sử dụng để huấn luyện các sản phẩm mới mà từ đó công ty tạo ra lợi nhuận, chẳng hạn như plugin.

Ngoài ra, Clarkson đã buộc tội OpenAI không làm đủ để đảm bảo rằng trẻ em dưới 13 tuổi không sử dụng các công cụ AI của mình, điều mà các hãng công nghệ khác như Facebook và YouTube đã thực hiện trong nhiều năm.

Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống