Nguy cơ lớn nhất với các siêu AI

40 GB dữ liệu văn bản tạo nên bộ dữ liệu của mô hình OpenAI GPT-2. GPT-3 được đào tạo trên 570 GB dữ liệu. Mô hình mới nhất, GPT-4, được OpenAI giữ bí mật độ lớn của bộ dữ liệu, nhưng mô hình này có khả năng xử lý mạnh hơn GPT-3 và gần như chắc chắn về lượng dữ liệu lớn hơn so với thế hệ trước. Công ty AI này hiện đang phải trả giá cho "cơn đói" dữ liệu của các mô hình.

Theo các cơ quan quản lý châu Âu, OpenAI đã thu thập dữ liệu cá nhân của mọi người, bao gồm cả tên hoặc địa chỉ email, và sử dụng các dữ liệu này mà không có sự đồng thuận của chủ sở hữu. Chính quyền Pháp đã cấm ChatGPT, và các cơ quan quản lý dữ liệu của Pháp, Đức, Ireland và Canada cũng đang điều tra cách công ty AI thu thập và sử dụng dữ liệu.

Theo Alexis Leautier, chuyên gia AI tại cơ quan bảo vệ dữ liệu của Pháp, công ty có nguy cơ bị phạt nặng và thậm chí có thể buộc phải các mô hình và dữ liệu được sử dụng để đào tạo mô hình.

2 lựa chọn cho OpenAI

OpenAI sẽ cần có sự đồng thuận cho phép thu thập dữ liệu từ người dân hoặc chứng minh rằng công ty đang mang lại lợi ích cho xã hội bằng cách thu thập dữ liệu để hoạt động hợp pháp theo các quy định về dữ liệu của châu Âu.

Các công ty AI có thể thu thập dữ liệu cá nhân công khai trên mạng để đào tạo mô hình mà không có sự đồng thuận của chủ sở hữu. Ảnh: Hoàng Nam.

OpenAI sẽ không chỉ lãnh các án phạt mà còn bị cấm ở một số quốc gia hoặc toàn bộ Liên minh châu Âu nếu họ không thể thuyết phục các nhà chức trách rằng họ sử dụng dữ liệu một cách hợp pháp.

Quy định bảo vệ dữ liệu chung của EU (GPDR) là một trong những quy định nghiêm ngặt nhất thế giới và đã được nhiều quốc gia sao chép. Các cơ quan quản lý ở khắp mọi nơi sẽ chú ý đến những diễn biến tiếp theo và kết quả ở EU có thể thay đổi cách các công ty AI thu thập dữ liệu.

Theo Lilian Edwards, giáo sư luật Internet tại Đại học Newcastle, OpenAI gần như không thể lập luận rằng tất cả người dân EU đã đồng thuận cho công ty này thu thập dữ liệu của họ, vì vậy họ chỉ còn lập luận lợi ích xã hội. Điều này có nghĩa là công ty phải thuyết phục các cơ quan quản lý rằng ChatGPT là thiết yếu đến mức được phép thu thập dữ liệu mà không có sự đồng thuận.

Công ty khẳng định rằng các mô hình của họ được đào tạo bằng nội dung có sẵn trên mạng, nhưng đối với GDPR, điều này là không đủ. Khi dữ liệu ở nơi công cộng, nó không còn là riêng tư ở Mỹ. Edwards nói với MIT Technology Review rằng đó không phải là cách thức hoạt động của luật châu Âu.

Ngay cả khi dữ liệu đó vốn là công khai, GDPR coi mọi người là "chủ thể dữ liệu" và có quyền được thông báo về cách dữ liệu của họ được thu thập và sử dụng, cũng như quyền dữ liệu của họ khỏi hệ thống.

Vì sao các công ty AI khó tuân thủ quy định dữ liệu

Theo chính quyền Italy, OpenAI không minh bạch về cách nó thu thập dữ liệu của người dùng trong giai đoạn sau đào tạo, chẳng hạn như nhật ký trò chuyện giữa người dùng với ChatGPT.

Thay vì sắp xếp cẩn thận các hạng mục dữ liệu ngay từ đầu, các công ty AI thường tìm cách thu thập càng nhiều dữ liệu càng tốt khi đào tạo mô hình. Ảnh: Bloomberg.

Leautier giải thích rằng người dùng có xu hướng chia sẻ dữ liệu thân mật, riêng tư với chatbot, chẳng hạn như trạng thái tinh thần, sức hoặc ý kiến cá nhân. Và theo luật châu Âu, người dùng có quyền được dữ liệu nhật ký trò chuyện này.

Theo Margaret Mitchell, nhà nghiên cứu AI tại công ty khởi nghiệp Hugging Face, người trước đây đã đứng đầu bộ phận đạo đức nghiên cứu của Google, OpenAI gần như không có khả năng xác định dữ liệu của các cá nhân và dữ liệu đó khỏi các mô hình.

Mitchell giải thích kỹ hơn, ngành công nghiệp AI thường tạo các bộ dữ liệu bằng cách vơ vét bừa bãi trên Internet, "làm sạch" các điểm trùng lặp, điểm lỗi hoặc các yếu tố không mong muốn. Các công ty không biết rõ những gì đã đi vào đào tạo mô hình của họ vì phương pháp này, cùng với kích thước khổng lồ của dữ liệu, đều không rõ.

Nithya Sambasivan, một nhà nghiên cứu từng làm việc tại Google, nhận định tương tự như các công ty công nghệ, không ghi lại cách họ thu thập hoặc chú thích dữ liệu đào tạo AI hoặc thậm chí không biết có những gì trong bộ dữ liệu.

Theo Mitchell, "Công nghệ xung quanh việc thu thập dữ liệu còn rất non nớt và gần như không thay đổi trong mười năm qua, vì phần lớn nỗ lực là dành cho các kỹ thuật xây dựng mô hình."

Nhân loại sẽ đối đầu với trí tuệ nhân tạo như thế nào

Các tác giả trong cuốn sách "Framers - Nhân loại đối đầu nhân tạo" nhận ra rằng con người vẫn có lợi thế trong thời đại công nghệ.

Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống

2 lựa chọn cho OpenAI

Vì sao các công ty AI khó tuân thủ quy định dữ liệu

Tham gia bình luận

Tin cùng chuyên mục Xem tất cả