Một trong những diễn đàn lớn nhất Internet là Reddit. Mỗi ngày, khoảng 57 triệu người truy cập Internet truy cập để thảo luận về đủ các chủ đề. Dữ liệu của Reddit đã trở thành công cụ hỗ trợ đào tạo trí tuệ nhân tạo (AI) miễn phí cho Google, OpenAI và Microsoft trong những năm gần đây. Trong quá trình phát triển các hệ thống AI, các doanh nghiệp này sử dụng các cuộc thảo luận trên diễn đàn. Diễn đàn sẽ báo giá trong vài tuần tới và vẫn đang hoàn thiện các chi tiết về việc thu phí.
Vào ngày 18 tháng 4, Reddit đã thông báo kế hoạch bắt đầu thu phí các doanh nghiệp truy cập API (giao diện lập trình ứng dụng) của mình. Nhà sáng lập kiêm CEO của Reddit, Steve Huffman, khẳng định rằng kho dữ liệu Reddit rất có giá trị và không thể bị đánh giá thấp như những hãng giàu nhất thế giới.
Theo Huffman, các doanh nghiệp thu thập dữ liệu, tạo ra giá trị nhưng không trả lại cho người dùng Reddit, là một vấn đề. Vì vậy, bây giờ là thời điểm tuyệt vời để siết chặt mọi thứ.
Nguồn thu nhập chính của Reddit, được thành lập vào năm 2005, đến từ quảng cáo và các giao dịch thương mại điện tử nền tảng.
Khi mô hình ngôn ngữ lớn đóng vai trò quan trọng trong việc tạo ra công nghệ AI mới, những cuộc hội thoại trên Reddit hoặc tương tự như chúng trở nên có giá trị. LLM là thuật toán phức tạp mà dữ liệu từ Reddit được nạp vào để phát triển. Dữ liệu từ Reddit được sử dụng trong cả Dịch vụ Google Bard và ChatGPT.
Mặc dù ChatGPT mang đến cho các doanh nghiệp đứng sau nhiều lợi ích, nhưng nó không có lợi ích gì với Reddit. Trên thực tế, nó thậm chí có thể được sử dụng để tạo ra các đối thủ của Reddit. Một số doanh nghiệp bắt đầu bán dữ liệu cho các nhà phát triển AI. Chẳng hạn, Shutterstock bán dữ liệu ảnh cho OpenAI để tạo chương trình tạo ảnh từ văn bản Dall-E.
Các hãng cần năng lực điện toán và dữ liệu khổng lồ để liên tục cải thiện các AI. Một số công ty đã sở hữu năng lực điện toán rất lớn nhưng vẫn tìm kiếm dữ liệu bên ngoài để nâng cấp thuật toán, chẳng hạn như Wikipedia, sách điện tử, bài báo học thuật hoặc Reddit.
CEO của Reddit cho rằng dữ liệu của họ có giá trị vì nó liên tục được cập nhật. Các mô hình ngôn ngữ lớn phải có tính mới mẻ và liên quan để tạo ra kết quả tốt nhất. Ông khẳng định rằng API của Reddit vẫn miễn phí cho các nhà phát triển muốn tạo ứng dụng phục vụ cộng đồng Reddit hoặc các học giả muốn nghiên cứu dữ liệu cho mục đích học thuật hoặc phi thương mại.
* Mời quý độc giả theo dõi các chương trình đã phát sóng của Đài Truyền hình Việt Nam trên TV Online và VTVGo!
Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống