Sự khởi đầu của DeepSeek
Năm 2013, doanh nhân Trung Quốc Liang Wenfeng thành lập quỹ đầu tư High-Flyer. Để phân tích dữ liệu tài chính và hỗ trợ các hoạt động phức tạp cho quỹ, High-Flyer thành lập một nhánh nghiên cứu học sâu có tên Fire-Flyer và tích trữ các Đơn vị xử lý đồ họa (GPU) để chế tạo siêu máy tính.
Tháng 5/2023, Liang quyết định chuyển hướng nguồn lực vào một công ty mới có tên DeepSeek với mục tiêu phát triển các mô hình AI cơ bản và giải mã trí tuệ nhân tạo tổng quát, với nguồn vốn huy động khoảng 8 tỷ USD từ quỹ High-Flyer. Thay vì thuê các kỹ sư giàu kinh nghiệm, biết cách xây dựng sản phẩm AI hướng đến người tiêu dùng, Liang tuyển dụng nghiên cứu sinh tiến sỹ từ các trường đại học hàng đầu của Trung Quốc để tham gia nhóm nghiên cứu. Cách tiếp cận của Liang trong việc xây dựng nhóm tập trung nghiên cứu được cho là đã góp phần vào thành công của DeepSeek.
Khác với các công ty AI lớn, DeepSeek tập trung vào phát triển mô hình mã nguồn mở với mục tiêu xây dựng công nghệ nền tảng, thay vì tập trung vào ứng dụng thương mại. Chỉ hai tháng sau khi công ty thành lập, tháng 7/2023, DeepSeek-R1 - mô hình AI đầu tiên của công ty được ra mắt. DeepSeek-R1 đã lập tức gây chú ý bởi hiệu quả vượt trội với chi phí thấp, có khả năng mô phỏng các phản ứng hóa học lượng tử phức tạp; xử lý dữ liệu lớn trong thời gian thực với độ chính xác cực cao và giải mã các bài toán khoa học mà các siêu máy tính truyền thống không thể xử lý.
Mặc dù đạt được những cột mốc quan trọng trong khoảng thời gian ngắn, DeepSeek được cho là chỉ tập trung nghiên cứu AI và không có kế hoạch thương mại hóa các mô hình AI ngay lập tức. DeepSeek không dựa vào nguồn tài trợ từ những gã khổng lồ công nghệ như Baidu, Alibaba và ByteDance. Công ty chỉ được High-Flyer hỗ trợ. Theo báo cáo của Forbes, công ty có quan hệ đối tác với nhà sản xuất chip AMD. AMD cung cấp năng lượng cho các mô hình như DeepSeek-V3 bằng GPU AMD Instinct và phần mềm ROCM.
Những mô hình AI do DeepSeek phát hành
Những mô hình AI của DeepSeek được cho là đã tối ưu hóa bằng cách kết hợp các cơ chế và kỹ thuật học máy tiên tiến. Hai trong số đó bao gồm MoE (Mixture of Experts) và MHA (Multi-Head Latent Attention). MoE là kỹ thuật mà nhiều mô hình chuyên biệt (chuyên gia) làm việc cùng nhau, với mạng lưới cổng chọn chuyên gia tốt nhất để giải quyết vấn đề cho mỗi đầu vào, giúp đào tạo các mô hình mạnh với chi phí hợp lý. MHA đảm bảo suy luận hiệu quả thông qua việc nén đáng kể các đơn vị dữ liệu.
Một số mô hình AI nguồn mở do DeepSeek phát triển bao gồm: DeepSeek Coder (được thiết kế cho các tác vụ liên quan đến mã hóa), DeepSeek LLM (có 67 tỷ tham số để cạnh tranh với các mô hình ngôn ngữ lớn khác); DeepSeek-V2 (mô hình AI giá rẻ với hiệu suất mạnh mẽ), DeepSeek-Coder-V2 (mô hình AI có 236 tỷ tham số được thiết kế cho các thách thức mã hóa phức tạp), DeepSeek-V3 (mô hình AI có 671 tỷ tham số có thể xử lý nhiều tác vụ như mã hóa, dịch thuật, viết bài luận và email), DeepSeek-R1 (mô hình AI được thiết kế cho các tác vụ lý luận, với các khả năng thách thức mô hình o1 marquee của OpenAI), DeepSeek-R1-Distill (mô hình AI đã được tinh chỉnh dựa trên dữ liệu tổng hợp do DeepSeek R1 tạo ra).
DeepSeek gây chấn động toàn cầu
DeepSeek dường như vượt qua những công ty như OpenAI, Google và Meta trong cuộc chạy đua AI đầy rủi ro khi mô hình DeepSeek được phát triển với chi phí dưới 6 triệu USD, nhưng vượt qua các tiêu chuẩn hàng đầu về toán học và lý luận. Điều này đặt ra thách thức trực tiếp đối với các công ty AI lớn, vốn phụ thuộc vào tài nguyên phần cứng đắt đỏ. Thêm vào đó, DeepSeek-R1 có thể hoạt động hiệu quả trên các chip ít mạnh mẽ hơn, làm giảm vai trò của các nhà cung cấp chip lớn đắt tiền trong việc phát triển AI.
Theo giới chuyên gia, việc đào tạo mô hình AI sẽ có tác động tới cả chuỗi cung ứng, từ các nhà sản xuất chip đến các trung tâm dữ liệu. DeepSeek buộc các công ty như OpenAI và Google phải xem xét lại chiến lược phát triển, chuyển từ đầu tư phần cứng sang tối ưu thuật toán. DeepSeek-R1 không chỉ là sản phẩm đột phá mà còn là lời cảnh báo đến các công ty lớn, báo hiệu một kỷ nguyên mới trong ngành công nghiệp AI toàn cầu.
Ngày 27/01, trợ lý AI miễn phí của DeepSeek đã vượt qua đối thủ ChatGPT để trở thành ứng dụng miễn phí được đánh giá cao nhất trên App Store tại Mỹ.
Tổng thống Mỹ Donald Trump bình luận rằng sự nổi lên đột ngột của ứng dụng trí tuệ nhân tạo DeepSeek là lời cảnh tỉnh đối với các công ty công nghệ Mỹ. Cơn sốt DeepSeek tiếp tục đặt ra những câu hỏi mới cho chính quyền và các nhà lãnh đạo quốc hội Mỹ xung quanh ứng dụng Trung Quốc. Ông Trump cho rằng các công ty công nghệ Mỹ vẫn sẽ thống trị ngành Trí tuệ nhân tạo, nhưng ông vẫn thừa nhận thách thức mà DeepSeek đặt ra khi vươn lên vị trí số 1 trên cửa hàng ứng dụng Apple vào cuối tuần qua.
DeepSeek đang gây ra sự lo lắng trong các công ty công nghệ Mỹ và trên thị trường chứng khoán vì hoạt động tốt trong thử nghiệm so với cả các mô hình AI của Meta và OpenAI.
DeepSeek là ứng dụng mới nhất trong một loạt ứng dụng của Trung Quốc tăng vọt về mức độ phổ biến tại Mỹ trong những tuần gần đây. Người Mỹ cũng đang sử dụng RedNote và Lemon8 của Trung Quốc như các lựa chọn thay thế cho TikTok, khi ứng dụng này bị đe dọa ngừng hoạt động.
Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống