Để cộng đồng nghiên cứu và sử dụng miễn phí, Cerebra tung 7 mô hình mã nguồn mở giống GPT.

Để cộng đồng nghiên cứu và sử dụng miễn phí, Cerebra tung 7 mô hình mã nguồn mở giống GPT.

Nhà nghiên cứu AI Alec Radford đã tạo ra mô hình ngôn ngữ lớn được gọi là GPT (Generative Pre-training Transformer) và sau đó được công ty khởi nghiệp OpenAI (Mỹ) sử dụng làm nền tảng cho ChatGPT và gần đây đã nâng cấp lên phiên bản GPT-4 mạnh mẽ.

Cerebras Systems, có trụ sở tại Thung lũng Silicon (Mỹ), đã phát hành bảy mô hình, tất cả đều được chế tạo trên siêu máy tính AI có tên Andromeda và bao gồm các mô hình ngôn ngữ nhỏ hơn 111 triệu tham số cho đến một mô hình ngôn ngữ lớn hơn với 13 tỉ tham số.

Theo Andrew Feldman, người sáng lập và Giám đốc điều hành Cerebras Systems, "Hiện nay có một phong trào lớn để đóng lại những gì được chia sẻ về mã nguồn mở trong AI." Điều này không ngạc nhiên khi có rất nhiều tiền đang được đầu tư vào lĩnh vực này. Mã nguồn mở trong AI được chia sẻ rộng rãi, điều này phần lớn góp phần vào sự phấn khích của cộng đồng và sự tiến bộ mà chúng ta đạt được.

Các chức năng generative (tạo sinh) phức tạp hơn có thể được thực hiện bởi các mô hình có nhiều tham số hơn.

Chẳng hạn, chatbot ChatGPT của OpenAI, ra mắt vào tháng 11.2022 với 175 tỉ tham số, có thể tạo thơ, đơn xin việc và thôi việc, sách điện tử, mã phần mềm... Điều này giúp thu hút nhiều sự quan tâm và tài trợ cho AI trên diện rộng hơn.

Theo Cerebras Systems, các mô hình nhỏ hơn có thể được triển khai trên iPhone hoặc loa thông minh, trong khi các mô hình lớn hơn chạy trên PC hoặc máy chủ, mặc dù các tác vụ phức tạp như tóm tắt đoạn văn lớn yêu cầu các mô hình lớn hơn.

Tuy nhiên, Karl Freund, nhà tư vấn chip tại công ty Cambrian AI, cho biết mô hình lớn hơn không phải lúc nào cũng tốt hơn.

Karl Freund giải thích: "Đã có một số bài viết thú vị được xuất bản minh một mô hình nhỏ hơn có thể chính xác nếu bạn huấn luyện nó nhiều hơn. Do đó, có sự khác biệt giữa mô hình lớn hơn và được đào tạo tốt hơn.

Do kiến trúc của Cerebras Systems, bao gồm chip có kích thước bằng chiếc đĩa ăn được chế tạo để huấn luyện AI, Andrew Feldman cho biết mô hình lớn nhất của ông mất hơn một tuần để huấn luyện, mặc dù công việc thường có thể mất vài tháng.

Mặc dù phần lớn mô hình AI hiện đang được huấn luyện trên chip của Nvidia, nhưng ngày càng có nhiều công ty khởi nghiệp như Cerebras Systems đang cố gắng chiếm thị phần trong thị trường đó.

Andrew Feldman tuyên bố rằng các mô hình được huấn luyện trên máy Cerebras Systems cũng có thể được sử dụng trên các hệ thống Nvidia để huấn luyện hoặc chỉnh thêm.

cerebra-tung-mo-hinh-ma-nguon-mo-giong-gpt.jpg
Siêu máy tính AI mới Andromeda của Cerebras System tại một trung tâm dữ liệu ở thành phố Santa Clara - Ảnh: Reuters

Với trụ sở chính tại thành phố Santa Clara (bang California, Mỹ), Nvidia đã thống trị ngành bán chip được sử dụng để tạo ra các công nghệ generative AI.

Máy tính được lập trình để tự động tạo ra nội dung mới, chẳng hạn như văn bản, hình ảnh, âm thanh và video, bằng cách sử dụng trí tuệ nhân tạo được gọi là kỹ thuật tạo văn bản. Nó khác với các hệ thống AI khác, chẳng hạn như máy học sâu (deep learning) hoặc học máy (machine learning), trong việc dự đoán kết quả từ dữ liệu có sẵn. Hệ thống generative AI có thể tự tạo ra dữ liệu mới và phong phú hơn thay vì dựa trên dữ liệu được huấn luyện. Các mô hình ngôn ngữ tự động tạo văn bản, các hệ thống nhận dạng hình ảnh, video và âm thanh đều là những ví dụ về cách sử dụng generative AI.

Những công nghệ mới này dựa trên việc huấn luyện hệ thống AI trên kho dữ liệu khổng lồ bằng cách sử dụng hàng ngàn chip Nvidia cùng lúc. Chẳng hạn, Microsoft đã tạo ra một hệ thống với hơn 10.000 chip Nvidia cho OpenAI để sử dụng trong việc tạo ra các công nghệ làm nền tảng cho ChatGPT, cụ thể là GPT.

Mặc dù có sự cạnh tranh trên thị trường chip AI từ AMD và một số công ty khởi nghiệp, nhưng Nvidia chiếm hơn 80% thị phần chip được sử dụng trong huấn luyện hệ thống AI.

Cổ phiếu Nvidia đã tăng mạnh trong năm 2023 nhờ sự bùng nổ về AI. Với giá trị vốn hóa thị trường hiện là 647 tỉ USD, Nvidia đã phát triển trở nên có giá trị gấp hơn 5 lần so với đối thủ lâu năm Intel.

Một số chuyên gia lo ngại rằng các kế hoạch tạo chatbot AI tương tự ChatGPT của các hãng công nghệ lớn Trung Quốc có thể bị cản trở do thiếu chip cung cấp sức mạnh tính toán khổng lồ cần thiết để hỗ trợ các mô hình AI tinh vi tại Hội nghị các nhà phát triển AI toàn cầu ở thành phố Thượng Hải cuối tháng 2.

Theo Zheng Weimin, giáo sư Đại học Thanh Hoa trực thuộc Học viện Kỹ thuật Trung Quốc, nếu Trung Quốc muốn tạo ChatGPT của riêng mình, chúng ta cần hàng chục ngàn chip Nvidia A100 để cung cấp sức mạnh tính toán cần thiết. Trung tâm dữ liệu của Nvidia, mà Mỹ đã cấm xuất khẩu sang Trung Quốc, được kết nối với A100 bằng chip AI.

Yang Fan, đồng sáng lập và Phó chủ tịch của SenseTime, công ty phần mềm AI hàng đầu của Trung Quốc đã bị Mỹ trừng phạt thương mại kể từ năm 2019, nhấn mạnh: "Trung Quốc vẫn chưa thể sản xuất chip và phần mềm có thể hỗ trợ ít nhất 50 đến 70% công suất tính toán cần thiết để chạy ChatGPT."

Các doanh nhân Trung Quốc bắt đầu tranh luận về việc nước này tụt hậu xa như thế nào so với ChatGPT và mô hình ngôn ngữ lớn GPT-4 mới được cập nhật của OpenAI,

Người sáng lập kiêm giám đốc điều hành công ty tìm kiếm Internet khổng lồ Baidu Lý Ngạn Hoành nhận thấy rằng khoảng cách chỉ là vài tháng. Chu Hồng Y, người sáng lập công ty an ninh mạng Qihoo 360, cho rằng khoảng cách là từ hai đến ba năm.

Theo Lý Ngạn Hoành, Ernie Bot chỉ đứng sau ChatGPT khoảng "1 hoặc 2 tháng" trong một chương trình phát sóng trực tiếp tại Geekpark, cộng đồng dành cho các chuyên gia công nghệ Trung Quốc.

"Theo phân tích của nhóm chúng tôi, Ernie Bot hiện ở mức mà ChatGPT đạt được vào tháng 1", Lý Ngạn Hoành nhận định lạc quan.

Chu Hồng Y nói rằng mô hình ngôn ngữ lớn của Trung Quốc "đi sau 2 đến 3 năm" so với GPT-4, trong khi Chu Hồng Y nói rằng tại Diễn đàn Phát triển Trung Quốc do chính phủ điều hành, mô hình này đã rõ ràng. Chu Hồng Y cho rằng Trung Quốc nên tiếp tục đầu tư vào công nghệ vì "không có trở ngại nào là không thể vượt qua" và hướng đi đã rõ ràng.

Theo một nghiên cứu gần đây về việc sử dụng AI để cải thiện thiết kế chip, Nvidia

Một nghiên cứu gần đây về cách AI có thể được sử dụng để cải thiện thiết kế chip vừa được Nvidia công bố.

Quá trình thiết kế chip đòi hỏi phải chọn vị trí đặt hàng chục tỉ bóng bán dẫn trên một miếng silicon để tạo ra chip hoạt động. Vị trí chính xác của các bóng bán dẫn đó có tác động đáng kể đến giá thành, tốc độ và mức tiêu thụ điện năng của chip.

Để tối ưu hóa vị trí của các bóng bán dẫn đó, các kỹ sư thiết kế chip sử dụng phần mềm thiết kế phức tạp từ công ty như Synopsys và Cadence Design Systems.

Hôm 27.3, Nvidia đã công bố một bài viết cho thấy rằng có thể sử dụng kết hợp các kỹ thuật AI để tìm ra những cách tốt hơn để đặt các nhóm bóng bán dẫn lớn. Mục đích của bài viết này là cải tiến bài viết năm 2021 của Google, mà kết quả sau đó trở thành chủ đề gây tranh cãi.

Nghiên cứu của Nvidia dựa trên nỗ lực hiện tại của các nhà nghiên cứu Đại học Texas (Mỹ) bằng cách sử dụng học tăng cường và thêm một lớp AI thứ hai để có được kết quả tốt hơn nữa.

Bill Dally, trưởng nhóm khoa học của Nvidia, cho biết công việc này rất quan trọng bởi các cải tiến trong sản xuất chip đang chậm lại và chi phí cho mỗi bóng bán dẫn trong các công nghệ sản xuất chip mới cao hơn so với các thế hệ trước. Điều này trái ngược với dự đoán nổi tiếng của Gordon Moore, người đồng sáng lập Intel, rằng các chip sẽ luôn rẻ hơn và nhanh hơn.

"Tăng tỷ lệ không còn mang lại lợi ích kinh tế như trước đây. Chúng ta không thể đạt được điều đó từ bóng bán dẫn rẻ hơn để tiếp tục tiến lên và mang lại nhiều giá trị hơn cho khách hàng. Bill Dally cho rằng để đạt được nó, chúng ta phải làm việc ít thông minh hơn trong thiết kế.

Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống

Nguồn tin:

 

Tham gia bình luận