Mô hình trí tuệ nhân tạo Sora của OpenAI gợi lại những câu hỏi mà phim Ma Trận nêu ra từ 25 năm trước

Cách đây không lâu, OpenAI - đơn vị cung cấp dịch vụ AI ChatGPT và DALL-E - chính thức tiết lộ sản phẩm mới. Họ cho ra mắt một hệ thống trí tuệ nhân tạo có tên Sora, có khả năng sản sinh video từ những câu lệnh/đề bài, hay thuật ngữ gọi là các "prompt", do người dùng nhập vào.

Đại đa số người dùng hào hứng với tiến bộ mới trong hoạt động sản sinh nội dung, trong khi đó một số không nhỏ các chuyên gia cau mày theo dõi sát sao tiến trình phát triển của Sora. Hiện tại, công cụ Sora mới chỉ được cấp tới tay một nhóm người dùng nhất định.

Trực tiếp nhìn vào video được tạo ra, ta có thể lập tức nhận thấy lợi ích của Sora là sản sinh video chân thực một cách đáng ngạc nhiên.

Prompt được sử dụng: Góc nhìn từ drone của những con sóng đập vào những vách đá gập ghềnh dọc bãi biển ở Big Sur. Những dòng nước xanh đập vào tạo thành những con sóng trắng xóa trong khi ánh sáng vàng của Mặt Trời lặn chiếu sáng bờ đá. Một hòn đảo nhỏ với ngọn hải đăng nằm ở phía xa, và bụi cây xanh phủ kín mép vách đá. Độ dốc từ con đường xuống bãi biển vô cùng ấn tượng, với mép vách đá nhô ra phía trên biển. Đây là một khung cảnh lột tả vẻ đẹp hoang sơ của bờ biển và phong cảnh gập ghềnh của Đại lộ Bờ Tây Thái Bình Dương.

Theo nhận định của giáo sư Linxi "Jim" Fan, hiện đang đảm nhiệm vai trò nhà nghiên cứu khoa học cấp cao tại NVIDIA và lãnh đạo dự án AI Agents Initiative, ông cho rằng Sora không đơn giản là một "món đồ chơi sáng tạo giống DALL-E".

Theo ông Jim Fan, Sora là một engine vật lý sản sinh nội dung dựa trên dữ liệu đã được học, tức là Sora có khả năng tạo ra các tương tác vật lý chân thực, tương đồng với các engine được sử dụng trong làm game như Source 1 & 2 (của Valve, sử dụng trong series Half-Life), REDengine (của CDPR, sử dụng trong series Witcher và Cyberpunk 2077) hay Fox Engine (của Konami, sử dụng trong series PES 2014-2019 và Metal Gear Solid V).

Trích lời giáo sư Fan từ bài đăng trên nền tảng X, thì Sora "là phiên bản mô phỏng của nhiều thế giới, dù thực tế hay giả tưởng. Trình mô phỏng học được cách xuất hình phức tạp, vật lý 'trực quan', suy luận dài hạn, và cơ sở ngữ nghĩa, tất cả nhờ vào một số phép toán lọc nhiễu và đạo hàm."

Trong bài phân tích của mình, giáo sư Fan sử dụng video quảng bá Sora do chính OpenAI đăng tải. Nội dung video và bài phân tích như sau:

Prompt được sử dụng: "Video cận cảnh chủ nghĩa ảnh thật của hai con tàu hải tặc chiến đấu với nhau khi chúng lênh đênh trên chiếc cốc cà phê".

Bài phân tích của giáo sư Jim Fan:

- Trình mô phỏng tạo ra hai vật thể 3D tinh xảo: những con tàu hải tặc có trang trí ngoại hình đa dạng. Sora đã phải giải quyết vấn đề từ văn bản sang 3D một cách ngầm định trong không gian tiềm tàng* của nó.

- Đối tượng 3D được hoạt hình một cách nhất quán, khi chúng căng buồm di chuyển và tránh đường đi của nhau.

- Thủy lực học của dòng cà phê, kể cả bọt biển hình thành xung quanh các con tàu. Mô phỏng chất lỏng là một lĩnh vực riêng lớn trong đồ họa máy tính, vốn đòi hỏi các thuật toán và phương trình phức tạp.

- Sản phẩm được làm theo phong cách ảnh thật, cứ như được dựng với công nghệ dò tia ray-tracing**.

- Trình mô phỏng tính đến kích thước nhỏ của chiếc cốc so với đại dương, và áp dụng kỹ thuật tilt-shift*** để tạo ra cảm giác "nhỏ bé".

- Ngữ nghĩa của cảnh không tồn tại trong thế giới thực, nhưng engine vẫn áp dụng chính xác các quy tắc vật lý mà chúng ta mong đợi.

* Không gian tiềm tàng, tạm dịch từ "latent space", có thể hiểu là vùng không gian nơi máy thực hiện những suy luận toán học dựa trên dữ liệu vốn có.

** Ray-tracing là một kỹ thuật đồ họa máy tính dùng để tạo ra hình ảnh với độ chân thực cao bằng cách mô phỏng sự lan truyền của ánh sáng trong môi trường ba chiều.

*** Về nguyên tắc, tilt-shift là kĩ thuật dịch chuyển hoặc nghiêng ống kính (chuyên dụng) để tạo ra những bức ảnh mà chủ thể trong ảnh có kích thước trông nhỏ hơn so với thực tế. Từ tilt-shift nhắc đến hai cách dịch chuyển khác nhau: tilt có nghĩa là quay (nghiêng) ống kính và shift là dịch chuyển ống kính song song với mặt phẳng của ảnh. Việc quay ống kính giúp bạn điều khiển được mặt phẳng tiêu diện (plane of focus (PoF) tạo hiệu ứng chỉ làm rõ một phần của bức ảnh, cụ thể là ảnh chỉ sắc nét ở bề ngang giữa ảnh và bị mờ hai vùng trên và dưới.

Video có hiệu ứng vật lý chân thực cũng thu hút sự chú ý của chuyên gia Việt Nam về công nghệ AI ứng dụng, anh Nguyễn Hồng Phúc. Ý tưởng về một engine kiến tạo thành công một thế giới ảo có tương tác vật lý như thật khiến anh liên tưởng tới loạt phim Ma Trận, nơi AI sử dụng con người như một nguồn năng lượng vĩnh cửu khi không còn ánh nắng Mặt Trời.

Nhìn vào độ chân thực của những video ban đầu này, khó có thể mường tượng ra nội dung tương lai có thể thật tới mức nào. Điều đó làm dấy lên một câu hỏi mang tính triết học nữa: liệu chúng ta có đang sống trong một thế giới giả tưởng?

Câu hỏi lớn phái sinh ra từ series Ma Trận

"Thật là gì?", Morpheus hỏi Neo, và đồng thời khiến hàng triệu người xem Ma Trận lập tức đặt nghi vấn lên chính cái ghế mình đang ngồi. Đoạn phim sau sẽ mô tả rõ hơn câu hỏi lớn ấy.

Ma Trận là gì?

Trong báo cáo khoa học đăng tải hồi 2003, biên soạn bởi giáo sư triết học Nick Bostrom hiện đang công tác tại Đại học Oxford, người đọc có thể thấy vấn đề xoay quanh một siêu trí tuệ/siêu AI phức tạp nhường nào. Một hệ thống như vậy có thể mang lại những khía cạnh thực sự phi thường, phi tự nhiên tới cho con người.

Một vài khía cạnh đáng chú ý trong đó bao gồm:

"Siêu trí tuệ sẽ là phát minh cuối cùng con người cần thực hiện"

Một siêu AI có thể có khả năng tự nghiên cứu và thúc đẩy công nghệ phát triển vượt bậc một cách nhanh chóng, hơn rất nhiều tốc độ hiện nay.

"Siêu trí tuệ sẽ dẫn tới sự thành thành của nhiều những siêu trí tuệ tiên tiến"

Chúng có thể tự hành, tự sửa lỗi và tự cải thiện chính mình.

"Tiến trình phát triển công nghệ trong mọi lực vực sẽ được đẩy cao nhờ sự xuất hiện của một trí tuệ nhân tạo tiên tiến"

Những ứng dụng của một siêu AI như vậy gồm có

- Máy tính với sức tính toán mạnh mẽ.

- Vũ khí tiên tiến, có khả năng giải giới vũ khí hạt nhân một cách an toàn.

- Hỗ trợ du hành không gian, tự tạo ra tàu du hành liên sao.

- Loại bỏ giới hạn tuổi tác và bệnh tật.

- Tinh chỉnh tâm trạng, cảm xúc và động cơ của con người.

- Tải não lên máy tính mà vẫn lưu giữ được ký ức và tính cách.

- Hồi sinh bệnh nhân đông lạnh.

- Kiến tạo thực tế ảo hoàn toàn tương đồng với thực tế.

Một lần nữa, chúng ta lại thấy trí tuệ nhân tạo tiên tiến song hành với khái niệm một thực tế ảo thật như thực tế. Khi tạo ra được một thế giới số sở hữu mọi tương tác vật lý như chúng ta đang biết, một người sống trong đó không có lý do gì để nghi ngờ thực tại quanh mình. Trừ khi … họ đủ thông minh, và đủ công nghệ để tạo ra một thế giới như thế, để rồi tự vấn xem thế giới của mình là thực hay ảo.

Cũng trong báo cáo nghiên cứu của giáo sư Nick Bostrom, ông đưa ra ba khả năng mà trong đó, một trong ba có thể xảy ra:

Con người sẽ diệt vong trước khi tới được giai đoạn "hậu con người".

Có rất ít khả năng rằng một nền văn hóa "hậu con người" nào đang chạy rất nhiều chương trình giả lập về lịch sử tiến hóa của họ.

Gần như chắc chắn ta đang sống trong một chương trình giả lập máy tính.

Về cơ bản, triết gia Nick Bostrom nói rằng hoặc con người sẽ ra đi trước khi nhìn thấy một tương lai do trí tuệ nhân tạo viết nên; hoặc ít nền văn minh tiên tiến nào muốn xây dựng nên một môi trường giả lập như vậy; hoặc chúng ta đã đang sống trong môi trường giả lập đó rồi.

Thế cuối cùng là thật hay ảo?

Câu hỏi quá khó để trả lời, khi chúng ta còn chưa thể dự báo chính xác ngày mai nắng hay mưa. Nhưng hãy để tôi kể một câu chuyện về Aristarchus xứ Samos, để xem liệu con cháu ngày sau có lật lại lập luận của Nick Bostrom mà rằng, "ông đã đúng".

Aristarchus vùng Samos là một nhà thiên văn học và toán học người Hy Lạp cổ đại, nổi tiếng với những giả thuyết thiên văn học đúng với thực tế nhưng … sai thời điểm.

Sinh ra trên đảo Samos, ông là một trong những người đầu tiên đề xuất mô hình nhật tâm, đặt Mặt Trời chứ không phải Trái Đất ở trung tâm. Ý tưởng này lúc bấy giờ rất tiên tiến nhưng không ai chấp nhận, bởi lẽ người đương thời sử dụng mô hình địa tâm của Aristotle và Ptolemy.

Phải tới gần 2.000 năm sau, thuyết nhật tâm mới một lần nữa được khơi lại bởi Nicolaus Copernicus (1473-1543), và được cung cấp thêm bằng chứng bởi Johannes Kepler (1571-1630) và Galileo Galilei (1564-1642), để rồi được đại chúng hóa bởi Isaac Newton và lý thuyết về vạn vật hấp dẫn.

Tốc độ khám phá vật lý có thể phải kéo dài hàng thiên niên kỷ, nhưng tốc độ tịnh tiến của công nghệ hiện đại thì nhanh hơn nhiều. Rất có thể, chúng ta sẽ chỉ phải chờ không lâu (lắm) để biết: bằng trí tuệ nhân tạo tiên tiến, con người có thể tạo ra một thế giới giả lập y như thật hay không.

Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống