Ai-Da: Họa sĩ AI đầu tiên có hình dạng giống con người

Họa sĩ máy Ai-Da Robot

Ai-Da Robot đã phát triển thành "Họa sĩ máy" triển lãm cá nhân (solo) đầu tiên trên thế giới, gây tiếng vang không kém gì những sĩ đương đại nổi tiếng. Xưởng vẽ của "Cô", một căn phòng ốp gỗ nằm trong khuôn viên trường Đại học Oxford, có không gian tương đương với xưởng vẽ của sĩ chuyên nghiệp và có các tác phẩm nghệ thuật được trưng bày xung quanh.

Ai-Da không chỉ vẽ giỏi mà còn có thể giao lưu, trả lời các câu hỏi và chia sẻ ý kiến của riêng mình về nhiều vấn đề liên quan. "Cô" có cách phát biểu chậm rãi, dừng lại giữa các câu dường như để tìm kiếm từ phù hợp, giống như phong cách của các sĩ.

Từ phần cổ trở lên được đắp da silicon và mang bộ tóc giả chọn, robot Ai-Da được chế tạo dựa trên mô hình người thật. Mặc dù thân và tay chân của Ai-Da vẫn ở dạng máy móc cơ khí nhưng có thể dễ dàng giấu dưới các lớp trang phục.

Ngoài khả năng vẽ và pha màu thuần thục, các cử chỉ của Ai-Da cũng khá trơn tru, nhưng gương mặt chưa thực có hồn, đôi mắt tinh gần như bất động, chỉ thỉnh thoảng chớp chớp mi mắt. Điều này làm giảm đi một chút mức độ biểu cảm, nhưng nếu chỉ nhìn vào tác phẩm của Ai-Da, chắc chắn ai trong chúng ta cũng phải giật mình.

Dự án robots sĩ Ai-Da do Aidan Meller lãnh đạo, cùng với một nhóm kỹ sư tập trung vào robot có các đặc điểm giống con người do các nhà nghiên cứu tại Đại học Oxford tạo ra. Ai-Da phát ra tiếng nói thông qua loa gắn trên ngực, nhưng để quan sát thế giới xung quanh, cô sử dụng camera gắn trong đôi mắt y như người thật. Ai-Da sử dụng các thuật toán để ghi nhận hình ảnh và thể hiện lại dưới dạng các bức vẽ được tạo ra bởi các sinh viên đến từ đại học Leeds.

Ai-Da được trang bị công nghệ nhận dạng khuôn mặt, được hỗ trợ bởi trí thông minh nhân tạo. Cô có thể sử dụng thuật toán để ra lệnh cho chuyển động của cánh tay, đưa hình ảnh trước mặt vào kho lưu trữ và xử lý sau đó.

Tất nhiên, Ai-Da không thể hoàn thiện các bức vẽ mà cô ấy chỉ đưa ra "ý tưởng" và phác thảo, mà các nhà nghiên cứu phải diễn giải bản vẽ ý tưởng của cô ấy lên mặt phẳng Descartes (dạng đồ thị) rồi chạy chúng qua mạng nơ-ron AI, một hệ thống máy tính dựa trên não người được mô hình hóa.

Mạng nơron này sẽ "đọc" các thông số (tọa độ) và tạo ra hiệu ứng lăng kính độc đáo của nó. Một nghệ sĩ người thật sẽ hỗ trợ hoàn thiện bức vẽ sau khi hình ảnh tổng hợp được in lên canvas.

Theo Giám đốc dự án Meller, "chúng tôi coi chương trình này là sự khởi đầu, không còn nghi ngờ gì nữa, AI sẽ trở thành lĩnh vực quan trọng của những năm 2020." Theo như định nghĩa triết học, sự sáng tạo là một thứ gì đó mới mẻ, đáng ngạc nhiên và có giá trị. Nhóm phát triển nghĩ rằng các sản phẩm của Ai-Da đáp ứng các yêu cầu này mà mang đến sự phấn kích đáng ngạc nhiên.

Mặc dù tiềm năng của Ai-Da vẫn còn rất lớn và khó có thể dự đoán tài năng của "Cô" sẽ được bộc lộ đến mức nào, nhưng có thể khẳng định rằng nó sẽ không có giới hạn theo thời gian.

Tổ hợp Obvious

Trên thực tế, Ai-Da là sĩ AI đầu tiên vẽ bằng tay và có hình dạng giống như con người. Danh hiệu hoạ sĩ AI thành danh đầu tiên phải thuộc về một nhóm Obvious. Vào năm 2015, Gauthier Vernier, Pierre Fautrel và Hugo Caselles-Dupré là ba người Pháp đã sử dụng thuật toán dành cho AI có tên là GAN (Generative Adversarial Networks) được tạo bởi Ian Goodfellow và được sử dụng để giúp máy tính tổng hợp, phân tích dữ liệu và đưa ra quyết định trong lĩnh vực vẽ tranh.

Nhóm tác giả sử dụng hai nguồn dữ liệu một thật (training set) và một ảo (random) để thực hiện đào tạo có thể diễn giải một cách nôm na. Máy tính sẽ nhận một số dữ liệu từ trainning set, bao gồm một số hình vẽ và màu sắc cơ bản, cùng với một số định hướng, chẳng hạn như sắp xếp thế nào là hình tròn, hình vuông... Dần dà, máy tính sẽ có được tư duy logic cơ bản. Sau đó, các tập hợp dữ liệu bất kỳ sẽ được nạp vào tiếp theo và máy tính "tin rằng" đó chính là các dữ liệu từ ảnh thực.

Máy tính sẽ dần dần học cách xử lý các hình ảnh phức tạp hơn, chẳng hạn như một bức chân dung bao gồm các thành phần cơ bản như khuôn mặt phải có hai mắt, tóc phải mọc trên đầu... cao cấp hơn có thể xem xét đến trang phục, phụ kiện ứng với chủ đề, phong cách hoặc thời kỳ sáng tác.

Một biến thể phát triển từ GAN được thiết kế để tạo ra tác phẩm nghệ thuật sáng tạo được gọi là CAN (Creative Adversarial Networks). Từ khoảng 15.000 bức chân dung khác nhau được vẽ từ thế kỷ 14 đến thế kỷ 20, nhóm tác giả đã nạp dữ liệu. Các bức này có nhiều loại đối tượng khác nhau, chất liệu và phong cách hội đã thay đổi theo nhiều cách khác nhau. Sau khi máy tính đã đủ tinh thông—có thể tạm coi là trình độ đọc bức tranh ngang ngửa với chuyên gia—thìa là việc nạp vào một tạp hợp dữ liệu bất kỳ (tương tự như đưa cho sĩ một đống bột màu, sĩ máy tính dựa vào đó sẽ phải sáng tác một bức tranh tương ứng.

Nhóm tác giả đã công bố bộ sưu tập Gia đình Belamy, bao gồm 11 bức chân dung do máy tính vẽ hoàn toàn, vào năm 2018. Thuật toán cơ bản của GAN min G max D Ex [log (x)] + Ez [log (1-D (z)] chiếm phần "lạc khoản" ở mỗi bức chân dung. Bộ sưu tập đã được bán đấu giá tại nhà Christie ở New York và thành công vang dội.

Midjourney, DALL-E và hơn thế nữa

Máy tính sẽ tự động "suy nghĩ" và vẽ ra bức ranh theo tưởng tượng riêng của chính nó. Midjourney là một hệ thống AI có thể tạo hình ảnh từ các khẩu lệnh, tức là bạn chỉ cần ra đề bài bằng giọng nói, chẳng hạn chủ đề bức tranh là gì, phong cách hội nào, màu sắc ra sao... Midjourney hiện đang trong giai đoạn thử nghiệm Close Beta, bắt đầu vào khoảng cuối tháng 2 đầu đầu đầu đầu tháng 3 năm 2022 và hiện đang gây sốt trong giới hâm mộ.

Midjourney là một dự án mở khuyến khích người dùng tham gia, tất nhiên kèm theo một số điều kiện phải được đáp ứng. Chương trình Midjourney chạy chương trình trên một máy chủ Discord riêng dành cho những người được mời tham gia trong giai đoạn thử nghiệm Beta và máy chủ Discord này chỉ có thể truy cập vào AI.

Người tham gia chương trình có thể tạo 25 hình ảnh miễn phí trước khi cần đăng ký sản phẩm trên các kênh công khai có nhãn "Thành viên mới" nhờ Midjourney Discord. Các nghệ sĩ và nhà thiết kế tham gia thử nghiệm Beta đã bắt đầu chia sẻ những hình ảnh mà họ đã chụp bằng cách sử dụng Midjourney lên các nền tảng như Twitter và Instagram.

Các "tác phẩm" ban đầu được coi là khá ngô nghê, nhưng chất lượng của chúng đã được nâng cao theo thời gian, khiến cả các tác giả lẫn người xem đều thích thú. Xin lưu ý rằng Midjourney là một dự án đang trong giai đoạn thử nghiệm beta và không phải là một hệ thống máy tính AI hoàn chỉnh.

Vừa qua, một số kênh thông tin đã đưa ra các bức tranh hoàng tráng và "vu" cho thấy đây là tác phẩm hoàn toàn được tạo ra bởi trí tuệ nhân tạo bằng Midjourney AI. Nói một cách nôm na, đây là thông tin "fake". Người dùng phải liên tục tương tác với AI và cung cấp các lệnh để máy có thề dần điều chỉnh theo hướng người dùng mong đợi để tạo ra một tác phẩm tương đối hoàn chỉnh về chủ đề lẫn cách thể hiện. Tất nhiên, với những nét vẽ và màu sắc, hình khối ít nhiều sẽ mang tính bất ngờ và tạo ra kết quả hấp dẫn.

DALL-E là một mạng nơ-ron trí tuệ nhân tạo tiên tiến có thể tạo ra hình ảnh từ lời nhắc văn bản, giống như Midjourney. Nhóm OpenAI bắt đầu dự án với các xuất phát điểm hấp dẫn. Cái tên DALL-E được ghép từ hai tên: một là Salvador Dalí, sĩ trường phái ấn tượng tài ba của xứ sở bò tót; và hai là sản phẩm (tưởng tượng) của hãng phim hoạt hình Pixar, chú (cô) người máy WALL-E nổi tiếng trong bộ phim cùng tên.

Theo nhóm sáng tạo, cái tên này phản ánh hình ảnh giả tưởng (có thể nói là ít nhiều hài hước) trong các bức tranh siêu thực của Dalí, kết hợp giấc mơ và tưởng tượng đến từ Hollywood. Được biết, Dalí và Walt Disney đã từng hợp tác trong một bộ phim hoạt hình ngắn có tên "Destino" vào năm 1946. Lạ ở chỗ phải hơn 50 năm sau bộ phim mới được phát hành, có thể qua đây chúng ta mới có thể khám phá được chất vị lai của danh.

Mạng nơ-ron thần kinh AI của DALL-E học hỏi từ nhiều nguồn trực tuyến và xử lý hàng tỷ ngôn ngữ tự nhiên. Về nhiều mặt, nó vượt trội hơn một người bình thường và có thể coi đây là khả năng tự học (tự đào tạo). Dần dà, nó có thể tạo câu chuyện, mã lệnh, dịch chéo giữa các ngôn ngữ và thực hiện các phép tính toán học phức tạp khác, chẳng hạn như xử lý và sáng tạo hình ảnh.

DALL-E không chỉ là một dự án mang tính chất chơi, mà nó thực sự có thể mang lại những lợi ích đặc biệt. Ví dụ từ một lệnh văn bản "Một ma-nơ-canh nữ mặc áo khoác da đen và váy xếp ly vàng" sẽ cung cấp hàng loạt câu trả lời bằng hình ảnh sáng tạo và hết sức khác biệt. Chắc chắn nó sẽ ứng dụng đầu tiên trong lĩnh vực thiết kế, thử nghiệm trang phục và sau đó là các lĩnh vực như thiết kế sân vườn, trang trí nội thất và hơn thế nữa.

Một quả bơ (Avocado) và một chiếc ghế bành được mô tả trong hình minh theo DALL-E. Ai dám nói đây chỉ là những nét vẽ siêu tưởng chứ không phải là những gợi ý tuyệt vời cho các nhà thiết kế nội thất? Rõ ràng, các "Hoạ sĩ AI" đang chứng minh tính hữu dụng của mình và chắc chắn sẽ tìm được "chỗ đứng" xứng đáng trong xã hội tương lai.

Theo Tạp chí Điện tử

Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống