Các nhà nghiên cứu tại Berkeley, Mỹ đã phát triển thành công một công nghệ mới, ứng dụng mạng nơ-ron nhân tạo (neural network) cho phép biến hình ảnh phẳng thành mô hình 3D.
Con người có thể dễ dàng giải thích về hình dạng của một đối tượng nhất định ngay khi chúng ta nhìn thấy. Đó là nhờ sự sắp xếp kỳ diệu của đôi mắt giúp con người có thể nhận thức được về chiều sâu hình ảnh, hay dễ dàng lý giải về các bộ phận không nhìn thấy của hình ảnh. Nhưng đó là với con người. Vậy liệu trí thông minh nhân tạo hay máy móc nói chung có thể làm được điều đó?
Các nhà khoa học tại Trung tâm nghiên cứu trí tuệ nhân tạo Berkeley, Mỹ đã đi tìm câu trả lời cho vấn đề trên với công trình nghiên cứu mới nhất. Nghiên cứu tập trung phát triển một mạng nơ-ron nhân tạo có khả năng biến hình ảnh 2 chiều thành 3 chiều.
Mặc dù công nghệ này không hoàn toàn mới mẻ nhưng điều đáng chú ý, mạng nơ-ron này đã tạo ra được các mô hình 3D chất lượng cao từ một hình ảnh duy nhất. Điều này tạo nền tảng khả thi nhất cho việc chuyển đổi bất cứ hình ảnh nào thành mô hình 3D chi tiết trong tương lai.
Các nhà nghiên cứu giải thích, việc tái cấu trúc 3D thông thường sử dụng tới mạng nơ-ron tích chập (CNN), một trong những mô hình Deep Learning tiên tiến giúp xây dựng các hệ thống thông minh có độ chính xác cao.
Theo Slashgear, các mạng nơ-ron tích chập sẽ dự đoán hình dạng của bất kỳ đối tượng trong không gian 3D. Quá trình này đòi hỏi các nhà nghiên cứu phải huấn luyện mạng nơ-ron nhân tạo bằng bộ dữ liệu mô hình CAD. Trong đó, mạng nơ-ron tích chập tạo ra rất nhiều bài giảng khác nhau về các vật thể. Tuy nhiên, việc xây dựng các vật thể ban đầu có thể sẽ chưa hoàn hảo do hạn chế nhất định liên quan đến dự đoán khối lượng.
Các nhà nghiên cứu đã giải quyết vấn đề trên bằng cách xây dựng trước những mô hình có độ phân giải thấp, từ đó tạo nền tảng tiếp tục hoàn thiện các mô hình độ phân giải cao hơn dựa vào hình ảnh phẳng.
Nhóm nghiên cứu khẳng định: "Chúng tôi khai thác tính chất hai chiều của bề mặt phẳng bằng cách chỉ dự đoán theo thứ bậc các điểm ảnh ba chiều có độ phân giải tốt".
Nhóm gọi đây là phương pháp "dự báo bề mặt theo cấp bậc", viết tắt là HSP. Phương pháp này hoạt động bằng cách dự đoán các điểm ảnh ba chiều có độ phân giải thấp tương ứng trên một vật thể nhất định. Mặc dù vậy, phương pháp này khác với cách tiếp cận của CNN, bằng cách phân loại mỗi điểm ảnh ba chiều dựa trên 3 điểm: không gian trống, ranh giới và không gian bị chiếm giữ. CNN chỉ sử dụng hai điểm.
Những hình ảnh cho thấy cách tạo mô hình 3D từ hình ảnh phẳng của hệ thống mạng nơ-ron.
Bằng cách tiếp cận đó, hệ thống mạng nơ-ron có thể dự đoán các chi tiết có độ phân giải tốt hơn và đưa ra kết quả tạo hình 3D có chất lượng tốt nhất.
Có thể thấy, công nghệ tái tạo hình học 3D từ hình ảnh số là vấn đề cốt lõi trong tầm nhìn về khoa học máy tính tương lai. Ứng dụng từ công nghệ này rất rộng lớn, bao gồm sản xuất nội dung trò chơi điện tử, thế giới ảo hay in ấn 3D.
Tiến Thanh
Cập nhật tin tức công nghệ mới nhất tại fanpage Công nghệ & Cuộc sống