NVIDIA giới thiệu các tiến bộ mới nhất trong trí tuệ nhân tạo hình ảnh

Các nhà nghiên cứu của NVIDIA đang trình bày các mô hình và kỹ thuật trí tuệ nhân tạo sinh hình ảnh mới tại Hội nghị Nhận diện Hình ảnh và Mẫu mực (CVPR) diễn ra tuần này (từ ngày 17 đến 21 tháng 6) tại Seattle (Mỹ). Các tiến bộ này bao gồm các lĩnh vực như tạo hình ảnh tùy chỉnh, chỉnh sửa cảnh 3D, hiểu ngôn ngữ hình ảnh và nhận thức xe tự hành.

“Trí tuệ nhân tạo, đặc biệt là trí tuệ nhân tạo sinh hình ảnh, đại diện cho một tiến bộ công nghệ quan trọng,” như Jan Kautz, Phó Chủ tịch nghiên cứu về học tập và nhận thức tại NVIDIA, đã nói.

“Tại CVPR, NVIDIA Research đang chia sẻ cách chúng tôi đẩy giới hạn của những gì có thể làm được – từ các mô hình tạo hình ảnh mạnh mẽ có thể tăng tốc cho các nhà sáng tạo chuyên nghiệp đến phần mềm lái xe tự động có thể giúp kích hoạt thế hệ xe tự lái tiếp theo.”

Trong số hơn 50 dự án nghiên cứu của NVIDIA được trình bày, hai bài báo đã được chọn làm đề cử cho Giải thưởng Bài báo Xuất sắc nhất của CVPR – một nghiên cứu về động lực huấn luyện của các mô hình phân tán và một nghiên cứu về bản đồ định nghĩa cao cho xe tự lái.

Ngoài ra, NVIDIA đã giành chiến thắng trong thử thách lớn về Lái xe Tự động của CVPR, với dòng sản phẩm Lái xe Từ Đầu đến Cuối ở quy mô lớn, vượt qua hơn 450 đăng ký từ khắp nơi trên thế giới. Mốc son này cho thấy sự tiên phong của NVIDIA trong việc sử dụng trí tuệ nhân tạo sinh hình ảnh cho các mô hình xe tự lái toàn diện, đồng thời cũng đạt được Giải Thưởng Đổi mới từ CVPR.

Một trong những dự án nghiên cứu nổi bật là JeDi, một kỹ thuật mới cho phép nhà sáng tạo nhanh chóng tùy chỉnh các mô hình diffusion – phương pháp hàng đầu cho việc sinh hình ảnh từ văn bản – để miêu tả các đối tượng hoặc nhân vật cụ thể chỉ bằng vài hình ảnh tham khảo, thay vì quá trình tinh chỉnh chi tiết trên các bộ dữ liệu tùy chỉnh mất nhiều thời gian.

Một đột phá khác là FoundationPose, một mô hình nền tảng mới có thể ngay lập tức hiểu và theo dõi vị trí 3D của các đối tượng trong video mà không cần huấn luyện cho từng đối tượng. Nó đã thiết lập kỷ lục hiệu suất mới và có thể mở khóa các ứng dụng AR (Augmented Reality) và robotics mới.

Các nhà nghiên cứu của NVIDIA cũng giới thiệu NeRFDeformer, một phương pháp để chỉnh sửa cảnh 3D được ghi lại bởi Neural Radiance Field (NeRF) bằng cách sử dụng một ảnh 2D duy nhất, thay vì phải thủ công thực hiện lại các thay đổi hoặc tái tạo NeRF hoàn toàn. Điều này có thể tối ưu hóa quá trình chỉnh sửa cảnh 3D cho đồ họa, robotics và các ứng dụng digital twin.

Trong lĩnh vực ngôn ngữ hình ảnh, NVIDIA đã hợp tác với MIT để phát triển VILA, một họ mô hình ngôn ngữ hình ảnh mới đạt được hiệu suất tiên tiến trong việc hiểu hình ảnh, video và văn bản. Với khả năng suy luận nâng cao, VILA có thể hiểu được cả những meme internet bằng cách kết hợp hiểu biết về hình ảnh và ngôn ngữ.

Nghiên cứu trí tuệ nhân tạo hình ảnh của NVIDIA bao gồm nhiều ngành công nghiệp, bao gồm hơn mười bài báo khám phá các phương pháp mới cho việc nhận thức, ánh xạ và lập kế hoạch cho xe tự động. Sanja Fidler, Phó Chủ tịch nhóm nghiên cứu trí tuệ nhân tạo của NVIDIA, đang trình bày về tiềm năng của các mô hình ngôn ngữ hình ảnh đối với các xe tự lái.

Sự đa dạng của nghiên cứu CVPR của NVIDIA là minh chứng cho việc trí tuệ nhân tạo sinh hình ảnh có thể giúp các nhà sáng tạo, thúc đẩy tự động hóa trong sản xuất và chăm sóc sức khỏe, đồng thời thúc đẩy tiến bộ về tự động hóa và robotics.

(Nguồn: https://www.artificialintelligence-news.com/)

☞ Có thể bạn quan tâm