Trí tuệ nhân tạo mới của Google DeepMind có thể tuân theo các lệnh trong các trò chơi 3D mà nó chưa từng thấy trước đó.

“Nếu không có hướng dẫn, nó có thể hơi lạc lõng, tương tự như con người vậy.”

Google DeepMind vừa công bố nghiên cứu mới nhấn mạnh về một tác nhân trí tuệ nhân tạo có khả năng thực hiện một loạt các nhiệm vụ trong các trò chơi 3D mà nó chưa từng thấy trước đó. Đội ngũ này đã lâu nay thử nghiệm với các mô hình trí tuệ nhân tạo có thể chiến thắng trong các trò chơi như Go và cờ vua, và thậm chí học trò chơi mà không được nói về quy tắc của chúng. Bây giờ, lần đầu tiên, theo DeepMind, một tác nhân trí tuệ nhân tạo đã cho thấy nó có khả năng hiểu một loạt các thế giới trò chơi và thực hiện các nhiệm vụ trong chúng dựa trên hướng dẫn bằng ngôn ngữ tự nhiên.

Các nhà nghiên cứu đã hợp tác với các studio và nhà xuất bản như Hello Games (No Man’s Sky), Tuxedo Labs (Teardown) và Coffee Stain (Valheim và Goat Simulator 3) để huấn luyện Scalable Instructable Multiworld Agent (SIMA) trên chín trò chơi. Nhóm cũng sử dụng bốn môi trường nghiên cứu, bao gồm một được xây dựng trong Unity trong đó các tác nhân được hướng dẫn để tạo ra các tác phẩm nghệ thuật bằng cách sử dụng các khối xây dựng. Điều này đã cho SIMA, được mô tả là “một tác nhân trí tuệ nhân tạo tổng quát cho các cài đặt ảo 3D,” một loạt các môi trường và cài đặt để học, với một loạt các phong cách đồ họa và quan điểm (người chơi và thứ ba).

“Cứ mỗi trò chơi trong danh mục của SIMA mở ra một thế giới tương tác mới, bao gồm một loạt các kỹ năng để học, từ điều hướng đơn giản và sử dụng menu, đến khai thác tài nguyên, lái tàu vũ trụ hoặc chế tạo mũ bảo hiểm,” các nhà nghiên cứu viết trong một bài đăng trên blog. Việc học làm theo hướng dẫn cho các nhiệm vụ như vậy trong các thế giới trò chơi có thể dẫn đến các tác nhân trí tuệ nhân tạo hữu ích hơn trong bất kỳ môi trường nào, họ lưu ý.

A flowchart detailing how Google DeepMind trained its SIMA AI agent. The team used gameplay video and matched that to keyboard and mouse inputs for the AI to learn from.

Biểu đồ chi tiết về cách Google DeepMind đã huấn luyện tác nhân trí tuệ nhân tạo SIMA của mình. Nhóm đã sử dụng video Game và tương tự những cú nhấp chuột và phím trên bàn phím để tạo ra đầu vào cho trí tuệ nhân tạo học từ đó.

Các nhà nghiên cứu đã ghi lại con người chơi các trò chơi và ghi nhận các lần nhấp chuột và phím trên bàn phím được sử dụng để thực hiện các hành động. Họ đã sử dụng thông tin này để huấn luyện SIMA, có “bản đồ hình ảnh-ngôn ngữ chính xác và một mô hình video dự đoán những gì sẽ xảy ra tiếp theo trên màn hình.” Trí tuệ nhân tạo có khả năng hiểu một loạt các môi trường và thực hiện các nhiệm vụ để hoàn thành một mục tiêu cụ thể.

Các nhà nghiên cứu cho biết SIMA không cần mã nguồn của trò chơi hoặc quyền truy cập API — nó hoạt động trên các phiên bản thương mại của một trò chơi. Nó cũng chỉ cần hai đầu vào: những gì được hiển thị trên màn hình và hướng dẫn từ người sử dụng. Vì nó sử dụng cùng phương pháp đầu vào bàn phím và chuột như một con người, DeepMind cho rằng SIMA có thể hoạt động gần như trong bất kỳ môi trường ảo nào.

Tác nhân được đánh giá dựa trên hàng trăm kỹ năng cơ bản có thể thực hiện trong khoảng 10 giây hoặc hơn trên một số danh mục, bao gồm điều hướng (“rẽ phải”), tương tác với đối tượng (“nhặt nấm”) và các nhiệm vụ dựa trên menu, như mở một bản đồ hoặc chế tạo một mục. Cuối cùng, DeepMind hy vọng có thể ra lệnh cho các tác nhân thực hiện các nhiệm vụ phức tạp và đa giai đoạn dựa trên hướng dẫn bằng ngôn ngữ tự nhiên, chẳng hạn như “tìm kiếm tài nguyên và xây dựng một trại trại.”

Về hiệu suất, SIMA hoạt động tốt dựa trên một số tiêu chí huấn luyện. Các nhà nghiên cứu đã huấn luyện tác nhân trong một trò chơi ( đó là Goat Simulator 3, vì sự rõ ràng) và đã cho nó chơi cùng tựa game đó, sử dụng đó làm cơ sở để đánh giá hiệu suất. Một tác nhân SIMA được huấn luyện trong cả chín trò chơi hoạt động tốt hơn nhiều so với một tác nhân chỉ được huấn luyện trong Goat Simulator 3.

Chart showing hte relative performance of Google DeepMind's SIMA AI agent based on varying training data.

Biểu đồ thể hiện hiệu suất tương đối của tác nhân trí tuệ nhân tạo SIMA của Google DeepMind dựa trên dữ liệu huấn luyện khác nhau.

Điều đặc biệt thú vị là một phiên bản của SIMA đã được huấn luyện trong tám trò chơi khác sau đó chơi trò chơi còn lại và thực hiện gần như ở mức tốt, trung bình như một tác nhân chỉ được huấn luyện trong trò chơi đó. “Khả năng này để hoạt động trong môi trường mới hoàn toàn làm nổi bật khả năng tổng quát hóa của SIMA vượt ra ngoài phạm vi huấn luyện của nó,” DeepMind nói. “Đây là một kết quả khởi đầu hứa hẹn, tuy nhiên cần thêm nghiên cứu để SIMA có thể hoạt động ở mức độ của con người cả trong các trò chơi đã biết và chưa biết.”

Tuy nhiên, để SIMA thành công thực sự, cần có đầu vào ngôn ngữ. Trong các thử nghiệm mà một tác nhân không được cung cấp đào tạo hoặc hướng dẫn ngôn ngữ, nó (ví dụ) thực hiện hành động phổ biến của việc thu thập tài nguyên thay vì đi bộ theo hướng được chỉ định. Trong những trường hợp như vậy, SIMA “hành động một cách phù hợp nhưng mơ hồ,” các nhà nghiên cứu nói. Vì vậy, không chỉ có chúng ta là người thường. Các mô hình trí tuệ nhân tạo đôi khi cũng cần một chút động viên để hoàn thành công việc một cách đúng đắn.

DeepMind lưu ý rằng đây là nghiên cứu ở giai đoạn đầu và kết quả “cho thấy tiềm năng để phát triển một làn sóng mới của các tác nhân trí tuệ nhân tạo tổng quát, dựa trên ngôn ngữ.” Nhóm hy vọng AI sẽ trở nên linh hoạt và có thể tổng quát hóa hơn khi nó tiếp xúc với nhiều môi trường huấn luyện hơn. Các nhà nghiên cứu hy vọng các phiên bản sau của tác nhân sẽ cải thiện hiểu biết của SIMA và khả năng thực hiện các nhiệm vụ phức tạp hơn. “Cuối cùng, nghiên cứu của chúng tôi đang hướng tới các hệ thống trí tuệ nhân tạo tổng quát hơn và các tác nhân có thể hiểu và thực hiện một loạt các nhiệm vụ một cách an toàn một cách hữu ích cho mọi người trực tuyến và trong thế giới thực,” DeepMind nói.

☞ Có thể bạn quan tâm