Claude 3.5 Sonnet của Anthropic vượt qua GPT-4o trong hầu hết các bài kiểm tra hiệu năng

Anthropic đã ra mắt Claude 3.5 Sonnet, mô hình tầm trung của họ, vượt trội hơn so với các đối thủ và thậm chí còn vượt qua cả mô hình cao cấp hiện tại của Anthropic là Claude 3 Opus trong nhiều đánh giá khác nhau.

Claude 3.5 Sonnet hiện có thể truy cập miễn phí trên Claude.ai và ứng dụng Claude trên iOS, với hạn mức cao hơn cho các thuê bao của kế hoạch Claude Pro và Team. Nó cũng có sẵn thông qua API của Anthropic, Amazon Bedrock và Vertex AI của Google Cloud. Mô hình này có giá 3 USD cho mỗi triệu token đầu vào và 15 USD cho mỗi triệu token đầu ra, với cửa sổ ngữ cảnh 200K token.

Anthropic tuyên bố rằng Claude 3.5 Sonnet “đặt ra các chuẩn mực mới trong ngành về lý luận ở trình độ sau đại học (GPQA), kiến thức ở trình độ đại học (MMLU), và khả năng mã hóa (HumanEval).” Mô hình này cho thấy khả năng nâng cao trong việc hiểu sắc thái, hài hước, và các hướng dẫn phức tạp, đồng thời xuất sắc trong việc tạo ra nội dung chất lượng cao với tông tự nhiên.

Hoạt động với tốc độ gấp đôi Claude 3 Opus, Claude 3.5 Sonnet rất phù hợp cho các nhiệm vụ phức tạp như hỗ trợ khách hàng nhạy cảm theo ngữ cảnh và tổ chức quy trình công việc nhiều bước. Trong một đánh giá nội bộ về khả năng mã hóa, nó đã giải quyết được 64% vấn đề, vượt trội so với Claude 3 Opus ở mức 38%.

Mô hình cũng thể hiện khả năng thị giác được cải thiện, vượt qua Claude 3 Opus trên các bài kiểm tra thị giác tiêu chuẩn. Sự tiến bộ này đặc biệt rõ rệt trong các nhiệm vụ yêu cầu lập luận hình ảnh, như phân tích biểu đồ và đồ thị. Claude 3.5 Sonnet có thể chuyển văn bản từ các hình ảnh không hoàn hảo một cách chính xác, một tính năng có giá trị đối với các ngành như bán lẻ, logistics và dịch vụ tài chính.

Cùng với việc ra mắt mô hình, Anthropic giới thiệu Artifacts trên Claude.ai, một tính năng mới giúp tăng cường tương tác của người dùng với trí tuệ nhân tạo. Tính năng này cho phép người dùng xem, chỉnh sửa và xây dựng nội dung được tạo ra bởi Claude trong thời gian thực, tạo ra môi trường làm việc hợp tác hơn.

Mặc dù có sự tiến bộ đáng kể về trí tuệ, Claude 3.5 Sonnet vẫn duy trì cam kết của Anthropic đối với an toàn và bảo mật. Công ty cho biết, “Các mô hình của chúng tôi được kiểm tra nghiêm ngặt và đã được huấn luyện để giảm thiểu việc sử dụng sai mục đích.”

Các chuyên gia bên ngoài, bao gồm Viện An toàn AI của Vương quốc Anh (UK AISI) và các chuyên gia an toàn trẻ em tại Thorn, đã tham gia vào việc kiểm tra và điều chỉnh các cơ chế an toàn của mô hình.

Anthropic nhấn mạnh cam kết của mình đối với quyền riêng tư của người dùng, cho biết, “Chúng tôi không huấn luyện các mô hình sinh sản của mình trên dữ liệu do người dùng gửi nếu người dùng không cho phép chúng tôi làm điều đó. Đến nay, chúng tôi chưa sử dụng bất kỳ dữ liệu khách hàng hoặc dữ liệu do người dùng gửi để huấn luyện các mô hình sinh sản của chúng tôi.”

Về phía trước, Anthropic dự định phát hành Claude 3.5 Haiku và Claude 3.5 Opus vào cuối năm nay để hoàn thiện gia đình mô hình Claude 3.5. Công ty cũng đang phát triển các phương thức và tính năng mới để hỗ trợ nhiều trường hợp sử dụng trong doanh nghiệp, bao gồm tích hợp với các ứng dụng doanh nghiệp và tính năng nhớ để cải thiện trải nghiệm cá nhân hóa cho người dùng.

☞ Có thể bạn quan tâm