Alibaba Cloud đã giới thiệu Wanx 2.1, phiên bản mới nhất của mô hình đa phương thức Tongyi Wanxiang (Wanx) - mô hình được ra mắt lần đầu vào tháng 7 năm 2023. Được thiết kế để tạo ra hình ảnh và video chất lượng cao từ văn bản đầu vào, Wanx 2.1 đánh dấu một bước tiến vượt bậc trong việc sáng tạo nội dung hình ảnh dựa trên trí tuệ nhân tạo.

Trailer được tung ra 1 ngày trước - 25/02/2025

Mô hình này xuất sắc trong việc tạo ra hình ảnh sống động bằng cách xử lý chính xác các chuyển động phức tạp, nâng cao chất lượng điểm ảnh, tuân thủ các quy tắc vật lý và tối ưu hóa độ chính xác trong việc thực hiện theo chỉ dẫn.

0:00
/0:05

Điều này đã giúp Wanx 2.1 đạt được điểm số tổng thể 84,7% trên bảng xếp hạng VBench – một bộ tiêu chuẩn toàn diện dành cho các mô hình tạo video.

Điểm số này được tính dựa trên các chỉ số quan trọng như:

  • Độ động (Dynamic Degree): Khả năng thể hiện chuyển động linh hoạt và tự nhiên.
  • Mối quan hệ không gian (Spatial Relationships): Độ chính xác trong việc duy trì sự liên kết giữa các đối tượng và bối cảnh trong khung hình.
  • Tương tác đa đối tượng (Multi-object Interactions): Khả năng xử lý các tình huống có nhiều đối tượng cùng tương tác.

Theo bảng xếp hạng này, Wanx 2.1 không chỉ đứng đầu bảng xếp hạng mà còn nằm trong top 3 các mô hình tạo video tốt nhất toàn cầu, tạo lợi thế cạnh tranh so với các đối thủ lớn như các mô hình của OpenAI, Google và những nhà phát triển khác.

Bảng dưới đây đây sẽ tóm tắt cho bạn thấy một số chỉ số hiệu năng chủ chốt:

Chỉ sốChi tiết
Điểm VBench84,7% (xếp hạng top 3 toàn cầu)
Độ phân giải Video1080p cho video 1 phút, chỉ mất 15 giây để tạo video
Ngôn ngữ Hỗ trợVăn bản tiếng Trung và tiếng Anh, hỗ trợ hiệu ứng văn bản đa ngôn ngữ
Mẫu Nghệ thuậtHơn 100 mẫu phong cách khác nhau (ví dụ: tranh sơn dầu, cyberpunk)
Xử lý Chuyển độngƯu điểm trong các chuyển động phức tạp (ví dụ: trượt băng, bơi lội, nhảy cao)

Nhóm nghiên cứu đằng sau Wanx 2.1 đã đạt được tiến bộ công nghệ đáng kể trên nhiều mặt. Trước hết, bằng cách tận dụng công nghệ VAE (Variational Autoencoder) độc quyền và khung DiT (Denoising Diffusion Transformer), mô hình này đã củng cố mối quan hệ thời gian và không gian, giúp xử lý các cảnh có chuyển động phức tạp và các quy tắc vật lý một cách tự nhiên và sống động.

Bên cạnh đó, việc áp dụng cơ chế chú ý toàn không gian-thời gian cho phép mô phỏng chính xác động lực phức tạp của thế giới thực, tạo nên các chuyển động mượt mà và tự nhiên trong từng khung hình. Những cải tiến này không chỉ nâng cao chất lượng hình ảnh mà còn rút ngắn thời gian tạo video, mang đến trải nghiệm sáng tạo nhanh chóng và trực quan cho người dùng.

Một điểm nổi bật khác của Wanx 2.1 là khả năng hỗ trợ hiệu ứng văn bản đa ngôn ngữ, với cả tiếng Trung và tiếng Anh. Điều này giúp mô hình phục vụ tốt hơn cho các ngành công nghiệp sáng tạo như thiết kế quảng cáo, sản xuất video ngắn, và nhiều ứng dụng khác trên toàn cầu.

Ví dụ minh họa (skating):
Văn bản gốc: 「平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后倾斜,展现了她的技巧和优雅」.

Dịch sang tiếng Anh: “A panoramic shot of a female figure skater performing on an ice rink. She is wearing a purple skating outfit and white skates, executing a spinning move. Her arms are outstretched, and her body leans backward, showcasing her skill and grace.”

Nhờ vào các cải tiến công nghệ như trên, Wanx 2.1 thể hiện khả năng tạo video với các chuyển động cơ thể quy mô lớn và những phép xoay phức tạp. Ngay cả trong những tình huống đầy thách thức như trượt băng nghệ thuật, bơi lội và nhảy cao, mô hình vẫn duy trì được sự phối hợp cơ thể và tuân thủ các quỹ đạo chuyển động thực tế, đặt ra tiêu chuẩn mới cho lĩnh vực tạo video bằng AI.

Hiện nay, Wanx 2.1 được cung cấp miễn phí trên trang web chính thức của Trung Quốc. Các nhà phát triển cá nhân và người dùng doanh nghiệp có thể khám phá tiềm năng của nó thông qua nền tảng AI tạo sinh của Alibaba Cloud, Model Studio, giúp tạo ra nội dung hình ảnh chất lượng cao phù hợp với nhu cầu riêng biệt, qua đó thu hẹp khoảng cách giữa công nghệ AI và các ngành sáng tạo.

Đối với mình, vấn đề lớn nhất mà nó chưa giải quyết được đó là giá thành. Hiện tại theo ước tính sơ bộ của mình dựa trên những gì mình thu thập được thì mô hình mới nhất của WanX vẫn tốn khoảng $0.6 - $0.8 cho một video 5 giây. Đây vẫn là một rào cản lớn khi chi phí cho Kling chỉ khoảng $0.15 - $0.2 cho video tương tự, dĩ nhiên tốc độ sẽ chậm hơn đáng kể.
Nhưng với người dùng, việc chờ 1-2 phút nhưng tiết kiệm đến 60-70% số tiền phải bỏ ra cũng vẫn xứng đáng. Hãy chờ xem phiên bản chính thức của WanX sẽ như thế nào!
Chia sẻ bài viết này