Đối thủ mạnh nhất của Seedance 2.0 đã xuất hiện

Gần đây, lĩnh vực tạo video AI đã có một tin lớn. Google được cho là đang thử nghiệm một mô hình tạo video mới với mã Gemini Omni, và một người dùng đã vô tình kích hoạt quyền truy cập trong ứng dụng Gemini. Dựa trên kết quả thử nghiệm bị rò rỉ, Gemini Omni hoạt động đáng chú ý trong nhiều kịch bản quan trọng và có thể là đối thủ mạnh nhất mà Seedance 2.0 từng đối mặt.

Gemini Omni là gì

Theo các ảnh chụp màn hình bị rò rỉ, Gemini Omni được mô tả là “mô hình tạo video mới” của Google. Nó không chỉ hỗ trợ tạo video từ đầu mà còn có khả năng remix video, chỉnh sửa theo cuộc trò chuyện và tạo dựa trên mẫu. Nói ngắn gọn, mục tiêu của nó không phải là “tạo một video clip” mà là cho phép người dùng sửa đổi nội dung video thông qua các tương tác giống như trò chuyện.

Tuy nhiên, Google vẫn chưa phát hành chính thức, và quyền truy cập thử nghiệm bị rò rỉ đã nhanh chóng bị thu hồi. Vì vậy, so sánh sau chủ yếu dựa trên các clip thử nghiệm đã xuất hiện trên mạng.

Thử nghiệm 1: Kết xuất văn bản bảng toán phức tạp

Một vấn đề lâu đời trong tạo video AI là tính nhất quán của văn bản. Nhiều mô hình tạo ra bảng hoặc giấy với văn bản bị xáo trộn, hoặc chữ viết không khớp giữa các cú quay.

Trong thử nghiệm bị rò rỉ, ai đó đã sử dụng một câu prompt để tạo video 10 giây với Gemini Omni: một giáo sư viết chứng minh đẳng thức lượng giác trên bảng và giải thích bước hiện tại.

Kết quả cho thấy các công thức toán học trên bảng nhìn chung có thể đọc được và tương đối ổn định trong suốt chuyển động camera. Mặc dù kiểm tra kỹ vẫn có thể phát hiện một số tạo tác AI, nhưng sự cải thiện so với các mô hình trước là rõ ràng.

Để so sánh công bằng, chúng tôi đã đưa cùng một prompt cho Seedance 2.0. Seedance 2.0 vẫn xuất sắc về tính chân thực của hình ảnh và ánh sáng, nhưng độ chính xác toán học của nội dung bảng hơi sai lệch, và một số kết xuất văn bản vẫn còn mờ.

Mục so sánh	Gemini Omni (Phiên bản rò rỉ)	Seedance 2.0
Tính chân thực hình ảnh	Xuất sắc	Xuất sắc
Khả năng đọc văn bản	Tốt, các công thức phần lớn có thể đọc được	Trung bình, một số văn bản mờ
Độ ổn định của camera	Ổn định	Ổn định

Thử nghiệm này cho thấy kết xuất văn bản đang trở thành một chiến trường mới giữa các mô hình hàng đầu. Đối với video hướng dẫn cần hiển thị văn bản, công thức hoặc thao tác giao diện, khả năng này đặc biệt quan trọng.

Thử nghiệm 2: “Will Smith ăn mì ống”

Prompt này đã trở thành tiêu chuẩn cho hầu như mọi mô hình tạo video. Thử nghiệm tập trung vào việc liệu chuyển động của nhân vật có tự nhiên hay không, liệu vật lý của đối tượng có chính xác không, và liệu quá trình ăn có nhất quán không.

Trong phiên bản do Gemini Omni tạo, ngoại hình nhân vật và bầu không khí cảnh quan khá chân thực. Tuy nhiên, một số khán giả nhận thấy một vấn đề chi tiết: không có mì ống trên đĩa trước khi nhân vật ngồi xuống, nhưng nó xuất hiện sau khi ngồi; sau đó trong khi ăn, mì ống biến mất một cách khó hiểu. Điều này cho thấy mô hình vẫn có khoảng trống trong logic vật lý chuỗi dài.

Chúng tôi đã nhập cùng một prompt phức tạp vào Seedance 2.0. Về tính tự nhiên của hành động ăn, Seedance 2.0 thực hiện mượt mà hơn. Nhịp nhai, chuyển động của tay và tương tác với thức ăn nhất quán hơn với vật lý thế giới thực.

Mục so sánh	Gemini Omni (Phiên bản rò rỉ)	Seedance 2.0
Ngoại hình nhân vật	Chân thực	Chân thực
Bầu không khí cảnh	Cảm giác nhà hàng sang trọng mạnh	Ánh sáng và kết cấu xuất sắc
Tính nhất quán của hành động ăn	Không liên tục, vật lý cần cải thiện	Tự nhiên hơn, chuỗi hành động hoàn chỉnh

Trong vòng này, Seedance 2.0 chiếm ưu thế về vật lý hành động và tính nhất quán logic.

Khả năng chỉnh sửa video của Gemini Omni

Bên cạnh việc tạo, Gemini Omni còn thể hiện khả năng chỉnh sửa video đáng ngạc nhiên. Ví dụ:

Thay thế mì ống trong video trực tiếp bằng một bát soup tom yum Thái;
Xóa watermark Sora khỏi video trong khi giữ cho footage nhất quán.

Nếu khả năng này được giữ nguyên khi phát hành chính thức, giá trị thực tiễn của nó sẽ rất lớn. Hiện tại, hầu hết các công cụ video AI đều khiến việc chỉnh sửa thứ cấp sau khi tạo trở nên khó khăn. Cách tiếp cận “chỉnh sửa theo cuộc trò chuyện” của Gemini Omni có thể thay đổi tình trạng này.

Video AI đang trở thành xu hướng chính

Bất kể hiệu suất cuối cùng của Gemini Omni như thế nào, một xu hướng đã rõ ràng: chất lượng video AI đang nhanh chóng tiếp cận tiêu chuẩn sản xuất chuyên nghiệp.

Gần đây, một số video ngắn được tạo bằng Seedance 2.0 đã nhận được sự chú ý lớn trên các nền tảng mạng xã hội. Ví dụ, một video ngắn AI được gọi là “Love, Death & Robots của Trung Quốc” đã được hoàn thành bởi nhà sáng tạo chỉ trong 10 ngày và đã nhận được đề nghị hợp tác từ các công ty phim. Video chim bồ câu được làm bởi nghệ sĩ kỹ thuật Runway Marko Slavnic sử dụng Seedance 2.0 đã đạt được hàng triệu lượt xem trong thời gian ngắn, với nhiều bình luận nói rằng họ “hoàn toàn không thể nhận ra đó là AI”.

Những trường hợp này cho thấy video AI không còn là đồ chơi nữa—nó đang trở thành một công cụ sáng tạo thực sự.

Suy nghĩ cuối cùng

Việc rò rỉ không mong muốn của Gemini Omni đã thêm nhiên liệu vào cuộc đua tạo video AI. Google có thể chính thức công bố sản phẩm tại hội nghị I/O tuần tới, và hiệu suất thực tế của nó sẽ đáng theo dõi.

Đối với người dùng thông thường, cạnh tranh giữa các mô hình là tin tốt—chất lượng tạo đang được cải thiện, rào cản gia nhập đang giảm và lựa chọn công cụ đang mở rộng. Seedance 2.0 vẫn ở top đầu về chất lượng hình ảnh, vật lý hành động và quy trình sáng tạo. Nếu bạn muốn trải nghiệm khả năng tạo video AI tiên tiến nhất hiện nay, bạn có thể bắt đầu ngay.

Bắt đầu với Seedance 2.0

Related searches: Seedance 2.0, Seedance tutorial, Seedance Chinese version, AI video generation comparison, Gemini Omni.