قدرتمندترین رقیب Seedance 2.0 ظاهر شد

اخیراً، خبر بزرگی در حوزه تولید ویدیو با هوش مصنوعی منتشر شد. گزارشها حاکی از آن است که گوگل در حال آزمایش یک مدل جدید تولید ویدیو با کد رمز Gemini Omni است و یک کاربر به طور تصادفی به آن دسترسی پیدا کرد. بر اساس نتایج آزمایشهای فاش شده، Gemini Omni در چندین سناریوی کلیدی عملکرد قابل توجهی دارد و ممکن است قویترین رقیب Seedance 2.0 تا به امروز باشد.
Gemini Omni چیست
بر اساس تصاویر فاش شده، Gemini Omni به عنوان «مدل جدید تولید ویدیوی گوگل» توصیف شده است. این مدل نه تنها از تولید ویدیو از صفر پشتیبانی میکند، بلکه قابلیتهایی مانند بازترکیب ویدیو، ویرایش مکالمهای و استفاده از قالبها را نیز دارد. به طور خلاصه، هدف آن صرفاً «تولید یک ویدیو» نیست، بلکه میخواهد به کاربران امکان دهد محتوای ویدیویی را مانند چت تغییر دهند.
با این حال، گوگل هنوز این محصول را به طور رسمی منتشر نکرده است و دسترسی آزمایشی فاش شده نیز به سرعت لغو شد. بنابراین، تحلیل مقایسهای زیر عمدتاً بر اساس کلیپهای آزمایشی است که در فضای مجازی منتشر شدهاند.
آزمایش اول: رندر متن تخته سیاه ریاضی پیچیده
یکی از مشکلات اصلی در تولید ویدیو با هوش مصنوعی، انسجام متن است. بسیاری از مدلها متنهای ناخوانا روی تخته سیاه یا کاغذ تولید میکنند یا نوشتهها در نماهای مختلف با هم تطابق ندارند.
در این آزمایش فاش شده، کسی با استفاده از یک دستور متنی یک ویدیوی ۱۰ ثانیهای با Gemini Omni تولید کرد: استادی فرمولهای مثلثاتی را روی تخته سیاه مینویسد و مرحله فعلی را توضیح میدهد.
نتایج نشان داد که فرمولهای ریاضی روی تخته سیاه به طور کلی خوانا هستند و متن در طول حرکت دوربین نسبتاً پایدار مانده است. اگرچه بررسی دقیقتر همچنان نشاندهنده برخی آثار هوش مصنوعی است، اما پیشرفت قابل توجهی نسبت به مدلهای قبلی مشاهده میشود.
برای مقایسه منصفانه، همین دستور را به Seedance 2.0 دادیم. Seedance 2.0 همچنان در واقعگرایی تصویری و نورپردازی عالی است، اما در دقت ریاضی محتوای تخته سیاه کمی انحراف داشت و برخی متنها همچنان تار بودند.
| مورد مقایسه | Gemini Omni (نسخه فاش شده) | Seedance 2.0 |
|---|---|---|
| واقعگرایی تصویری | عالی | عالی |
| خوانایی متن | خوب، فرمولها قابل تشخیص | متوسط، برخی متنها تار |
| پایداری دوربین | پایدار | پایدار |
این آزمایش نشان میدهد که رندر متن به یک میدان رقابت جدید بین مدلهای پیشرو تبدیل شده است. برای ویدیوهای آموزشی که نیاز به نمایش متن، فرمول یا عملیات رابط کاربری دارند، این موضوع بسیار مهم است.
آزمایش دوم: «ویل اسمیت در حال خوردن اسپاگتی»
این دستور تقریباً به یک «آزمون اجباری» برای تمام مدلهای تولید ویدیو تبدیل شده است. تمرکز آزمایش بر این است که آیا حرکات شخصیت طبیعی است، آیا فیزیک اشیاء صحیح است و آیا فرآیند خوردن منسجم است.
در نسخه تولید شده توسط Gemini Omni، ظاهر شخصیت و فضای صحنه بسیار واقعی بودند. اما برخی از بینندگان یک مشکل جزئی را نشان دادند: قبل از نشستن شخصیت، اسپاگتی در بشقاب نبود، اما بعد از نشستن ظاهر شد؛ سپس هنگام خوردن، رشتهها به طرز مرموزی ناپدید شدند. این نشان میدهد که مدل هنوز در منطق فیزیکی زنجیره بلند ضعف دارد.
همین دستور پیچیده را وارد Seedance 2.0 کردیم. از نظر طبیعی بودن حرکات خوردن، Seedance 2.0 روانتر عمل کرد. ریتم جویدن، حرکات دست و تعامل با غذا منطقیتر بود.
| مورد مقایسه | Gemini Omni (نسخه فاش شده) | Seedance 2.0 |
|---|---|---|
| ظاهر شخصیت | واقعگرایانه | واقعگرایانه |
| فضای صحنه | حس رستوران لوکس قوی | کیفیت نور و بافت عالی |
| انسجام حرکت خوردن | ناپیوسته، منطق فیزیکی نیاز به بهبود | طبیعیتر، زنجیره حرکتی کامل |
در این مرحله، Seedance 2.0 در منطق فیزیکی حرکت کمی بهتر عمل کرد.
قابلیتهای ویرایش ویدیوی Gemini Omni
علاوه بر تولید، Gemini Omni قابلیتهای شگفتانگیزی در ویرایش ویدیو نیز نشان داد. برای مثال:
- جایگزینی مستقیم اسپاگتی در ویدیو با یک کاسه سوپ تایلندی توم یام؛
- حذف آواتار Sora از یک ویدیو و حفظ ثبات تصویر.
اگر این قابلیت در نسخه نهایی حفظ شود، ارزش عملی بسیار بالایی خواهد داشت. در حال حاضر، اکثر ابزارهای ویدیویی هوش مصنوعی پس از تولید امکان ویرایش ثانویه را سخت میکنند. رویکرد «ویرایش مکالمهای» Gemini Omni ممکن است این وضعیت را تغییر دهد.
ویدیوی هوش مصنوعی در حال ورود به جریان اصلی است
صرف نظر از عملکرد نهایی Gemini Omni، یک روند کاملاً واضح است: کیفیت ویدیوی هوش مصنوعی به سرعت در حال نزدیک شدن به استانداردهای تولید حرفهای است.
اخیراً، چندین ویدیوی کوتاه ساخته شده با Seedance 2.0 در پلتفرمهای اجتماعی توجه زیادی جلب کردهاند. برای مثال، یک ویدیوی کوتاه هوش مصنوعی که به آن «چینی Love, Death & Robots» لقب داده شد، توسط سازندهاش تنها در ۱۰ روز ساخته شد و از قبل پیشنهادهای همکاری از استودیوهای فیلم دریافت کرده است. ویدیوی کبوتر ساخته شده توسط هنرمند جلوههای ویژه Runway با Seedance 2.0 در مدت کوتاهی میلیونها بازدید جمع کرد و بسیاری از نظرات میگفتند «اصلاً نمیشد فهمید که هوش مصنوعی است».
این نمونهها نشان میدهند که ویدیوی هوش مصنوعی دیگر یک اسباببازی نیست، بلکه در حال تبدیل شدن به یک ابزار خلاقیت واقعی است.
سخن آخر
فاش شدن تصادفی Gemini Omni، رقابت در حوزه تولید ویدیوی هوش مصنوعی را داغتر کرد. گوگل ممکن است این محصول را در کنفرانس I/O هفته آینده به طور رسمی معرفی کند و عملکرد واقعی آن ارزش تماشا کردن را دارد.
برای کاربران عادی، رقابت بین مدلها خبر خوبی است - کیفیت تولید در حال بهبود است، موانع ورود در حال کاهش است و انتخاب ابزارها در حال افزایش است. Seedance 2.0 همچنان از نظر کیفیت تصویر، منطق فیزیکی حرکت و گردش کار خلاقانه در رده بالا قرار دارد. اگر میخواهید جدیدترین قابلیتهای تولید ویدیو با هوش مصنوعی را تجربه کنید، همین الان میتوانید شروع کنید.
جستجوهای مرتبط: Seedance 2.0، آموزش Seedance، نسخه چینی Seedance، مقایسه تولید ویدیو با هوش مصنوعی، Gemini Omni.