قدرتمندترین رقیب Seedance 2.0 ظاهر شد

اخیراً، خبر بزرگی در حوزه تولید ویدیو با هوش مصنوعی منتشر شد. گزارش‌ها حاکی از آن است که گوگل در حال آزمایش یک مدل جدید تولید ویدیو با کد رمز Gemini Omni است و یک کاربر به طور تصادفی به آن دسترسی پیدا کرد. بر اساس نتایج آزمایش‌های فاش شده، Gemini Omni در چندین سناریوی کلیدی عملکرد قابل توجهی دارد و ممکن است قوی‌ترین رقیب Seedance 2.0 تا به امروز باشد.

Gemini Omni چیست

بر اساس تصاویر فاش شده، Gemini Omni به عنوان «مدل جدید تولید ویدیوی گوگل» توصیف شده است. این مدل نه تنها از تولید ویدیو از صفر پشتیبانی می‌کند، بلکه قابلیت‌هایی مانند بازترکیب ویدیو، ویرایش مکالمه‌ای و استفاده از قالب‌ها را نیز دارد. به طور خلاصه، هدف آن صرفاً «تولید یک ویدیو» نیست، بلکه می‌خواهد به کاربران امکان دهد محتوای ویدیویی را مانند چت تغییر دهند.

با این حال، گوگل هنوز این محصول را به طور رسمی منتشر نکرده است و دسترسی آزمایشی فاش شده نیز به سرعت لغو شد. بنابراین، تحلیل مقایسه‌ای زیر عمدتاً بر اساس کلیپ‌های آزمایشی است که در فضای مجازی منتشر شده‌اند.

آزمایش اول: رندر متن تخته سیاه ریاضی پیچیده

یکی از مشکلات اصلی در تولید ویدیو با هوش مصنوعی، انسجام متن است. بسیاری از مدل‌ها متن‌های ناخوانا روی تخته سیاه یا کاغذ تولید می‌کنند یا نوشته‌ها در نماهای مختلف با هم تطابق ندارند.

در این آزمایش فاش شده، کسی با استفاده از یک دستور متنی یک ویدیوی ۱۰ ثانیه‌ای با Gemini Omni تولید کرد: استادی فرمول‌های مثلثاتی را روی تخته سیاه می‌نویسد و مرحله فعلی را توضیح می‌دهد.

نتایج نشان داد که فرمول‌های ریاضی روی تخته سیاه به طور کلی خوانا هستند و متن در طول حرکت دوربین نسبتاً پایدار مانده است. اگرچه بررسی دقیق‌تر همچنان نشان‌دهنده برخی آثار هوش مصنوعی است، اما پیشرفت قابل توجهی نسبت به مدل‌های قبلی مشاهده می‌شود.

برای مقایسه منصفانه، همین دستور را به Seedance 2.0 دادیم. Seedance 2.0 همچنان در واقع‌گرایی تصویری و نورپردازی عالی است، اما در دقت ریاضی محتوای تخته سیاه کمی انحراف داشت و برخی متن‌ها همچنان تار بودند.

مورد مقایسه	Gemini Omni (نسخه فاش شده)	Seedance 2.0
واقع‌گرایی تصویری	عالی	عالی
خوانایی متن	خوب، فرمول‌ها قابل تشخیص	متوسط، برخی متن‌ها تار
پایداری دوربین	پایدار	پایدار

این آزمایش نشان می‌دهد که رندر متن به یک میدان رقابت جدید بین مدل‌های پیشرو تبدیل شده است. برای ویدیوهای آموزشی که نیاز به نمایش متن، فرمول یا عملیات رابط کاربری دارند، این موضوع بسیار مهم است.

آزمایش دوم: «ویل اسمیت در حال خوردن اسپاگتی»

این دستور تقریباً به یک «آزمون اجباری» برای تمام مدل‌های تولید ویدیو تبدیل شده است. تمرکز آزمایش بر این است که آیا حرکات شخصیت طبیعی است، آیا فیزیک اشیاء صحیح است و آیا فرآیند خوردن منسجم است.

در نسخه تولید شده توسط Gemini Omni، ظاهر شخصیت و فضای صحنه بسیار واقعی بودند. اما برخی از بینندگان یک مشکل جزئی را نشان دادند: قبل از نشستن شخصیت، اسپاگتی در بشقاب نبود، اما بعد از نشستن ظاهر شد؛ سپس هنگام خوردن، رشته‌ها به طرز مرموزی ناپدید شدند. این نشان می‌دهد که مدل هنوز در منطق فیزیکی زنجیره بلند ضعف دارد.

همین دستور پیچیده را وارد Seedance 2.0 کردیم. از نظر طبیعی بودن حرکات خوردن، Seedance 2.0 روان‌تر عمل کرد. ریتم جویدن، حرکات دست و تعامل با غذا منطقی‌تر بود.

مورد مقایسه	Gemini Omni (نسخه فاش شده)	Seedance 2.0
ظاهر شخصیت	واقع‌گرایانه	واقع‌گرایانه
فضای صحنه	حس رستوران لوکس قوی	کیفیت نور و بافت عالی
انسجام حرکت خوردن	ناپیوسته، منطق فیزیکی نیاز به بهبود	طبیعی‌تر، زنجیره حرکتی کامل

در این مرحله، Seedance 2.0 در منطق فیزیکی حرکت کمی بهتر عمل کرد.

قابلیت‌های ویرایش ویدیوی Gemini Omni

علاوه بر تولید، Gemini Omni قابلیت‌های شگفت‌انگیزی در ویرایش ویدیو نیز نشان داد. برای مثال:

جایگزینی مستقیم اسپاگتی در ویدیو با یک کاسه سوپ تایلندی توم یام؛
حذف آواتار Sora از یک ویدیو و حفظ ثبات تصویر.

اگر این قابلیت در نسخه نهایی حفظ شود، ارزش عملی بسیار بالایی خواهد داشت. در حال حاضر، اکثر ابزارهای ویدیویی هوش مصنوعی پس از تولید امکان ویرایش ثانویه را سخت می‌کنند. رویکرد «ویرایش مکالمه‌ای» Gemini Omni ممکن است این وضعیت را تغییر دهد.

ویدیوی هوش مصنوعی در حال ورود به جریان اصلی است

صرف نظر از عملکرد نهایی Gemini Omni، یک روند کاملاً واضح است: کیفیت ویدیوی هوش مصنوعی به سرعت در حال نزدیک شدن به استانداردهای تولید حرفه‌ای است.

اخیراً، چندین ویدیوی کوتاه ساخته شده با Seedance 2.0 در پلتفرم‌های اجتماعی توجه زیادی جلب کرده‌اند. برای مثال، یک ویدیوی کوتاه هوش مصنوعی که به آن «چینی Love, Death & Robots» لقب داده شد، توسط سازنده‌اش تنها در ۱۰ روز ساخته شد و از قبل پیشنهادهای همکاری از استودیوهای فیلم دریافت کرده است. ویدیوی کبوتر ساخته شده توسط هنرمند جلوه‌های ویژه Runway با Seedance 2.0 در مدت کوتاهی میلیون‌ها بازدید جمع کرد و بسیاری از نظرات می‌گفتند «اصلاً نمی‌شد فهمید که هوش مصنوعی است».

این نمونه‌ها نشان می‌دهند که ویدیوی هوش مصنوعی دیگر یک اسباب‌بازی نیست، بلکه در حال تبدیل شدن به یک ابزار خلاقیت واقعی است.

سخن آخر

فاش شدن تصادفی Gemini Omni، رقابت در حوزه تولید ویدیوی هوش مصنوعی را داغ‌تر کرد. گوگل ممکن است این محصول را در کنفرانس I/O هفته آینده به طور رسمی معرفی کند و عملکرد واقعی آن ارزش تماشا کردن را دارد.

برای کاربران عادی، رقابت بین مدل‌ها خبر خوبی است - کیفیت تولید در حال بهبود است، موانع ورود در حال کاهش است و انتخاب ابزارها در حال افزایش است. Seedance 2.0 همچنان از نظر کیفیت تصویر، منطق فیزیکی حرکت و گردش کار خلاقانه در رده بالا قرار دارد. اگر می‌خواهید جدیدترین قابلیت‌های تولید ویدیو با هوش مصنوعی را تجربه کنید، همین الان می‌توانید شروع کنید.

شروع به استفاده از Seedance 2.0

جستجوهای مرتبط: Seedance 2.0، آموزش Seedance، نسخه چینی Seedance، مقایسه تولید ویدیو با هوش مصنوعی، Gemini Omni.