Pojawił się najsilniejszy rywal Seedance 2.0

Ostatnio w świecie generowania wideo z AI pojawiła się znacząca wiadomość. Google rzekomo testuje zupełnie nowy model generowania wideo o nazwie kodowej Gemini Omni, a jeden z użytkowników przypadkowo uzyskał do niego dostęp w aplikacji Gemini. Na podstawie przeciekowych wyników testów Gemini Omni osiąga niezwykłe wyniki w kilku kluczowych scenariuszach i może być najsilniejszym konkurentem, z jakim Seedance 2.0 do tej pory się zmierzyło.
Czym jest Gemini Omni
Zgodnie z przeciekowymi zrzutami ekranu, Gemini Omni jest opisywany jako „nowy model generowania wideo Google”. Obsługuje nie tylko generowanie wideo od podstaw, ale także remiksowanie wideo, edycję konwersacyjną i korzystanie z szablonów. Mówiąc najprościej, jego celem nie jest tylko „wygenerowanie wideo”, ale umożliwienie użytkownikom modyfikowania treści wideo poprzez interakcje czatowe.
Jednak Google jeszcze nie wydało oficjalnie tego produktu, a przeciekowy dostęp testowy został szybko cofnięty. Dlatego poniższa analiza porównawcza opiera się głównie na klipach testowych, które pojawiły się w sieci.
Test 1: Renderowanie tekstu na skomplikowanej tablicy matematycznej
Jednym z głównych problemów generowania wideo z AI jest spójność tekstu. Wiele modeli generuje tablice lub arkusze papieru z nieczytelnym tekstem, lub pismo nie pasuje do siebie między ujęciami.
Podczas przeciekowego testu ktoś użył jednozdaniowego prompta, aby wygenerować 10-sekundowe wideo za pomocą Gemini Omni: profesor pisze na tablicy dowód tożsamości trygonometrycznej i wyjaśnia aktualny krok.
Wyniki pokazały, że formuły matematyczne na tablicy były ogólnie czytelne i pozostały stosunkowo stabilne podczas ruchu kamery. Chociaż dokładniejsza inspekcja nadal ujawnia pewne artefakty AI, poprawa w porównaniu z poprzednimi modelami jest wyraźna.
Dla uczciwego porównania, daliśmy ten sam prompt do Seedance 2.0. Seedance 2.0 nadal wyróżnia się fotorealizmem i oświetleniem, ale dokładność matematyczna treści na tablicy była nieznacznie nieprawidłowa, a niektóre teksty pozostały rozmazane.
| Element porównania | Gemini Omni (przeciek) | Seedance 2.0 |
|---|---|---|
| Fotorealizm wizualny | Doskonały | Doskonały |
| Czytelność tekstu | Dobra, formuły głównie czytelne | Przeciętna, niektóre teksty rozmazane |
| Stabilność kamery | Stabilna | Stabilna |
Ten test pokazuje, że renderowanie tekstu staje się nowym polem bitwy między najlepszymi modelami. Dla filmów instruktażowych, które wymagają wyświetlania tekstu, formuł czy operacji na interfejsie, jest to szczególnie kluczowe.
Test 2: „Will Smith je makaron”
Ten prompt stał się niemal obowiązkowym „egzaminem” dla każdego modelu generowania wideo. Test koncentruje się na tym, czy ruchy postaci są naturalne, czy fizyka obiektów jest poprawna, i czy proces jedzenia jest spójny.
W wersji wygenerowanej przez Gemini Omni wygląd postaci i atmosfera sceny były całkiem realistyczne. Jednak niektórzy widzowie zauważyli problem z detalami: przed tym, jak postać usiadła, na talerzu nie było makaronu, ale pojawił się po usiadnięciu; podczas jedzenia nitki makaronu tajemniczo zniknęły. Oznacza to, że model nadal ma luki w długociągowej logice fizycznej.
Wprowadziliśmy ten sam złożony prompt do Seedance 2.0. Jeśli chodzi o naturalność ruchów jedzenia, Seedance 2.0 wypadło płynniej. Rytm żucia, ruchy rąk i interakcja z jedzeniem były bardziej zgodne z rzeczywistą fizyką.
| Element porównania | Gemini Omni (przeciek) | Seedance 2.0 |
|---|---|---|
| Wygląd postaci | Fotorealistyczny | Fotorealistyczny |
| Atmosfera sceny | Silne poczucie ekskluzywnej restauracji | Doskonała jakość światła i tekstury |
| Spójność ruchów jedzenia | Niespójne, logika fizyczna wymaga poprawy | Bardziej naturalne, kompletny łańcuch ruchów |
W tej rundzie Seedance 2.0 nieznacznie prowadzi w logice fizyki ruchów.
Możliwości edycji wideo Gemini Omni
Poza generowaniem, Gemini Omni wykazało również zaskakujące możliwości edycji wideo. Na przykład:
- Bezpośrednia zamiana makaronu w wideo na miskę tajskiej zupy tom yum;
- Usunięcie znaku wodnego Sora z wideo przy zachowaniu spójności obrazu.
Jeśli ta funkcja zostanie zachowana w finalnej wersji, będzie miała ogromną wartość praktyczną. Obecnie większość narzędzi do wideo z AI utrudnia edycję wtórną po wygenerowaniu. Podejście „edycji konwersacyjnej” Gemini Omni może to zmienić.
Wideo z AI wkracza do głównego nurtu
Niezależnie od końcowych wyników Gemini Omni, jeden trend jest jasny: jakość wideo z AI szybko zbliża się do profesjonalnych standardów produkcji.
Ostatnio kilka krótkich filmów stworzonych za pomocą Seedance 2.0 zyskało ogromną uwagę na platformach społecznościowych. Na przykład krótki film z AI zwany „chińskim Love, Death & Robots” został ukończony przez twórcę w zaledwie 10 dni i już otrzymał oferty współpracy od studiów filmowych. Film z gołębiem stworzony przez technicznego artystę Runway Marko Slavnic z Seedance 2.0 w krótkim czasie zdobył miliony wyświetleń, a wielu komentujących mówiło, że „w ogóle nie można było poznać, że to AI”.
Te przypadki pokazują, że wideo z AI nie jest już zabawką - staje się prawdziwym narzędziem twórczym.
Zakończenie
Przypadkowy przeciek Gemini Omni dodał więcej paliwa do wyścigu generowania wideo z AI. Google może oficjalnie ogłosić ten produkt na przyszłotygodniowej konferencji I/O, a jego rzeczywista wydajność będzie warta obserwacji.
Dla zwykłych użytkowników konkurencja między modelami to dobra wiadomość - jakość generowania się poprawia, bariery wejścia się obniżają, a wybór narzędzi rośnie. Seedance 2.0 nadal znajduje się w czołówce pod względem jakości wizualnej, logiki fizyki ruchów i przepływu pracy twórczej. Jeśli chcesz doświadczyć najnowocześniejszych możliwości generowania wideo z AI, możesz zacząć już teraz.
Powiązane wyszukiwania: Seedance 2.0, samouczek Seedance, chińska wersja Seedance, porównanie generowania wideo z AI, Gemini Omni.