Sora 2 zaskakuje realizmem. Generator filmów AI odwzorowuje prawa fizyki
Gdy pod koniec 2024 roku OpenAI wypuściło model do generowania wideo Sora, świat nie wierzył własnym oczom. Generator filmów AI tworzył dzieła o niespotykanym nigdy wcześniej realizmie. Parę dni temu firma wypuściła następną generację swojej sztucznej inteligencji. Sora 2 zapewnia jeszcze wyższą jakość i po raz pierwszy dba o wierne odwzorowanie fizyki. Czy wideo wygenerowane przez AI da się jeszcze odróżnić od kręconego kamerą?

Spis treści:
- Generator filmów AI z tekstu wszedł na wyższy poziom
- Sora 2 to rewolucja w generowaniu wideo na miarę GPT-3.5
- Sora 2 wygeneruje teraz dźwięk. Niezwykły realizm efektów
Generator filmów AI z tekstu wszedł na wyższy poziom
Generatywna sztuczna inteligencja w ciągu kilku lat zaliczyła olbrzymi postęp. Dawniej filmy z generatora wyglądały jak połączenie urywków ze snów i halucynacji. Była to raczej ciekawostka technologiczna niż coś, co mogłoby naśladować rzeczywistość - taką jak widzi ją oko kamery lub nasze własne. Ważnym przełomem było ukazanie się oprogramowania Sora w grudniu 2024 roku. Jego twórcy porównują je z nadejściem GPT-1, tyle że dla wideo.
Generator filmów AI od OpenAI mógł konkurować w zasadzie tylko z Veo 3, wypuszczonym przez Google w maju 2025. Wprowadził on m.in. generowanie dźwięku (mowy i efektów dźwiękowych) dopasowanego do obrazu, co nadało wygenerowanym filmom jeszcze większego realizmu. Deepfake'i tworzone przy jego pomocy mogą wyglądać i brzmieć niesamowicie wiarygodnie.
OpenAI opracowało tymczasem kolejną wersję swojego modelu text-to-video. Sora 2 została wydana ostatniego dnia września 2025, aby wyjść poza ograniczenia poprzedniej generacji i wnieść generowanie filmów na wyższy poziom. Co dokładnie potrafi ten model i jak wyglądają jego dzieła?
Sora 2 to rewolucja w generowaniu wideo na miarę GPT-3.5
Gdy pierwsza generacja Sora pokonała ograniczenia poprzednich modeli w zapamiętywaniu obiektów znikających z kadru czy prostych zachowaniach, Sora 2 skupiła się na rozwiązaniu bardziej złożonych problemów, wliczając w to wierne odwzorowanie praw fizyki w środowisku symulującym prawdziwy świat. Tę zmianę można porównać z przejściem od oskryptowanych animacji w starych grach do modeli fizycznych działających w czasie rzeczywistym, np. w Half-Life 2 z 2004 roku.
OpenAI porównuje impakt pierwszej Sory do GPT-1. "W Sora 2 przeskakujemy od razu do tego, co naszym zdaniem może być momentem GPT-3.5 dla wideo. Sora 2 potrafi robić rzeczy, które są wyjątkowo trudne - a w niektórych przypadkach całkowicie niemożliwe - dla modeli wideo poprzednich generacji: olimpijskie układy gimnastyczne, salta w tył na paddleboardzie, które wiernie modelują dynamikę wyporności i sztywności, a także potrójny axel z kotem trzymającym się kurczowo głowy" - wylicza OpenAI na swoim blogu i pokazuje nagrania skoków do wody, tricków na deskorolce i innych akrobacji, które wyglądają jak żywe.
Sora 2 niweluje też problem nadmiernego optymizmu poprzednich modeli. Przykładowo, gdy dawniej użytkownik wpisał prompt, by AI wygenerowała nagranie koszykarza, który pudłuje, algorytm mógł "teleportować" piłkę do obręczy, zamiast odbić ją od tablicy. Nowe oprogramowanie potrafi odróżnić sukces od porażki i odpowiednio go przedstawić - bez deformacji i naginania praw logiki, chyba że zostanie o to poproszone.
Jak widać na udostępnionym wideo, nowy model text-to-video radzi sobie nie tylko z realizmem, ale potrafi też wygenerować stylizowany film, np. w stylu kinowym lub anime. A jeśli wideo ma być zmontowane z wielu scen, to świat przedstawiony, postaci i obiekty będą na nich spójne.
Sora 2 wygeneruje teraz dźwięk. Niezwykły realizm efektów
Nie żyjemy już w epoce kina niemego. Kiedy mówimy o filmie, mamy na myśli połączenie ruchomego obrazu i dopasowanego dźwięku. To samo robi teraz sztuczna inteligencja, a zaczęło się od wspomnianego Veo 3 od Google. Teraz swojego rywala nadgoniło OpenAI.
"Rok temu Sora 1 przedefiniowała to, co jest możliwe z ruchomymi obrazami. Dziś prezentujemy aplikację Sora, napędzaną przez całkowicie nową Sorę 2" - mówi wygenerowany Sam Altman, CEO OpenAI. "Teraz każde wideo jest z dźwiękiem" - dodaje fikcyjna, lecz realistyczna postać na wygenerowanym przez AI wideo. Warto ten film obejrzeć z dźwiękiem, bowiem efekty są naprawdę świetne.
Sora 2 w aplikacji Sora na iOS jest obecnie dostępna jedynie w USA i Kanadzie. Nowy model jest także dostępny na stronie sora.com.
Wszystko to wygląda i brzmi rewelacyjnie, ale idąc za analogią OpenAI, to dopiero etap GPT-3.5, czyli modelu z 2022 roku, po którym weszły jeszcze kolejne - dużo mądrzejsze i bardziej uzdolnione. Można się więc spodziewać, że w najbliższych lat generator filmów AI wejdzie na poziom GPT-5. Wyobrażacie to sobie?