Google Gemini z nowym modelem generowania obrazów. Magia AI nie dla każdego

Generator obrazów AI Google jest dostępny w nowej wersji. Gemini 2.5 Flash Image (nano-banana) to najnowocześniejszy model do tworzenia i edytowania grafik przy pomocy sztucznej inteligencji. Aktualizacja odblokowuje dotychczas niedostępne funkcje, w tym łączenie wielu obrazów w jeden, spójne generowanie wielu obrazów z zachowaniem tej samej postaci i nie tylko. Co jeszcze potrafi ta nowa wersja kreatora obrazów i dla kogo jest dostępna?

Nowy model generowania obrazów AI od Google. Nie trzeba już znać Photoshopa, by robić cuda ze zdjęciamiKHUNKORN/Google123RF/PICSEL

Spis treści:

Gemini 2.5 Flash Image. Najpotężniejszy generator obrazów AI od Google
Spójne tworzenie wielu obrazów z tą samą postacią lub obiektem
Przerabianie zdjęć AI na podstawie tekstu
Łączenie wielu obrazów w jeden i wklejanie zdjęcia na zdjęcie

Gemini 2.5 Flash Image. Najpotężniejszy generator obrazów AI od Google

Gemini 2.5 Flash Image (nano-banana) został wydany we wtorek 26 sierpnia i udostępniony na początek programistom poprzez Gemini API i Google AI Studio oraz firmom za pośrednictwem Vertex AI. Oznacza to, że na ten moment nie mogą jeszcze z niego korzystać użytkownicy Google Gemini, choć zapewne niebawem się to zmieni. Darmowy czatbot nadal jeszcze oferuje dostęp do modelu Gemini 2.0 Flash, który ukazał się wcześniej w 2025 roku.

Deweloperzy aplikacji mogą już z nimi integrować nowy generator obrazów AI od Google. Koszt pracy modelu wynosi 0,039 USD za wygenerowany obraz (1290 tokenów na obraz przy cenie 30 USD za milion tokenów wyjściowych). Oznacza to, że wygenerowanie jednego zdjęcia w tej najnowszej technologii kosztuje ok. 14 groszy. Google nie zapowiedziało jeszcze, kiedy Gemini 2.5 Flash Image trafi do użytkowników darmowej aplikacji Google Gemini. Już teraz jednak firma zaprezentowała jego długo wyczekiwane funkcje.

Gemini 2.5 Flash Image to najnowocześniejszy generator obrazów AI od Google, który według benchmarków (narzędzi do testowania i porównywania możliwości) radzi sobie lepiej niż rywale, tacy jak GPT-4o w ChatGPT i Microsoft Copilot, FLUX.1 Kontext [max], Qwen Image Edit i oczywiście Gemini 2.0 Flash Image w obszarach ogólnej wydajności, tworzenia postaci, infografik, obiektów i otoczenia, a także kreatywności. Najbliższym rywalom ustępuje jedynie w domenie stylizacji.

Najnowszy model osiągnął ponadto znacznie lepsze rozumienie języka. Teraz będzie staranniej wypełniał polecenia użytkownika, rozumiejąc jego intencje wyrażone w instrukcjach. A jakie są jego praktyczne zastosowania? Rzućmy okiem na najważniejsze nowości.

Spójne tworzenie wielu obrazów z tą samą postacią lub obiektem

Wciąż sporym wyzwaniem dla generatorów obrazów AI jest zachowanie spójności postaci lub obiektów podczas tworzenia wielu grafik - po modyfikacji prompta lub przy edycji. Gemini 2.5 Flash Image w końcu sobie z tym radzi. "Możesz teraz umieścić tę samą postać w różnych otoczeniach, pokazać jeden produkt z wielu różnych kątów i w nowych sceneriach albo generować spójne materiały marki, zachowując przy tym temat" - wyjaśnia producent.

Sześć kart kolekcjonerskich prezentujących kobiety w różnych rolach związanych ze sportem, grami i technologią, każda karta opisuje inne osiągnięcie lub dziedzinę, np. szachy, rajdy, łucznictwo, sporty zespołowe i programowanie.

Spójne tworzenie wielu obrazów z tą samą postacią lub obiektem, także przy użyciu szablonówGooglemateriały prasowe

Nowy model radzi sobie też z szablonami wizualnymi i potrafi wpasowywać w nie zawartość z zachowaniem ich spójności. Szablony cieszą się dużą popularnością wśród firm, social media marketerów czy twórców internetowych. Dzięki spójnemu szablonowi można tworzyć dynamiczne makiety produktów dla całego katalogu z pojedynczego szablonu.

Przerabianie zdjęć AI na podstawie tekstu

Nowy model generatywny Google nie tylko tworzy nowe obrazy, ale również pozwala edytować te istniejące - w oparciu o prompty, czyli polecenia tekstowe. Możesz w języku naturalnym (własnymi słowami) opisać, co chcesz zmienić na grafice, a Gemini 2.5 Flash Image wykona tę edycję.

Porównanie dwóch fotografii portretowych tego samego mężczyzny w różnym ubraniu i o zmodyfikowanym kolorze skóry, każda z nich pokazana w oknie programu graficznego wykorzystującego sztuczną inteligencję do retuszu zdjęć.

Przerabianie zdjęć AI na podstawie tekstu w Gemini 2.5 Flash ImageGooglemateriały prasowe

Wystarczy napisać "rozmyj tło", "zmień kolor koszulki na czerwony i usuń plamę na koszulce", "usuń tę osobę ze zdjęcia" albo "dodaj kolory" (w przypadku czarno-białego zdjęcia), "zmień pozycję osoby" czy cokolwiek innego, co przyjdzie ci na myśl, i kliknąć "Wygeneruj". Dzięki mocy sztucznej inteligencji nie musisz być mistrzem Photoshopa, aby przerabiać zdjęcia.

Łączenie wielu obrazów w jeden i wklejanie zdjęcia na zdjęcie

Aby dodać jakiś obiekt do zdjęcia, np. wkleić lampę na stolik nocny, do tej pory musieliśmy choć trochę znać programy graficzne. Jeżeli zdjęcie lampy nie ma przezroczystego tła, w klasycznym edytorze grafiki (bez funkcji AI) z reguły trzeba usunąć tło, skopiować zaznaczony obiekt i wkleić go w odpowiednim miejscu.

Dochodzą do tego przeróżne niuanse, takie jak niezgodność kolorów, jasności, kontrastu, pozycji względem podłoża albo poszarpane krawędzie. Bez dobrej znajomości Photoshopa albo innego edytora grafiki może pojawić się wrażenie, że obiekt jest nie na miejscu.

Nowocześnie urządzona sypialnia z dużym łóżkiem, szafką nocną i czarną lampką stojącą na szafce, jasne zasłony i minimalistyczny wystrój wnętrza.

Wstawianie obiektu do zdjęcia i łączenie wielu grafik. To proste dzięki AIGooglemateriały prasowe

Znów z pomocą przychodzi sztuczna inteligencja. "Gemini 2.5 Flash Image rozumie i łączy wiele obrazów wejściowych. Możesz umieścić obiekt w scenie, zmienić styl pokoju z układem kolorów albo teksturą oraz scalać obrazy przy pomocy pojedynczego prompta" - tłumaczy Google. Dzięki mocy AI uzyskamy fotorealistyczny efekt niewielkim wysiłkiem. Nie musimy nawet nic pisać. Wystarczy przeciągnąć zdjęcie tam, gdzie chcemy postawić obiekt, a sztuczna inteligencja zajmie się resztą.