Oto DALL-E 2, czyli Salvador Dali sztucznej inteligencji. Namaluje wszystko, co mu napiszesz

Możliwości sztucznej inteligencji nie przestają nas zaskakiwać, dopiero co czytaliśmy o rozwiązaniu Itaka firmy DeepMind dla naukowców, którzy próbują odczytać niekompletne starożytne zapisy, a już dostajemy kolejny pokaz nowych umiejętności AI, tym razem mocno artystycznych.

Namaluje wszystko, co napiszesz. AI zmienia tekst w obrazy
Namaluje wszystko, co napiszesz. AI zmienia tekst w obrazyOpenAI123RF/PICSEL

Firma badawcza Open AI zaprezentowała nową wersję swojej sztucznej inteligencji DALL-E, która specjalizuje się w zamianie tekstu na obrazy. DALL-E 2 oferuje wyższą rozdzielczość i mniejsze opóźnienia względem pierwszej generacji programu, która generuje obrazy w oparciu o opisy użytkowników. Nowa wersja otrzymała również nowe możliwości, takie jak edycja istniejącego obrazu. OpenAI nie ma z zwyczaju udostępniać swoich narzędzi publicznie, ale zainteresowani mogą zarejestrować się, aby otrzymać wersję preview.

Oryginalny DALL-E, którego nazwa to połączenie artysty Salvadora Dalego i robota WALL-E z animacji Pixara, zadebiutował w styczniu 2021 roku. Choć ograniczony w swoich możliwościach, był to imponujący pokaz sztucznej inteligencji do wizualnego przedstawiania koncepcji na podstawie opisów - od takich prostych jak "manekin we flanelowej koszuli", po "żyrafa zrobiona z żółwia" czy “ilustracja rzodkiewki wyprowadzającej psa".

DALL-E, czyli połączenie możliwości AI i talentu Salvadora Dalego

OpenAI twierdziło wtedy, że będzie nadal rozwijać ten system, jednocześnie badając potencjalne zagrożenia, takie jak stronniczość w generowaniu obrazu lub wytwarzanie dezinformacji. Twórcy próbują rozwiązać te problemy za pomocą zabezpieczeń technicznych i nowej polityki treści, jednocześnie zmniejszając obciążenie obliczeniowe i rozwijając podstawowe możliwości modelu.

Nowa funkcja DALL-E 2 pozwala na przekładanie tekstu na obraz na jeszcze bardziej szczegółowym poziomie. Użytkownicy mogą zacząć od istniejącego obrazu, wybrać obszar i polecić modelowi jego edycję. Możemy tym samym zmienić istniejący obraz, na przykład zastępując go innym lub dodając element (np. wazon z kwiatami na stoliku kawowym), a model uwzględni przy tym takie szczegóły, jak choćby kierunki cieni w pomieszczeniu. Wygenerowane obrazy mają rozdzielność 1024 × 1024 pikseli, czyli wciąż relatywnie niewielką, ale to i tak duży skok w stosunku do 256 × 256 pikseli oferowanych przez pierwszą wersję DALL-E.

DALL-E 2 opiera się na CLIP, komputerowym systemie wizyjnym, który OpenAI ogłosiło w zeszłym roku. Ten został zaprojektowany, aby opisywać obrazy tak, jak zrobiłby to człowiek, a OpenAI powtórzyło ten proces, aby stworzyć "unCLIP" - odwróconą wersję, która zaczyna się od opisu, na którego bazie generowany jest obraz.

Pełny model DALL-E nigdy nie został udostępniony publicznie, ale w ciągu ostatniego roku inni programiści dopracowali własne narzędzia imitujące niektóre jego funkcje. Jedną z najpopularniejszych aplikacji tego typu jest Dream od Wombo, które generuje zdjęcia wszystkiego, co użytkownicy opisują w różnych stylach artystycznych.

OpenAI przykłada też dużą wagę do bezpieczeństwa i w związku z tym zaimplementowało kilka zabezpieczeń. Model został wytrenowany na danych, które zawierały pewne budzące zastrzeżenia materiały, co ograniczyć ma jego możliwości do tworzenia obrazów, które mają wykorzystywać takie treści. Dodano także znak wodny wskazujący na to, że mamy do czynienia z tworem sztucznej inteligencji (ten jednak da się wyciąć). Model nie może również wygenerować żadnych rozpoznawalnych twarzy na podstawie nazwiska czy imienia, nie tylko żyjących. Oznacza to, że niestety możemy zapomnieć o wysłaniu cyfrowego Putina w kosmos...

INTERIA.PL
Masz sugestie, uwagi albo widzisz błąd?
Dołącz do nas