Nowy model AI od Anthropic będzie mógł kontrolować twój komputer
Czy sztuczna inteligencja przejmie rutynowe zadania biurowe? Firma Anthropic właśnie zrobiła kolejny krok w kierunku realizacji tej wizji. Nowa wersja modelu Claude 3.5 Sonnet nie tylko odczytuje, co dzieje się na ekranie komputera, ale też potrafi samodzielnie klikać, przesuwać kursorem i korzystać z programów w taki sposób, jakby obsługiwał je człowiek. Czy to oznacza, że praca wielu ludzi stanie się zagrożona?
Znajdujący się w fazie beta usprawniony model Claude 3.5 Sonnet od Anthropic, to ulepszona wersja poprzedniego modelu. Zawiera ona nową funkcjonalność, nazwaną "Computer Use API", która pozwala modelowi symulować ruchy myszy i kliknięcia - tak, jakby rzeczywiście ktoś siedział przed komputerem. To spory krok naprzód w świecie automatyzacji, w jakim stopniu jednak te nowe możliwości są gotowe do zastosowań w praktyce?
Jak działa nowy model Claude 3.5 Sonnet?
Anthropic opublikował informacje o ulepszonym modelu Claude 3.5 Sonnet na swoim blogu, zaznaczając, że nowa wersja jest zdolna do zrozumienia, co dzieje się na ekranie komputera i do korzystania z dostępnych narzędzi oprogramowania.
W praktyce model działa w oparciu o zrzuty ekranu. Analizuje je i zlicza liczbę pikseli, aby poruszać kursorem w odpowiednie miejsce. Nowość ta jest dostępna w otwartej wersji beta i można z niej korzystać za pomocą interfejsów API dostarczanych m.in. przez Amazon Bedrock i Google Cloud Vertex AI.
Nowa propozycja Anthropica rzuca nowe światło na rozwój tzw. agentów AI. Pojęcie to obejmuje systemy, które potrafią automatyzować oprogramowanie i wykorzystywać je w konkretnych zastosowaniach. Według badań Capgemini już 10 proc. organizacji korzysta z agentów AI, a 82 proc. zamierza z nich skorzystać w ciągu najbliższych trzech lat.
Wśród firm, które testują już nowe możliwości Claude’a, znajduje się m.in. Canva, która rozważa wykorzystanie Claude’a do wsparcia procesu projektowania i edytowania.
Problemy i zagrożenia agentów AI
Choć model od Anthropica oferuje wiele ciekawych funkcji, nie jest on pozbawiony ograniczeń. Model napotyka problemy przy wykonywaniu zadań takich jak modyfikacja rezerwacji lotów czy zlecanie zwrotów - podczas testów udało mu się wykonać z powodzeniem jedynie mniej niż połowę tych zadań. Claude czasami nie radzi sobie także z prostymi czynnościami takimi jak choćby przewijanie czy powiększanie, co wynika z ograniczeń sposobu, w jaki model wykonuje zrzuty ekranu i je analizuje.
Automatyzacja procesów przez agentów AI niesie ze sobą również pewne ryzyka. Badania pokazują, że nawet modele nieposiadające możliwości korzystania z aplikacji mogą być skłonne do podejmowania szkodliwych działań, jeśli zostaną odpowiednio zmanipulowane. Można sobie wyobrazić, jak agent AI mógłby wyrządzić większe szkody - na przykład wykorzystując luki w oprogramowaniu do spowodowania wycieku danych.
Anthropic zdaje sobie sprawę z tych zagrożeń i zapewnia, że podejmuje działania mające na celu minimalizację ryzyka. Firma nie trenuje nowego modelu na zrzutach ekranu ani nie pozwala mu na dostęp do internetu w trakcie treningu. Wprowadzono też klasyfikatory, które mają "kierować" Claude’a z dala od działań uznanych za ryzykowne, zaliczono do nich m.in. publikowanie w mediach społecznościowych czy interakcje z witrynami rządowymi.
Nie tylko Sonnet
Choć główną uwagę przyciąga model 3.5 Sonnet, Anthropic zapowiedział również nową wersję modelu Haiku, która ma być bardziej efektywna przy zachowaniu niskich kosztów. Model Haiku będzie dostępny początkowo jako model tekstowy, a następnie jako multimodalny, zdolny do analizy tekstu i obrazów. Ma on być szczególnie przydatny do spersonalizowanych zastosowań użytkownika, analizy danych oraz tworzenia doświadczeń na podstawie dużych zbiorów danych.
***
Bądź na bieżąco i zostań jednym z 90 tys. obserwujących nasz fanpage - polub Geekweek na Facebooku i komentuj tam nasze artykuły!