Chińskie AI podbija świat. Fenomen DeepSeek

"Panika w siedzibie Meta", "Chińczycy zmietli ChatGPT", "Zachodni giganci technologiczni w potrzasku". Tego typu nagłówki pojawiły się mediach po rozpowszechnieniu modelu AI Deep Seek R1 o otwartym kodzie źródłowym. Modelu który w testach miał osiągać porównywalne bądź nawet lepsze wyniki jak modele od OpenAI. I nie ma co się dziwić, że samo to wzbudziło ogromną panikę wśród technologicznych potentatów Doliny Krzemowej.

Jak donosi Bloomberg Microsoft oraz OpenAI mają już badać Deep Seek R1 pod kątem możliwej kradzieży. Przedsiębiorstwa uważają, że Chińczycy rozwijali swój model na bazie amerykańskich danych. Microsoft i OpenAI kilka miesięcy wcześniej miały już blokować niektóre chińskie IP ze względu na ich wzmożoną aktywność. Niemniej rynek już zareagował na popularność chińskiej AI, a na giełdzie nastąpiło wielkie tąpnięcie dla m.in. dla Tesli, Microsoftu, Google’a czy NVIDII, które zanotowały duże spadki. Ta ostatnia firma miała w ciągu kilku godzin od rozpowszechnienia chińskiego AI stracić ponad 500 mld dolarów ze swojej kapitalizacji.

Marc Andreessen, jeden ze współzałożycieli pierwszej szeroko używanej przeglądarki Mosaic, nazwał premierę Deep Seek R1 podobnym momentem dla wyścigu rozwoju AI do tego, czym dla wyścigu kosmicznego było wystrzelenie przez Sowietów satelity Sputnik.

Czym jest DeepSeek i dlaczego wszyscy nagle się go boją?

DeepSeek to start-up założony w styczniu 2023 roku, kierowany przez inżyniera Lianga Wenfenga. Wywodził się z jego wcześniejszej firmy High-Flyer, która już od 2016 roku zaczęła badać możliwości sztucznej inteligencji oraz uczenia maszynowego, tworząc do tego celu w 2020 roku swój superkomputer. Jak donosi The VergeLiang Wenfeng w 2021 roku zaczął skupować tysiące procesorów graficznych NVDIA, aby utrzymać potrzebne moce obliczeniowe do badań. Było to jeszcze przed nałożeniem na Chiny sankcji przez USA w kwestii zakupu półprzewodników.

Założoniem start-upu DeepSeek było stworzenie jeszcze lepszych modeli ogólnej sztucznej inteligencji (AGI). The Verge wskazuje, że jako podstawę swojego modelu Chińczycy wykorzystali dostępne AI Mety – Llama. Nie wiadomo dokładnie jak dużą kopią były pierwsze modele z DeepSeek, jednak wśród danych treningowych miały się znaleźć także sztucznie wygenerowane informacje.

Co zaskakuje w uczeniu i ulepszaniu modelu DeepSeek to bardzo dobra optymalizacja. Były pracownik OpenAI Miles Brundage stwierdził, że Chińczycy znaleźli sposób na lepsze wykorzystanie mocy tańszych kart graficznych do uczenia modelu sztucznej inteligencji z wykorzystaniem rozwiązań popełniania prób i błędów, zamiast kopiowania rozwiązań przekazywanych od ludzi. Modele DeepSeek de facto mają nie aktywować zawsze pełni mocy modelu, jeżeli nie jest to potrzebne. Chińskie rozwiązanie ma być przy tym wydajniejsze niż odpowiedniki z USA. Zespół DeepSeek opracował również coś o nazwie DeepSeekMLA (Multi-Head Latent Attention), co radykalnie zmniejszyło pamięć wymaganą do uruchomienia modeli sztucznej inteligencji poprzez kompresję sposobu, w jaki model przechowuje i pobiera informacje.

DeepSeek w natarciu. Dolina Krzemowa w panice

Zachodnie firmy jak OpenAI mogły być zaskoczone tym, jak szybko udało się DeepSeek opracować i udoskonalić tego rodzaju rozwiązania. Niemniej największym zaskoczeniem były niezwykle małe koszty, jakie Chińczycy mieli ponieść w trenowaniu finalnej wersji swojego modelu sztucznej inteligencji Deep Seek R1. Miało to kosztować tylko 5,6 mln dolarów. Dla porównania koszt wytrenowania najnowszego modelu OpenAI o1 miał wynieść aż 100 mln dolarów. W krótkim czasie więc Chińczycy nie tylko mieli dorównać Dolinie Krzemowej, co w niektórych kwestiach ją przegonili.

To co zrobiło DeepSeek może wywoływać przerażenie zachodnich potentatów technologicznych z prostego powodu. Jeszcze do niedawna uważano, że do tworzenia tak zaawansowanych modeli sztucznej inteligencji potrzeba dużych pieniędzy. Chociażby większość elektroniki wykorzystywanej przez firmy zajmujące się AI, bazowała na drogich rozwiązaniach NVIDII. Teraz okazało się, że można rozwijać technologię mając tańsze zasoby. Stąd takie duże uderzenie w akcje amerykańskiej firmy.

Wnioski z szerokiego wypuszczenia modelu DeepSeek R1 mają pokazywać, że rozwój AI może być tańszy i Zachód z wielkimi pieniędzmi czy dostępem do najlepszej technologii nie ma tu przewagi. Ale czy na pewno? Część zachodnich komentatorów wskazuje, że start-up DeepSeek tak naprawdę zataił informacje o realnych kosztach powstania swojego modelu AI.

AI od DeepSeek nie takie wyjątkowe?

Oficjalnie DeepSeek zapewnia, że do stworzenia R1 miał do dyspozycji niewielką liczbę procesorów graficznych NVIDII modelu H800 (specjalnie zmodyfikowanych i osłabionych modeli H100, przeznaczonych na chiński rynek - przypis red.). Niemniej Alexander Wang, szef firmy Scale AI, stwierdził w wywiadzie dla CNBC, że DeepSeek kłamie. Według niego start-up może mieć aż 50 tys. procesorów graficznych i to w standardowej, lepszej wersji H100. Na dodatek Dylan Patel z organizacji SemiAnalysis w rozmowie z Financial Times zauważył, że chcąc przedstawić faktyczny koszt powstania modelu DeepSeek R1, należy spojrzeć na cały proces oraz zakupy wszystkich procesorów graficznych na przestrzeni działalności założyciela chińskiego start-upu. Według szacunków od samego 2020 roku mógł na nie wydać 500 mln dolarów.

Stale utrzymywana jest także narracja, że szybkość, z jaką Chińczycy opracowali model DeepSeek R1 wynika z tego, że mieli ukraść część danych OpenAI. Obok wspomnianego wcześniej dochodzenia firmy i Microsoftu, wysokie prawdopodobieństwo takiego zdarzenia wskazał w rozmowie z Fox News David Sacks, doradca Donalda Trumpa ds. sztucznej inteligencji. Bez względu jednak jak zaawansowany jest na ten moment model od DeepSeek, już wywołał duże zamieszanie i szkody dla amerykańskich potentatów technologicznych. I tym samym mógł wynieść wyścig AI na nowy poziom.