Wielordzeniowa przyszłość
Planujesz zmianę procesora - najlepszym wyborem będą procesory z więcej niż jednym rdzeniem. Jaka czeka je przyszłość?
Dwa rdzenie na start
Dwurdzeniową erę, trochę niespodziewanie, rozpoczął Intel, prezentując na chwilę przed Athlonem 64 X2 procesor o kodowej nazwie Presler (Pentium D). Nie był to jednak procesor dwurdzeniowy z prawdziwego zdarzenia. Presler był czymś pomiędzy tradycyjnymi konfiguracjami dwuprocesorowymi, gdzie każdy układ instalowany jest w oddzielnej podstawce, a Athlonem 64 X2, który dwa rdzenie skrywa w jednej krzemowej strukturze. Intel, zwyczajnie, ale i pomysłowo, umieścił w jednej obudowie dwa układy, starannie wyselekcjonowane pod kątem częstotliwości pracy i wydzielanego ciepła, i umożliwił im komunikację poprzez tą samą szynę FSB. Niestety, wszystkie dane wymieniane pomiędzy rdzeniami przechodzą przez chipset płyty głównej, co skutecznie zwiększa opóźnienia i tym samym, zmniejsza wydajność Preslera.
Zintegrowany kontroler pamięci dba o to, by taka konstrukcja otrzymywała dane bez zbędnych opóźnień (procesor, zamiast wysyłać zapotrzebowanie do chipsetu, który następnie pobiera dane z RAM-u i dopiero po tym przesyła je dalej, może wykorzystując szynę HTT samodzielnie pobrać dane z pamięci operacyjnej). I wreszcie specjalny przełącznik krzyżowy (Crossbar Switch) odpowiedzialny za efektywną wymianę danych pomiędzy rdzeniami, a przede wszystkim za możliwie bezkonfliktową komunikację obu rdzeni z pamięcią operacyjną komputera. Wszystkie te elementy obecne były w Athlonie 64 od momentu jego premiery i zwyczajnie czekały na wykorzystanie w dwurdzeniowej konfiguracji. Nic więc dziwnego, że kiedy ten moment w końcu nadszedł (AMD wdrożyła odpowiednio zaawansowany proces produkcji), Athlon 64 X2 zachwycił wydajnością, przez długi czas królując nad dwurdzeniowym Pentium D.
Intel po premierze dwurdzeniowego Athlona stracił inicjatywę. Mało tego, po raz pierwszy w rywalizacji z AMD to Intel musiał zachęcać klientów niższą ceną, a nie wyższą wydajnością. W zaciszu izraelskich laboratoriów powstawał jednak procesor, który w dwurdzeniowej konfiguracji także miał czuć się jak ryba w wodzie. I tak, trochę niespodziewanie, na rynku pojawił się Conroe, który w wersji Core 2 Duo przyćmił Athlona 64 X2. Siła tego procesora wynika z dwóch faktów.
Drugim, nie mniej ważnym,rozwiązaniem jest wspólna pamięć podręczna drugiego poziomu (cache L2), która eliminuje konieczność zachowywania spójności danych przechowywanych w dwóch oddzielnych cache L2, znacznie zmniejszając opóźnienia, które były bolączką Preslera. Technologia Smart Cache dynamicznie dzieli pojemność cache L2 i, w miarę potrzeb, przydziela odpowiedni rozmiar każdemu z rdzeni. Dodatkowo, dopiero co zaktualizowane i zapisane dane, będące wynikiem pracy pierwszego rdzenia, może natychmiast odczytać i wykorzystać drugi, nie czekając, aż te zostaną przeniesione do pamięci operacyjnej.
Następnym krokiem na drodze do wielordzeniowości była premiera intelowskiego procesora o kodowej nazwie Kentsfield. Jest to kuzyn znanego nam Preslera. Jedyna różnica polega na tym, że zamiast dwóch rdzeni P4 mamy tutaj dwa dwurdzeniowe układy Core 2 Duo zamknięte w jednej obudowie. Oba procesory nadal muszą dbać o spójność (koherencję) danych aktualizując je na bieżąco poprzez mostek północny chipsetu.
Cała konstrukcja Core 2 Quad składa się z (bagatela!) 582 mln tranzystorów, a mimo to, dzięki energooszczędnej architekturze i możliwości elastycznego wyłączania nie tylko całych rdzeni, ale i poszczególnych, nieaktywnych jednostek wykonawczych, wszystko działa sprawnie i w stosunkowo niskiej temperaturze. Dzieje się tak także dlatego, że większą część Kentsfielda stanowi pamięć podręczna drugiego poziomu - układ ten zawiera jej aż 8 MB, czyli po cztery megabajty na każdy procesor. No i wreszcie, nie bez znaczenia jest wymiar produkcji, w jakiej powstają najnowsze procesory Intela. Szybko i efektywnie wdrożona technologia 65 nm sprawia, że Kentsfield może zostać bezpiecznie podkręcony z częstotliwości 2,4 GHz nawet do 3,5 GHz!
Odpowiedzią AMD na Core 2 Quad Intela jest platforma Quad FX. Tutaj także mamy do czynienia z dwoma dwurdzeniowymi procesorami, ale umieszczonymi nawet nie w jednej obudowie, a po prostu w dwóch podstawkach. Nie są to jednak zwykłe, dwurdzeniowe Athlony 64 FX. Nie miałyby one bowiem wystarczającej liczby szyn HyperTransport do skutecznego połączenia czterech CPU w jeden organizm. AMD wzięła więc na warsztat serwerowe Opterony z trzema szynami HTT i przystosowawszy je do pracy z tradycyjnymi, niebuforowanymi pamięciami, ochrzciła jako Athlony 64 FX-70 (2,6 GHz), -72 (2,8 GHz) i -74 (3,0 GHz), zgodne z platformą Quad FX. Innymi słowy AMD stworzyła, na potrzeby konkurencji z Kentsfieldem, unikalne procesory kompatybilne z podstawką Socket F 1207. Aby móc spełnić potrzeby nowej platformy, powstał także specjalny chipset NVIDII nForce 680a SLI, będący połączeniem dwóch chipsetów nForce 570 SLI.
AMD Reaktywacja
Nic więc dziwnego, że AMD w pocie czoła pracuje nad czterordzeniowym układem z prawdziwego zdarzenia. Barcelona, a niedługo potem udomowiona Agena, bazujące na architekturze K8L swoją premierę mają mieć już za kilka miesięcy. Choć tak naprawdę chciało by się powiedzieć, że dopiero za kilka miesięcy. Wielu z nas ma bowiem nieodparte wrażenie, że AMD, uśpiona sukcesem Athlona 64, a przede wszystkim powodzeniem jego dwurdzeniowej wersji przegapiła moment, w którym należało ostro zabrać się do pracy. Tym niemniej, Agena zapowiada się bardzo interesująco.
Po pierwsze dlatego, że od podstaw projektowana jest jako układ czterordzeniowy, gdzie każdy z rdzeni będzie efektywnie połączony z pozostałymi w jednej strukturze krzemu, a dodatkowo, w celu zniwelowania opóźnień, wszystkie rdzenie dostaną do dyspozycji wspólną pamięć podręczną trzeciego poziomu (cache L3) o pojemności 2 MB. Pamiętając o korzyściach, jakie Core 2 Duo czerpie z posiadania wspólnej pamięci cache L2, możemy przypuszczać, że takie rozwiązanie bardzo pozytywnie wpłynie na ogólną wydajność Ageny. Po drugie, Agena przyniesie także znaczące zmiany w architekturze K8. AMD nie ujawniła jeszcze wszystkich informacji, ale z tego co już wiemy, rysuje się całkiem ciekawy obraz całości. K8L przyniesie między innymi rozbudowaną i skuteczniejszą predykcję rozgałęzień, możliwość zmiany kolejności dostarczania instrukcji do potoków wykonawczych (out of order load execution) w 32-bitowych paczkach czy wreszcie poszerzone do 128-bitów jednostki SSE.
Wszystko to powinno znacznie zwiększyć zarówno stało-, jak i przede wszystkim zmiennoprzecinkową wydajność i sprawić, że architektura procesorów AMD znowu będzie najbardziej wydajna. I to pomimo utrzymanego ograniczenia w postaci 3 instrukcji (IPC) w jednym cyklu zegara (Conroe może wykonać 4). A wynika to z faktu, że w większości sytuacji procesor i tak wykonuje 2-2,5 instrukcji na takt zegara i znacznie ważniejsze jest to, czy rozwiązania zastosowane w architekturze danego procesora są w stanie dostarczać instrukcje i dane na tyle skutecznie, by choć ten poziom w pełni utrzymywać.
Na w pełni czterordzeniową odpowiedź Intela na Agenę będziemy musieli trochę poczekać. Najpierw naszym oczom ukaże się Penryn, czyli lekko usprawniony Core 2 Duo z dodatkowymi instrukcjami SSE4, produkowany w wymiarze 45 nanometrów (Agena w tym samym czasie będzie wytwarzana przy wykorzystaniu technologii 65 nanometrów). Penryn zbudowany będzie z 410 mln tranzystorów, z czego zdecydowaną większość stanowić ma 6 MB pamięci podręcznej drugiego poziomu (około 288 mln tranzystorów).
Na bazie tego procesora powstanie także zaktualizowana wersja Kentsfielda (Yorktown), a więc Intel nadal będzie nas raczył konstrukcjami z dwoma, dwurdzeniowymi procesorami zamkniętymi w jednej obudowie. Nie należy jednak z góry przekreślać tego rozwiązania. 820 mln tranzystorów rozpędzonych do zegara 3,5 GHz, w połączeniu z poczynionymi w architekturze usprawnieniami i, co całkiem prawdopodobne, nową wersją technologii współbieżnej wielowątkowości (HyperThreading) może z nowego Kentsfielda uczynić bardzo potężną, wielozadaniową zabawkę.
Nowa architektura co dwa lata
Niedawno Microsoft ogłosił, że powraca do tradycji prezentowania nowego systemu operacyjnego raz na dwa lata. Intel chce działać tak samo i na 2008 rok zapowiedział premierę nowej architektury o kodowej nazwie Nehalem. O Nehalemie słychać już było kilka lat temu, w czasach, gdy Intel miał w głowie tylko NetBurst i pogoń za gigahercami. Wtedy mówiło się, że Nehalem przyniesie znaczące usprawnienia, być może dodatkowe jednostki wykonawcze i inne rozwiązania mające uczynić z architektury NetBurst mistrza wydajności. Dziś Nehalem jest symbolem nowej architektury, która jednak łączyć ma w sobie najlepsze rozwiązania Core 2 Duo z tymi, jakie znamy z NetBurst.
Wiemy na pewno, że w nowym procesorze zawarta będzie usprawniona technologia HyperThreading, znana właśnie z P4. Mówi się także o większej liczbie jednostek wykonawczych, mających podnieść, i tak już wysoki, współczynnik IPC. Mówi się wreszcie o optymalizacji procesora pod kątem strumieniowego przetwarzania danych, a więc rozwinięcia multimedialnych możliwości Core 2 Duo, co przecież także było mocną stroną P4. Być może czeka nas zatem wydłużenie potoku wykonawczego, z obecnych 12 etapów, do liczby bliskiej 20 (Athlon 64 ma ich 14). To pozwoli na zwiększenie częstotliwości taktowania procesora i w sposób naturalny przyspieszy wykonywanie operacji takich jak kompresja, konwersja czy dekodowanie plików filmowych, muzyki lub archiwizację danych.
Oczywiście, podobnie jak w przypadku AMD K8, wbudowany kontroler usunie w przeszłość szynę FSB, a w zamian za to wprowadzi nową, szeregową magistralę, potrzebną do połączenia procesora z pamięcią RAM i otoczeniem. Nie znamy jeszcze nazwy tej szyny ani jej możliwości, ale przypuszczać możemy, że będzie to rozwiązanie podobne do aemdekowskiego HyperTransport. Wersja Nehalema dla domowego użytkownika (kodowa nazwa Bloomfield) posiadać ma 8 MB cache L2 i wymagać będzie nowej podstawki o nazwie Socket B (1366 pinów).
Nowy quadcore Intela wytwarzany będzie w wymiarze 45 nanometrów i pracować będzie z zegarem około 3-3,5 GHz, co zaowocować ma współczynnikiem Thermal Design Power na poziomie 130 W. Na pewno nie będzie to chłodny procesor. Ale z drugiej strony, Bloomfield zbudowany będzie z prawie miliarda tranzystorów.
AMD nie pozostaje w tyle
Odpowiedzią AMD na Nehalema będzie rozwiązanie o nazwie Fusion. Niestety, małe jest prawdopodobieństwo, że firma AMD po morderczym wysiłku związanym z prezentacją architektury K8L i wprowadzeniem do sprzedaży Barcelony i Ageny była w stanie w 2008 roku zaprezentować kolejną generację czterordzeniowego procesora.
Jedyne czego możemy się spodziewać w najbliższych latach to dopracowanie produkcji w wymiarze 65 nanometrów (na razie AMD średnio sobie z tym radzi) i pierwsze przymiarki do wymiaru 45-nanometrów, co zaowocuje procesorami ze znacznie wyższymi zegarami. To może jednak być na Nehalema za mało. Być może dlatego AMD, świadomy nadchodzących problemów, szuka już nowych rynków zbytu i na 2008 rok zapowiada premierę pierwszego procesora ze zintegrowanym układem graficznym.
Niestety, nie wiemy jeszcze jak dokładnie AMD zamierza taki układ zrealizować w krzemie. Być może na rynku pojawi się Agena z wyciętymi dwoma rdzeniami, zamiast których pojawi się odpowiedni GPU zbudowany z około 200 mln tranzystorów. Na pewno nie będzie to rozwiązanie najwydajniejsze (przypomnijmy, że GeForce 8800 GTX już dziś składa się z, bagatela, 681 mln tranzystorów), ale na pewno wielu użytkownikom wydajność oferowana przez dwurdzeniowy procesor pracujący w tandemie ze zintegrowanym GPU spokojnie wystarczy, także do grania.
Problemem może być jedynie ograniczona przepływność pamięci. Wszak wspomniany GF8800 GTX potrzebuje w jednej sekundzie nawet 80 GB danych, podczas gdy obecne CPU muszą zadowolić się wielkością 10 razy mniejszą. Choć szybsza szyna HTT w połączeniu z pamięciami DDR2, albo jeszcze lepiej DDR3, będą oferować całkiem sporą przepływność, nawet jak na graficzne standardy.
Dodatkowo, lekarstwem na ograniczoną przepustowość ma być pamięć cache o dużej pojemności, która w przypadku GPU pełnić będzie rolę buforów danych. Do efektywnego działania takiego konglomeratu potrzebny będzie też dodatkowy, inteligentny przełącznik krzyżowy, godzący potrzeby grafiki i procesora związane z dostępem do pamięci RAM przy wykorzystaniu zaledwie pojedynczego, zintegrowanego z rdzeniem kontrolera. Na razie nie wiemy, kiedy Intel zaprezentuje konkurencyjne rozwiązanie. Bo to, że zaprezentuje, jest niemal pewne. Tym bardziej, że firma ostatnio ogłosiła chęć opracowania i produkcji GPU z prawdziwego zdarzenia (premiera planowana jest na 2009 rok), które oczywiście, mogłoby wylądować także, a może nawet przede wszystkim, w którymś z nadchodzących, wielordzeniowych procesorów.
Wielordzeniowy konglomerat
Wiele wskazuje więc na to, że Yorktown nie będą ostatnimi przedstawicielami tego typu układów i doczekamy się podobnie skonstruowania 8-rdzeniowego Penryna i Nehalema. A gdy dodamy do tego jeszcze obecną, przynajmniej w tym ostatnim, technologię HyperThreading, to otrzymamy nawet 16-wątkowy procesor przeznaczony na rynek domowego użytkownika. Idąc tym tropem i zapowiedziami Intela oraz AMD możemy ostrożnie założyć, że w przyszłej dekadzie na porządku dziennym będą procesory zdolne do pracy nawet z kilkudziesięcioma wątkami jednocześnie. Korzyści z posiadania takiego układu mogą być ogromne. Pod warunkiem jednak, że producenci gier i programów zechcą i możliwie szybko zaczną tworzyć, odpowiednie wielowątkowe kody. Dziś bowiem często trudno jest wykorzystać dwurdzeniowy procesorów, nie mówiąc już o czterordzeniowych modelach. Na szczęście widać już pierwsze oznaki nadchodzących zmian.
Firma Valve, twórca słynnego Half-Life zaprezentowała niedawno technologię, która w bardzo efektywny sposób rozdziela obliczenia pomiędzy wszystkie dostępne rdzenie procesora. W zależności od potrzeb, każdy ze rdzeni liczy odmienną część wirtualnego świata - jeden będzie zajmować się fizyką, inny sztuczną inteligencją, jeszcze inne dźwiękiem i grafiką.
Dodatkowo, np. w sytuacji, gdy do obliczenia jest zmiana położenia, dajmy na to 1000 elementów, silnik gry może przydzielić po 250 z nich każdemu z czterech rdzeni. Nie zawsze jednak można takiego podziału dokonać, zwłaszcza wtedy, gdy do wykonania obliczeń potrzebne są dane z wcześniejszych operacji. Dlatego Valve całe rozwiązanie wyposażyło jeszcze w dodatkowe mechanizmy, które dynamicznie rozdzielają wszystkie zadania i obliczenia tak, by każdy z rdzeni był możliwie w pełni wykorzystany. I efekt tego jest bardzo interesujący. Na specjalnym pokazie Kentsfield okazał się ponad trzy razy wydajniejszy od porównywalnego jednordzeniowego układu. Oznacza to, że programiści będą mogli tworzyć znacznie bardziej rozbudowane wirtualne światy bez obawy o to, czy procesor sobie z nimi poradzi.
Wielordzeniowe procesory wykorzystywać ma między innymi Unreal Engine 3 firmy Epic. Łącznie, w 2007 roku, ma na rynku pojawić się przynajmniej kilkanaście gier zdolnych do poskromienia dodatkowych możliwości oferowanych przez takie układy. A Valve kreśli jeszcze bardziej interesującą przyszłość. Zdaniem programistów z tej firmy, za kilka lat niczym nadzwyczajnym nie będą gry, które będą potrafiły zaangażować do pracy nawet kilkadziesiąt rdzeni, w tym także te graficzne. Nadejść ma bowiem era, w której zatrze się wyraźna granica pomiędzy CPU a GPU, a liczyć się będzie tylko ich łączna wydajność, wynikająca z zastosowania ogromnej liczby rdzeni.
Nietrudno wyobrazić sobie konglomerat kilku procesorów różnego przeznaczenia i zunifikowanego GPU zintegrowanych w jednym kawałku krzemu i efektywnie współpracujących, dzięki inteligentnej logice dynamicznie rozdzielającej zadania związanie liczeniem grafiki, fizyki czy sztucznej inteligencji pomiędzy wszystkie dostępne jednostki. To będzie era prawdziwej konwergencji, połączenia ogromnych możliwości CPU i GPU. Ale czy tak właśnie się stanie? Czas pokaże.
Krzysztof Wierzbicki