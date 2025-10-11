Modele SI współpracują i biją rekordy skuteczności na testach USMLE

Julia Król

Julia Król

Nowe badanie wskazuje, że zespołowa praca kilku modeli SI, takich jak ChatGPT, znacząco poprawia skuteczność odpowiedzi na amerykańskich egzaminach medycznych USMLE. System, w którym modele sztucznej inteligencji konsultują się ze sobą i wspólnie analizują pytania, osiągał lepsze wyniki niż każdy z nich osobno.

Sztuczna inteligencja osiąga rekordową skuteczność na egzaminach z wiedzy medycznej (zdj. ilustracyjne)
Sztuczna inteligencja osiąga rekordową skuteczność na egzaminach z wiedzy medycznej (zdj. ilustracyjne)pvq8123RF/PICSEL

Sztuczna inteligencja ma problem z tymi samymi pytaniami zadanymi wielokrotnie

W ciągu ostatnich kilku lat przeprowadzono wiele badań, które oceniały skuteczność dużych modeli językowych (LLM) na egzaminach z wiedzy medycznej. Chociaż ogólne wyniki w poszczególnych testach się poprawiły, problemem była różnica w odpowiedziach na to samo pytanie zadane wielokrotnie - LLM generowały różnorodne odpowiedzi, z których niektóre były niepoprawne, a inne stanowiły halucynacje.

Duży sukces pracy zespołowej modeli SI

Teraz w nowym badaniu naukowcy opracowali system, w którym pięć modeli SI opartych na ChatGPT wspólnie analizowało pytania egzaminacyjne, porównywało swoje odpowiedzi w iteracyjnej wymianie zdań, a następnie dochodziło do wspólnego wniosku. Wyniki były imponujące: SI uzyskała skuteczność odpowiedzi na poziomie 97, 93 i 94 proc. w trzech etapach amerykańskiego egzaminu medycznego USMLE.

Metoda, nazwana "AI council" (rada SI) została przetestowana na 325 pytaniach obejmujących medyczną wiedzę podstawową i kliniczną. Okazało się, że to zespołowe podejście osiągnęło znacznie lepszy wynik niż działanie pojedynczego modelu. Sztuczna inteligencja nie była specjalnie trenowana pod kątem wiedzy medycznej, a mimo to osiągnęła doskonałe wyniki.

Kiedy modele nie były zgodne co do odpowiedzi, do akcji wkraczał tzw. mediator - dodatkowy algorytm, który analizował rozbieżności i streszczał argumenty. Następnie uruchamiano kolejną rundę dyskusji między modelami SI. Podejście to pozwoliło poprawić błędne odpowiedzi w ponad połowie przypadków.

Zobacz również:

CZy sztuczna inteligencja zawładnie medycyną?
Sztuczna inteligencja

Sztuczna inteligencja zamiast lekarza? AI wchodzi do medycyny

Karol Kubak
Karol Kubak

- Opisujemy metodę, która poprawia dokładność, traktując naturalną zmienność odpowiedzi sztucznej inteligencji jako zaletę. Pozwala ona systemowi na kilka prób, porównanie notatek i samodzielną korektę, i powinna zostać wbudowana w przyszłe narzędzia edukacyjne, a tam, gdzie to konieczne, w opiekę kliniczną - zauważają badacze.

Sztuczna inteligencja współpracuje ze sobą i osiąga świetne wyniki na egzaminach

Autorzy badania sugerują, że kolektywne podejmowanie decyzji przez sztuczną inteligencję może zwiększyć dokładność odpowiedzi. Zauważają jednak, że paradygmat ten nie został jeszcze przetestowany w rzeczywistych sytuacjach klinicznych.

- Nasze badanie pokazuje, że gdy wiele modeli sztucznej inteligencji prowadzi wspólną dyskusję, osiągają one najwyższe w historii wyniki na egzaminach na licencję medyczną bez specjalnego szkolenia ani dostępu do danych medycznych. To dowodzi potencjału współpracy i dialogu między systemami SI w uzyskiwaniu dokładniejszych i bardziej wiarygodnych odpowiedzi - mówi Yahya Shaikh, współautor badania.

Zobacz również:

Roboty napędzane ChatGPT wkraczają do szkół. To może być dobry kierunek
Sztuczna inteligencja

Czy sztuczna inteligencja grozi naszej inteligencji? Odkryli coś niepokojącego

Daniel Górecki
Daniel Górecki

- Nasza praca dostarcza pierwszych jednoznacznych dowodów na to, że systemy SI potrafią same korygować błędy poprzez ustrukturyzowany dialog, a ich wyniki są lepsze niż wyniki pojedynczych modeli - dodaje.

Badanie zostało opublikowane w magazynie PLOS Medicine.

Technologia dla zmysłów. Niesamowita immersyjna wystawa w KiotoAFP

Najnowsze