Modele SI współpracują i biją rekordy skuteczności na testach medycznych
Nowe badanie wskazuje, że zespołowa praca kilku modeli SI, takich jak ChatGPT, znacząco poprawia skuteczność odpowiedzi na amerykańskich egzaminach medycznych USMLE. System, w którym modele sztucznej inteligencji konsultują się ze sobą i wspólnie analizują pytania, osiągał lepsze wyniki niż każdy z nich osobno.

Sztuczna inteligencja ma problem z tymi samymi pytaniami zadanymi wielokrotnie
W ciągu ostatnich kilku lat przeprowadzono wiele badań, które oceniały skuteczność dużych modeli językowych (LLM) na egzaminach z wiedzy medycznej. Chociaż ogólne wyniki w poszczególnych testach się poprawiły, problemem była różnica w odpowiedziach na to samo pytanie zadane wielokrotnie - LLM generowały różnorodne odpowiedzi, z których niektóre były niepoprawne, a inne stanowiły halucynacje.
Duży sukces pracy zespołowej modeli SI
Teraz w nowym badaniu naukowcy opracowali system, w którym pięć modeli SI opartych na ChatGPT wspólnie analizowało pytania egzaminacyjne, porównywało swoje odpowiedzi w iteracyjnej wymianie zdań, a następnie dochodziło do wspólnego wniosku. Wyniki były imponujące: SI uzyskała skuteczność odpowiedzi na poziomie 97, 93 i 94 proc. w trzech etapach amerykańskiego egzaminu medycznego USMLE.
Metoda, nazwana "AI council" (rada SI) została przetestowana na 325 pytaniach obejmujących medyczną wiedzę podstawową i kliniczną. Okazało się, że to zespołowe podejście osiągnęło znacznie lepszy wynik niż działanie pojedynczego modelu. Sztuczna inteligencja nie była specjalnie trenowana pod kątem wiedzy medycznej, a mimo to osiągnęła doskonałe wyniki.
Kiedy modele nie były zgodne co do odpowiedzi, do akcji wkraczał tzw. mediator - dodatkowy algorytm, który analizował rozbieżności i streszczał argumenty. Następnie uruchamiano kolejną rundę dyskusji między modelami SI. Podejście to pozwoliło poprawić błędne odpowiedzi w ponad połowie przypadków.
- Opisujemy metodę, która poprawia dokładność, traktując naturalną zmienność odpowiedzi sztucznej inteligencji jako zaletę. Pozwala ona systemowi na kilka prób, porównanie notatek i samodzielną korektę, i powinna zostać wbudowana w przyszłe narzędzia edukacyjne, a tam, gdzie to konieczne, w opiekę kliniczną - zauważają badacze.
Sztuczna inteligencja współpracuje ze sobą i osiąga świetne wyniki na egzaminach
Autorzy badania sugerują, że kolektywne podejmowanie decyzji przez sztuczną inteligencję może zwiększyć dokładność odpowiedzi. Zauważają jednak, że paradygmat ten nie został jeszcze przetestowany w rzeczywistych sytuacjach klinicznych.
- Nasze badanie pokazuje, że gdy wiele modeli sztucznej inteligencji prowadzi wspólną dyskusję, osiągają one najwyższe w historii wyniki na egzaminach na licencję medyczną bez specjalnego szkolenia ani dostępu do danych medycznych. To dowodzi potencjału współpracy i dialogu między systemami SI w uzyskiwaniu dokładniejszych i bardziej wiarygodnych odpowiedzi - mówi Yahya Shaikh, współautor badania.
- Nasza praca dostarcza pierwszych jednoznacznych dowodów na to, że systemy SI potrafią same korygować błędy poprzez ustrukturyzowany dialog, a ich wyniki są lepsze niż wyniki pojedynczych modeli - dodaje.
Badanie zostało opublikowane w magazynie PLOS Medicine.
***
Bądź na bieżąco i zostań jednym z 87 tys. obserwujących nasz fanpage - polub GeekWeek na Facebooku i komentuj tam nasze artykuły!












