Polacy przeegzaminowali ChatGPT. Będzie z niego internista?

Polscy naukowcy jako pierwsi na świecie postanowili przetestować ChatGPT z zakresu interny. Zbadali, czy ChatGPT będzie w stanie zdać polski egzamin, który jest wymagany do uzyskania tytułu specjalisty chorób wewnętrznych. Jak sobie poradziła sztuczna inteligencja z tym zadaniem?

ChatGPT został poddany testom z zakresu interny.NICOLAS MAETERLINCK / BELGA MAG / Belga via AFPAFP

ChatGPT szturmem podbił internet, masowo korzystają z niego nie tylko hobbyści, ale i rozmaite firmy, gdzie AI wspiera w pracy między innymi osoby zajmujące się na co dzień takimi dziedzinami, jak programowanie, czy tłumaczenia.

Rozwój AI doprowadził nawet do tego, że wykorzystuje się ją jako wsparcie naukowe w wielu dziedzinach. Sam tylko ChatGPT był już poddawany wielu testom z zakresu różnych gałęzi medycyny - między innymi zdał już amerykański egzamin licencjonowania medycznego USMLE oraz europejski egzamin z podstawowej kardiologii. A jak mu poszło w polskich testach?

ChatGPT podszedł do polskiego egzaminu z interny. Jak sobie poradziła sztuczna inteligencja?

Niedawno naukowcy z Collegium Medicum im. Ludwika Rydygiera w Bydgoszczy jako pierwsi na świecie postanowili sprawdzić, jak ChatGPT poradzi sobie podczas egzaminu z interny.

- Interna nazywana jest królową nauk medycznych. Od lekarzy specjalizujących się w chorobach wewnętrznych wymagana jest rozległa wiedza, a także duża koncentracja i samodyscyplina - napisali autorzy omawianego badania na łamach "Polish Archives of Internal Medicine".

Jak wypadła sztuczna inteligencja w tym teście? Jak się okazuje, nie najlepiej! Internistą ChatGPT zostać jeszcze nie może. Naukowcy pokazali, jakie osiągnął wyniki w polskim egzaminie.

ChatGPT został przeegzaminowany z zakresu interny przez polskich naukowców. To pierwsze tego typu badania na świecie.123rf.com123RF/PICSEL

ChatGPT poddany testom. Jak poszedł mu egzamin na specjalistę chorób wewnętrznych?

Badacze zaprezentowali AI łącznie 1191 pytań, które pojawiły się na egzaminach certyfikacyjnych w latach 2013-2017. Okazało się, że uzyskany przez ChatGPT wskaźnik prawidłowych odpowiedzi wahał się od 47,5 proc. do 53,33 proc. (mediana 49,37 proc.), podaje PAP. Jest to zdecydowanie za mało, aby sztuczna inteligencja zaliczyła polski egzamin konieczny do uzyskania tytułu specjalisty chorób wewnętrznych. Próg to 60 proc. poprawnych odpowiedzi.

- We wszystkich sesjach wyniki ChatGPT były znacznie gorsze od wyników egzaminowanych ludzi, których wyniki wahały się między 65,21 proc. a 71,95 proc. - zaznaczyli naukowcy z Bydgoszczy.

Naukowcy z Bydgoszczy zaznaczyli jednak, że ich eksperyment miał pewne ograniczenia. Przede wszystkim egzamin prowadzony był w języku polskim, a ChatGPT zaprojektowany jest po angielsku. Poza tym model jest regularnie aktualizowany, więc wersja zastosowana w badaniu w momencie publikacji nie była tą najnowszą.

Wzloty i upadki sztucznej inteligencji. Z czym ChatGPT miał problem na egzaminie?

Wyniki modelu językowego były różne w zależności od tego, jaka była długości pytania, podaje PAP. Chat najlepiej radził sobie z pytaniami, które były najkrótsze. Pytania stosunkowo krótkie nie szły mu już jednak tak dobrze. Po tych najkrótszych, najlepiej radził sobie kolejno z pytaniami długimi, bardzo długimi, a dopiero na końcu dość krótkimi i tymi o średniej długości. Ciekawą obserwacją naukowców w przypadku tej analizy jest fakt, że u ludzi wyglądało to bardzo podobnie.

Jeśli chodzi o trudność pytań, polscy badacze ustalili, że poprawność odpowiedzi ChatuGPT stopniowo spadała wraz ze wzrostem trudności zadania. Jest to w pełni zgodne z ludzkimi zachowaniami. W przypadku poszczególnych dziedzin medycyny wewnętrznej ChatGPT najlepiej radził sobie z odpowiedziami z zakresu alergologii, chorób zakaźnych i endokrynologii, a najgorzej wypadł w przypadku pulmonologii, diabetologii i kardiologii.

Choć w wielu badaniach na całym świecie udowodniono już skuteczność stosowania algorytmów jako wsparcia w różnych dziedzinach medycyny, to badacze podkreślają, że z pewnością w najbliższej przyszłości AI nie zastąpi całkiem pracy człowieka w tym obszarze.

Zobacz również:

Sztuczna inteligencja wspomoże lekarzy w wykrywaniu raka piersi.

Medycyna

Nadchodzą zmiany w wykrywaniu raka. Będzie szybciej i precyzyjniej

Paula Drechsler

- Jest mało prawdopodobne, aby sztuczna inteligencja była w stanie w najbliższej przyszłości zastąpić pracowników ochrony zdrowia, szczególnie w dziedzinie chorób wewnętrznych; nawet najbardziej wyrafinowane algorytmy i technologie wspomagane przez sztuczną inteligencję nie są w stanie diagnozować i leczyć chorób bez udziału człowieka - podsumowali naukowcy.

Legenda o potworze z Loch Ness wciąż żywaDeutsche Welle

ChatGPT podszedł do polskiego egzaminu z interny. Jak sobie poradziła sztuczna inteligencja?

ChatGPT poddany testom. Jak poszedł mu egzamin na specjalistę chorób wewnętrznych?

Wzloty i upadki sztucznej inteligencji. Z czym ChatGPT miał problem na egzaminie?

Zobacz również:

Najnowsze