Paradoks AI w medycynie. Leczy nieuleczalne choroby i szerzy pseudonaukę
Sztuczna inteligencja w medycynie pokazuje dziś swoje dwa skrajne oblicza. Z jednej strony przyspiesza odkrywanie nowych leków i daje nadzieję w walce z chorobami, których wyleczenie od dekad pozostaje poza naszym zasięgiem. Z drugiej potrafi zaś bez mrugnięcia okiem powielać groźne pseudonaukowe zalecenia, jeśli tylko brzmią wystarczająco profesjonalnie. Czy to wyjątek, czy może systemowa cecha AI?

Sztuczna inteligencja zapowiadana była jako przełom dla niemal wszystkich dziedzin naszego życia, a jednym z obszarów, z którym wiązaliśmy szczególne nadzieje, była medycyna. Współcześnie mierzymy się bowiem z tak wieloma palącymi globalnymi problemami zdrowotnymi, które musimy rozwiązać, że przyda się każda pomoc, a szczególnie taka z niemal nieograniczonymi możliwościami obliczeniowymi.
Wystarczy tylko wspomnieć, że rosnąca oporność bakterii na leki i ograniczone możliwości produkcji nowych antybiotyków sprawiają, że choroby - jeszcze niedawno rutynowo leczone - ponownie stają się śmiertelnym zagrożeniem i już dziś z ich powodu umiera każdego roku ok. miliona osób (nie brakuje też szacunków sugerujących, że lekooporność przyczynia się do nawet 5 mln zgonów rocznie), wciąż nie udało nam się wygrać walki z chorobami neurodegeneracyjnymi, jak Parkinson czy Alzheimer, które z powodu starzejących się społeczeństw będą coraz poważniejszym problemem, nie wspominając nawet o nowotworach czy rzadkich chorobach, których nawet nie próbujemy leczyć, często z powodów… ekonomicznych.
Zielone światło
I tu do akcji wkracza sztuczna inteligencja, która zaczyna odgrywać coraz ważniejszą rolę w wyścigu z narastającą lekoopornością bakterii. Klasyczne metody opracowywania antybiotyków nie nadążają za tempem ewolucji patogenów, ale AI oferuje jakościową zmianę podejścia. Zamiast żmudnego testowania pojedynczych cząsteczek, algorytmy potrafią w krótkim czasie przeanalizować dziesiątki milionów struktur chemicznych i wskazać te, które mają potencjał działania przeciwbakteryjnego.
Co więcej, modele generatywne nie tylko przeszukują istniejące biblioteki związków, ale również projektują zupełnie nowe cząsteczki - często różniące się mechanizmem działania od znanych antybiotyków. To kluczowe w walce z patogenami, które uodporniły się na dotychczasowe terapie. Pierwsze wyniki takich badań są obiecujące, bo wśród milionów zaprojektowanych przez AI związków udało się wyselekcjonować kandydatów skutecznych wobec szczególnie problematycznych bakterii, jak szczepy wywołujące rzeżączkę czy MRSA (gronkowiec złocisty oporny na metycylinę).
Część z nich wykazuje zdolność niszczenia patogenów odpornych na wiele dostępnych leków, co sugeruje możliwość stworzenia nowej klasy antybiotyków. I choć na tym etapie są to wciąż badania laboratoryjne, wymagające dalszych testów przed ewentualnym zastosowaniem klinicznym, bez AI nie bylibyśmy w stanie zrobić tyle przez długie lata (o ile w ogóle). Jak komentuje cytowany przez BBC prof. James Collins z Massachusetts Institute of Technology:
Możemy - w ciągu dni, a nawet godzin - przeszukiwać ogromne biblioteki związków chemicznych, aby znaleźć te o działaniu przeciwbakteryjnym.
Równolegle sztuczna inteligencja znajduje zastosowanie w poszukiwaniu terapii dla chorób, które dotąd pozostawały poza zasięgiem medycyny, w tym schorzeń neurodegeneracyjnych i tysięcy chorób rzadkich. W takich przypadkach AI często musi działać przy ograniczonej wiedzy biologicznej, co stanowi dodatkowe wyzwanie. Mimo to zdolność do analizowania złożonych zależności molekularnych daje nadzieję na przyspieszenie odkryć, które tradycyjnymi metodami zajęłyby dekady.
Mówiąc krótko, potencjał tej technologii jest ogromny, bo może ona znacząco skrócić czas identyfikacji obiecujących kandydatów na leki i obniżyć koszty ich opracowania, tym samym zwiększając skuteczność całego procesu odkrywania nowych terapii. A nie można też zapomnieć o innych poziomach wsparcia lekarzy, bo coraz częściej widzimy rozwiązania robotyczne pomagające w precyzyjnym przeprowadzaniu zabiegów chirurgicznych czy systemy skutecznie identyfikujące choroby na podstawie technologii obrazowych (często widzą więcej niż doświadczeni lekarze) lub innowacyjnych narzędzi.
Jakiś czas temu badacze z Imperial College London oraz Imperial College Healthcare NHS Trust opracowali nowoczesną wersję stetoskopu, który potrafi w ciągu 15 sekund wykryć trzy poważne choroby serca, tj. niewydolność serca, wady zastawek i zaburzenia rytmu serca, model SleepFM - stworzony przez naukowców ze Stanford University i kilku innych prestiżowych ośrodków - analizuje dane zapisane podczas naszego snu, by wykrywać ryzyko 130 chorób i przypadłości, jedna z prywatnych firm pracuje nad rozwiązaniem, które w ciągu 10 sekund badania ruchu gałek ocznych jest w stanie przewidzieć predyspozycje do zachorowania na depresję czy chorobę Alzheimera, a podobne przykłady można mnożyć.
Żółta kartka
Globalne systemy ochrony zdrowia coraz intensywniej analizują również możliwość wykorzystania dużych modeli językowych (LLM) jako narzędzi wspierających pacjentów w podejmowaniu decyzji zdrowotnych. Ale choć współczesne modele osiągają wyniki zbliżone do perfekcji na egzaminach lekarskich i w testach wiedzy medycznej, ich skuteczność w realnych sytuacjach wypada dużo słabiej i budzi poważne wątpliwości.
Jak sugerują naukowcy w pracy zatytułowanej "Reliability of LLMs as medical assistants for the general public: a randomized preregistered study", opublikowanej na łamach czasopisma "Nature", badania pokazują wyraźną rozbieżność między potencjałem technologii a jej faktycznym wpływem na decyzje użytkowników.
W kontrolowanym eksperymencie z udziałem 1298 osób sprawdzono, czy LLM mogą pomagać w rozpoznawaniu objawów i wyborze odpowiedniego działania w typowych scenariuszach zdrowotnych. Uczestnicy zostali podzieleni na grupy korzystające z modeli (m.in. GPT-4o, Llama 3 i Command R+) oraz grupę kontrolną, która mogła używać dowolnych źródeł informacji, takich jak wyszukiwarki internetowe. Same modele, analizowane w oderwaniu od użytkowników, osiągały bardzo wysoką skuteczność - poprawnie identyfikowały potencjalne schorzenia w niemal 95 proc. przypadków. Jednak w praktyce, gdy to ludzie korzystali z ich wskazówek, wyniki były zdecydowanie słabsze i nie odbiegały od rezultatów grupy kontrolnej.
Różnica ta wskazuje na fundamentalny problem - ograniczeniem nie jest wyłącznie jakość modeli, lecz sposób, w jaki ludzie z nich korzystają. Analiza interakcji wykazała, że użytkownicy często przekazują niepełne informacje, błędnie interpretują odpowiedzi lub ignorują rekomendacje generowane przez AI. Jednocześnie modele nie zawsze właściwie rozumieją kontekst zapytań, co dodatkowo pogłębia ryzyko błędnych decyzji. W efekcie nawet bardzo zaawansowane systemy nie przekładają swojej "laboratoryjnej" skuteczności na realne wsparcie dla pacjentów.
Badanie podważa również wiarygodność dotychczasowych metod oceny bezpieczeństwa takich technologii. Standardowe testy, oparte na pytaniach egzaminacyjnych oraz symulacje interakcji z użytkownikami nie oddają rzeczywistych warunków użycia. Modele wypadają w nich znacznie lepiej niż w kontaktach z prawdziwymi ludźmi, a wyniki nie odzwierciedlają złożoności ludzkich zachowań, decyzji i błędów poznawczych.
Oznacza to, że chociaż modele AI mogą potencjalnie zwiększyć dostęp do wiedzy medycznej i odciążyć systemy opieki zdrowotnej, zwłaszcza w sytuacjach przeciążenia lub ograniczonego dostępu do lekarzy, to ich rzeczywiste zastosowanie w takich scenariuszach jest obarczone dużym ryzykiem.
Czerwona kartka
I tu dochodzimy do największego paradoksu sztucznej inteligencji w medycynie, bo chociaż modele AI mogą nam pomóc w walce z rakiem i innymi chorobami, opracować nowe leki, a LLM świetnie radzą sobie ze zdawaniem egzaminów medycznych, to jednocześnie potrafią udzielać "katastrofalnie błędnych porad", jak choćby… doodbytnicze stosowanie czosnku w celu poprawy odporności. A przynajmniej tak wynika z badania "Mapping the susceptibility of large language models to medical misinformation across clinical notes and social media: a cross-sectional benchmarking analysis" opublikowanego w czasopiśmie The Lancet Digital Health.
Naukowcy przeanalizowali w nim, jak modele językowe (LLM) radzą sobie z dezinformacją medyczną, a wyniki ujawniły zaskakujący i niepokojący schemat błędów. W szeroko zakrojonym badaniu przeanalizowano 20 modeli AI, poddając je ponad 3,4 mln zapytań. Dane pochodziły m.in. z forów internetowych, mediów społecznościowych, zmodyfikowanych wypisów szpitalnych (z celowo wprowadzoną jedną fałszywą rekomendacją) oraz fikcyjnych przypadków przygotowanych i zatwierdzonych przez lekarzy.
Efekt? W około jednej trzeciej przypadków modele bezrefleksyjnie powielały nieprawdziwe informacje, jednak to nie skala błędów najbardziej zaskoczyła badaczy, ale ich charakter. Bo jak się okazało, gdy fałszywe informacje przedstawiano w luźnym internetowym stylu, modele wykazywały stosunkowo dużą czujność i myliły się jedynie w około 9 proc. przypadków.
Ale wystarczyło ubrać treści w formalny język medyczny, by odsetek błędów wystrzelił do poziomu 46 proc. Przykłady? Fałszywe zalecenia w stylu klinicznym, jak picie zimnego mleka przy krwawieniu z przełyku czy absurdalne "terapie" wzmacniające odporność, były przez AI traktowane znacznie bardziej wiarygodnie niż identyczne treści napisane potocznym językiem.
Sugeruje to, że AI często nie sprawdza faktów, ale bazuje na rozpoznanym autorytecie. I w sumie ma to wiele sensu, bo sztuczna inteligencja nie rozumie prawdy w takim sensie jak człowiek, więc jej "wiedza" polega na autorytetach i wzorcach, więc w tym przypadku styl medyczny jest dla niej oznaką wiarygodności. Mówiąc krótko, nawet jeśli ktoś się myli, ale brzmi jak ekspert, tak właśnie traktować go będą LLM, … otwierające oczy, prawda?
Podsumowując, chatboty nie powinny być traktowane jako narzędzie do podejmowania decyzji zdrowotnych, ale nie oznacza to, że AI nie ma miejsca w medycynie. Wręcz przeciwnie, może być bardzo użyteczna, ale w kontrolowanym środowisku - wspierając specjalistów w badaniach, a nie zastępując ich w kontakcie z pacjentem.












