ChatGPT Health lekceważy nagłe przypadki medyczne. Nie każe ci wezwać pogotowia
Na początku tego roku OpenAI wypuściło ChatGPT Health, specjalną wersję czatbota AI, która w sposób bardziej odpowiedzialny i poparty profesjonalną wiedzą podchodzi do użytkowników zadających pytania związane ze zdrowiem i dobrostanem. Naukowcy zbadali, czy faktycznie tak jest. Eksperci nie mają wątpliwości - narzędzie ma poważne braki w zakresie bezpieczeństwa. Często lekceważy ewidentne przypadki wymagające pilnej interwencji, a reaguje alarmem na te mniej znaczące. Co jeszcze z nim nie tak?

Spis treści:
- ChatGPT Health miał odpowiedzialnie podchodzić do pacjentów
- Sztuczna inteligencja lekceważy poważne objawy medyczne
- OpenAI zawiodło. Produkt budzi obawy ekspertów
- Czy lekarze będą korzystać z narzędzi AI?
ChatGPT Health miał odpowiedzialnie podchodzić do pacjentów
Sztuczna inteligencja wielokrotnie zawodziła użytkowników, czy to podając zmyślone informacje, czy utwierdzając ich w toksycznych przekonaniach na temat siebie samych i świata. Potrafiła też wyprowadzić na manowce osoby, które konsultowały z nią swoje wyniki medyczne lub podejrzenia.
Jako że w takich celach z ChatGPT korzystają miliony ludzi każdego tygodnia, OpenAI postanowiło podejść do sprawy odpowiedzialnie. Na początku 2026 roku został uruchomiony specjalny tryb Health, w którym model postępuje według starannie opracowanych wytycznych, których autorami są eksperci z różnych dziedzin medycyny.
Założenia były ambitne. ChatGPT Health, o którym szczegółowo pisaliśmy w styczniu, miał być dużo bezpieczniejszy niż dotychczasowe wersje aplikacji, a także kierować użytkowników na właściwe tory, rekomendując konsultację z ludzkim specjalistą. Mimo dobrych chęci i częściowej poprawy nie do końca udało się zrealizować te postanowienia. Zweryfikował to amerykański zespół naukowców, w tym ekspertów od sztucznej inteligencji w medycynie, który swoimi odkryciami podzielił się na łamach prestiżowego "Nature Medicine".
Badanie to stanowi pierwszą tak kompleksową i niezależną ocenę tego modelu LLM od momentu jego rynkowego debiutu. Analiza danych nie zostawia wątpliwości - narzędzie AI ma poważne braki w zakresie bezpieczeństwa.
Sztuczna inteligencja lekceważy poważne objawy medyczne
ChatGPT Health już od blisko 2 miesięcy służy milionom użytkowników jako źródło porad medycznych. Choć częściowo spełnia założenia twórców, to według badaczy narzędzie często nie potrafi poprawnie skierować pacjentów na oddziały ratunkowe w sytuacjach bezpośredniego zagrożenia życia. Skąd o tym wiadomo?
Naukowcy przeanalizowali 960 interakcji opartych na 60 scenariuszach klinicznych z 21 różnych specjalności medycznych. Wyniki ujawniły niepokojący wzorzec określany jako odwrócona litera U. Model radził sobie dobrze w typowych przypadkach, takich jak udar mózgu i wstrząs anafilaktyczny, ale zawodził w "klinicznych ekstremach".
Najniebezpieczniejsze błędy dotyczyły stanów nagłych, gdzie model błędnie ocenił aż 48% przypadków. W grupie pacjentów wymagających natychmiastowej pomocy medycznej ChatGPT Health zaniżył powagę sytuacji w ponad połowie przypadków (52%). Zamiast na pogotowie, osobom z tak poważnymi schorzeniami, jak kwasica ketonowa w przebiegu cukrzycy czy narastająca niewydolność oddechowa, sztuczna inteligencja zalecała wizytę lekarską w ciągu 24-48 godzin.
Niepokój badaczy wzbudziły także mechanizmy zabezpieczające w sytuacjach kryzysu psychicznego, czyli coś, co OpenAI wprowadziło jeszcze kilka miesięcy wcześniej w modelu GPT-5, prawdopodobnie w odpowiedzi na zarzuty dotyczące tragicznej śmierci nastolatka, o czym pisaliśmy w GeekWeeku. Narzędzie zaprojektowano tak, by kierowało osoby z myślami samobójczymi do specjalistycznych linii wsparcia. Alerty te pojawiały się jednak w sposób irracjonalny.
"Komunikaty interwencji kryzysowej aktywowały się nieprzewidywalnie w przypadku prezentacji ideacji samobójczej, odpalając się częściej, gdy pacjenci nie opisywali żadnej konkretnej metody, niż gdy to robili" - piszą autorzy badania. Paradoksalnie więc system był bardziej skory do pomocy przy opisach o niższym stopniu ryzyka, natomiast zawodził, gdy użytkownicy dzielili się konkretnymi planami odebrania sobie życia, co w praktyce klinicznej jest sygnałem najwyższego zagrożenia. Z pewnością wymaga to pilnego zaadresowania ze strony OpenAI.
OpenAI zawiodło. Produkt budzi obawy ekspertów
Eksperci odnotowali, że "rasa pacjenta, jego płeć i bariery w dostępie do opieki nie wykazały istotnych efektów, choć przedziały ufności nie wykluczały klinicznie istotnych różnic". Przynajmniej pod tymi względami narzędzie sprawuje się stosunkowo dobrze. Ale to nie koniec, bo uwag pod jego adresem jest więcej. Analiza danych wykazała bowiem, że sztuczna inteligencja jest podatna na tak zwany błąd kotwiczenia.
Gdy w opisie sytuacji pojawiały się sugestie osób trzecich bagatelizujące objawy, prawdopodobieństwo, że model zaleci mniej pilną opiekę, rosło blisko 12-krotnie. Naukowcy zauważyli przy tym dziwne zjawisko - ChatGPT Health często poprawnie identyfikował niebezpieczne symptomy w swoich wyjaśnieniach, by następnie i tak uspokoić pacjenta i odradzić natychmiastową wizytę w szpitalu.
Czy można zatem zaufać narzędziom AI i konsultować z nimi swoje symptomy czy wyniki medyczne? Tylko do pewnego stopnia. Należy zachować przy tym sporą dawkę rezerwy. Co na ten temat mówią eksperci? "Nasze odkrycia ujawniają przegapione sytuacje nagłe wysokiego ryzyka i niespójną aktywację zabezpieczeń kryzysowych, co budzi obawy dotyczące bezpieczeństwa, które uzasadniają prospektywną walidację przed wdrożeniem na skalę konsumencką systemów triażowych opartych na sztucznej inteligencji" - komentują autorzy badania.
Eksperci podkreślili konieczność stałego monitorowania tych narzędzi. W przypadku pacjentów jedyną w pełni bezpieczną ścieżką pozostaje bezpośredni kontakt ze służbami medycznymi.
Czy lekarze będą korzystać z narzędzi AI?
W swojej ocenie eksperci odnieśli się nie tylko do ChatGPT Health, który wszak już został udostępniony publicznie, ale także do modeli diagnostycznych, obecnie testowanych w zamkniętych warunkach. Jednym z nich jest opisywany przez nas w 2025 roku przełomowy system Microsoft AI Diagnostic Orchestrator (MAI-DxO). Dokładne analizy wykazały, że sztuczna inteligencja Microsoftu diagnozuje skomplikowane przypadki szybciej, taniej i dokładniej niż lekarze - nawet ci z wieloletnim doświadczeniem. To prawdziwa "medyczna superinteligencja", jednak wciąż wymagająca nadzoru i weryfikacji.
Czy lekarze będą korzystać z ChatGPT Health i podobnych narzędzi - takich jak to od Microsoftu? "Jako studentka medycyny kształcąca się w czasach, gdy narzędzia medyczne AI są już w rękach milionów, postrzegam je jako technologie, które musimy nauczyć się integrować z opieką zdrowotną w dobrze przemyślany sposób, zamiast traktować je jako substytuty osądu klinicznego. Te systemy szybko się zmieniają, więc częścią naszego treningu staje się konieczność nauczenia się, jak rozumieć ich wyniki w sposób krytyczny, jak identyfikować ich niedomagania i jak ich używać w sposób, który chroni pacjentów" - skomentowała Alvira Tyagi, studentka na Icahn School of Medicine w Mount Sinai i współautorka badania.
Wygląda więc na to, że lekarze będą korzystać z narzędzi AI, a część z nich już to robi, jednak wymaga to szczególnej ostrożności. Odpowiedzi czatbota należy sprawdzić samodzielnie, zwłaszcza w tak wrażliwych przypadkach. Medycy mogą je konfrontować ze swoją wiedzą, źródłami internetowymi, podręcznikami i współpracownikami. Niewykluczone jednak, że w przyszłości silna sztuczna inteligencja dalece prześcignie nawet całe zespoły ekspertów.
Zobacz również:
Źródła:
- Ramaswamy, A., Tyagi, A., Hugo, H. et al. ChatGPT Health performance in a structured test of triage recommendations. Nat Med (2026). https://doi.org/10.1038/s41591-026-04297-7
- Mount Sinai. Research Identifies Blind Spots in AI Medical Triage. Newsroom (2026). https://www.mountsinai.org/about/newsroom/2026/research-identifies-blind-spots-in-ai-medical-triage










