Sztuczna inteligencja w milionach artykułów naukowych. Nowe badania ujawniają skalę zjawiska
Od 2024 roku co ósmy artykuł naukowy może mieć ślady sztucznej inteligencji. Nie jako temat badań, lecz jako współautora. Nowe badania ujawniają, że język publikacji biomedycznych coraz częściej zdradza obecność dużych modeli językowych, takich jak ChatGPT.

Czytając abstrakt naukowy, nie zawsze można być pewnym, czy autorem tekstu jest człowiek, czy może raczej duży model językowy, taki jak ChatGPT. Nowe badania opublikowane w Science Advances wykazują, że od 2024 roku sztuczna inteligencja może mieć swój udział w co najmniej 13,5 proc. prac publikowanych w czasopismach biomedycznych. To pierwszy tak szeroko zakrojony dowód na to, że AI nie tylko wspomaga naukowców, ale czasem... pisze za nich.
Jak wykryto ślady LLM w publikacjach naukowych?
Zespół badaczy ze Stanów Zjednoczonych i Niemiec przeanalizował ponad 15 milionów streszczeń artykułów z bazy PubMed. Ich celem nie było szukanie gotowych fragmentów generowanych przez AI, lecz wykrycie subtelnych zmian językowych, które mogą wskazywać na użycie dużych modeli językowych (ang. LLM - Large Language Models).
Inspiracją była metodologia znana z badań nad nadmiarową śmiertelnością podczas pandemii COVID-19. Naukowcy sprawdzili, jak zmieniła się częstość występowania określonych słów przed i po upowszechnieniu ChatGPT. Kluczowe było wychwycenie "nadmiarowego użycia" słów stylizowanych, nacechowanych emocjonalnie lub nienaturalnie "płynnych", czyli takich, jakie lubią generować modele językowe.
Efekt? W 2024 roku zauważono znaczny wzrost występowania słów typu showcasing (prezentowanie), pivotal (kluczowy) czy grappling (zmagania). Zmieniła się też struktura gramatyczna takich słów. Przed 2024 rokiem były to głównie rzeczowniki (79,2 proc.), w 2024 aż 66 proc. z nich stanowiły czasowniki, a w 14 proc. przymiotniki.
Sztuczna inteligencja zmienia język nauki
Autorzy badania podkreślają, że wcześniejsze próby wykrywania AI w tekstach opierały się na porównaniach między tekstami pisanymi przez ludzi i wygenerowanymi przez modele. Takie podejście ma jednak słabe strony. Trudno odtworzyć realne warunki pracy naukowców, ich sposób promptowania czy wybór konkretnego modelu.
Nowe badanie omija ten problem, analizując trendy językowe w skali makro. I choć nie oznacza to, że 13,5 proc. artykułów zostało napisanych wyłącznie przez AI, to pokazuje, jak powszechne stało się wykorzystywanie narzędzi takich jak ChatGPT w codziennej pracy naukowej. Co więcej, zauważono różnice między dziedzinami wiedzy, krajami i wydawcami, choć szczegóły tych rozbieżności nie zostały jeszcze szeroko omówione.
Czy wykorzystanie LLMów przez naukowców was dziwi? Mnie zupełnie nie
Problem jest znacznie szerszy, niż ukazują to badania nad wykorzystaniem sztucznej inteligencji przez naukowców. Nie znam specyfiki pracy w krajach poza granicami Polski, ale rzuca mi się w oczy jeden problem, z którym spotkałem się na naszych uczelniach.
Wielu naukowców jest autentycznie zafascynowana swoimi dziedzinami, nawet jeśli z perspektywy przeciętnego człowieka są one zupełnie niezrozumiałe. Potrafią oni godziny spędzać w laboratoriach, na badaniach terenowych, w bibliotekach zgłębiając dane zagadnienie. Dla wielu z nich praca dydaktyczna to przykra konieczność, którą starają się wcisnąć między działalnością naukową. Drugą koniecznością, w zasadzie narzuconą "z góry" jest publikowanie (a precyzyjniej - stosunkowo częste publikowanie) i to niejednokrotnie w czasopismach z wysokim Impact Factor (współczynnikiem cytowań). A bywa, że przebrnięcie przez cały proces - od pisania, przez recenzję, po publikację, potrafi być frustrujący.
Wykorzystując AI w ułatwieniu sobie pracy badacze mogą nieco uwolnić czas, z drugiej strony koncentrując się na tym, w czym są naprawdę dobrzy - robieniu nauki (bo przecież niekoniecznie każdy z nich musi być mistrzem słowa). W mojej ocenie ważne, aby artykuł, nawet jeśli pisany przy użyciu modelu językowego, był solidnie przeczytany i przeanalizowany przez autora. To jednak temat, z którym środowisko naukowe będzie musiało się zmierzyć, aby zapewnić wysoką jakość merytoryczną badań.
Źródło: Phys.org
Publikacja: Dmitry Kobak et al, Delving into LLM-assisted writing in biomedical publications through excess vocabulary, Science Advances (2025). DOI: 10.1126/sciadv.adt3813