Wyciek danych z UK Biobank. Poufne informacje medyczne w sieci
Poufne dane zdrowotne związane z jednym z największych projektów badań biomedycznych na świecie wielokrotnie pojawiały się w internecie. Dziennikarskie śledztwo The Guardian wykazało, że fragmenty baz danych projektu UK Biobank były publikowane online przez naukowców analizujących zbiory informacji medycznych setek tysięcy osób.

UK Biobank to ogromna baza danych obejmująca dokumentację zdrowotną około 500 tys. brytyjskich ochotników. Zawiera ona m.in. informacje o diagnozach szpitalnych, wynikach badań, danych genetycznych, skanach medycznych oraz stylu życia uczestników. Zasób ten od lat jest wykorzystywany w badaniach nad chorobami takimi jak nowotwory, demencja czy cukrzyca i uchodzi za jedno z najważniejszych narzędzi współczesnej medycyny.
Dane trafiały do sieci przez pomyłki badaczy
Jak jednak wskazują dziennikarze The Guardian, dane mogły być wykorzystywane w sposób niewłaściwy i niebezpieczny. Problem pojawił się w trakcie publikowania kodu analitycznego wykorzystywanego w badaniach naukowych - czasopisma naukowe oraz instytucje finansujące badania coraz częściej wymagają, aby naukowcy udostępniali kod używany do analizy danych. W niektórych przypadkach badacze, publikując taki kod w serwisie GitHub, przypadkowo umieszczali również fragmenty lub całe zestawy danych pochodzących z UK Biobank.
Choć publikowane pliki nie zawierały bezpośrednich identyfikatorów, jak imiona czy adresy uczestników, niektóre z nich zawierały bardzo szczegółowe informacje. Jeden z odnalezionych zestawów danych obejmował diagnozy szpitalne oraz daty ich postawienia dla ponad 400 tys. osób, a także informacje o płci oraz miesiącu i roku urodzenia. Eksperci podkreślają, że nawet takie częściowo zanonimizowane dane mogą stwarzać ryzyko naruszenia prywatności.
Możliwe odtworzenie historii choroby
W ramach testu dziennikarze - za zgodą jednego z uczestników projektu - sprawdzili, czy możliwe jest dopasowanie konkretnej osoby do rekordów w bazie. Okazało się, że przy wykorzystaniu jedynie miesiąca i roku urodzenia oraz informacji o dużym zabiegu chirurgicznym można było odnaleźć odpowiadający wpis w zbiorze danych.
Eksperci ostrzegają, że w epoce mediów społecznościowych i sztucznej inteligencji łączenie informacji z różnych źródeł staje się coraz łatwiejsze. Nawet pozornie anonimowe dane mogą więc pozwolić na identyfikację osoby, jeśli zostaną zestawione z innymi publicznie dostępnymi informacjami.
Biobank usuwa dane z internetu
Przedstawiciele UK Biobank podkreślają jednak, że badaczom nigdy nie udostępniano danych identyfikujących uczestników projektu. Instytucja zapewnia również, że nie ma dowodów na przypadki faktycznej identyfikacji konkretnych osób na podstawie tych danych.
Ale w ostatnich miesiącach organizacja zaczęła intensywniej reagować na problem i między lipcem a grudniem 2025 r. wysłała około 80 formalnych wniosków prawnych o usunięcie danych z GitHuba. Według instytucji doprowadziło to do likwidacji setek repozytoriów zawierających pliki związane z projektem. Mimo tych działań część materiałów przez długi czas pozostawała dostępna w innych archiwach kodu lub kopiach w internecie.
Specjaliści zajmujący się ochroną danych zwracają uwagę, że przypadek UK Biobank pokazuje rosnące napięcie między potrzebą prowadzenia badań na ogromnych zbiorach danych medycznych a koniecznością ochrony prywatności uczestników. Rozwój analityki danych i sztucznej inteligencji sprawia bowiem, że nawet anonimowe informacje mogą w pewnych warunkach zostać powiązane z konkretną osobą. To wyzwanie, z którym w najbliższych latach będzie musiała zmierzyć się cała branża badań biomedycznych.










