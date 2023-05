Badacze dokonali kolejnego przełomu z zakresu AI. Zrekonstruowali filmy "za pomocą ciągłych danych z funkcjonalnego obrazowania metodą rezonansu magnetycznego (fMRI)" ludzkich mózgów.

Analizy polegały na zebraniu danych od uczestników, którzy podczas skanowania ich mózgu oglądali filmy o różnej tematyce, m.in. o ludziach, zwierzętach, czy krajobrazie. Jak napisali naukowcy: "Zadanie odtworzenia ludzkiego wzroku z nagrań mózgu, zwłaszcza przy użyciu nieinwazyjnych narzędzi, takich jak funkcjonalne obrazowanie metodą rezonansu magnetycznego (fMRI), jest ekscytującym, ale trudnym zadaniem. Metody nieinwazyjne przechwytują ograniczone informacje, są one podatne na różne zakłócenia, takie jak hałas".

Jednym z problemów rekonstrukcji filmów ze skanów jest to, że maszyny fMRI rejestrują "migawki aktywności mózgu" jedynie co kilka sekund. Naukowcy dodają: "Każde skanowanie fMRI zasadniczo reprezentuje "średnią" aktywność mózgu podczas migawki. Typowe wideo ma około 30 klatek na sekundę (FPS). Jeśli klatka fMRI trwa 2 sekundy, w tym czasie 60 klatek wideo — potencjalnie zawierających różne obiekty, ruchy i zmiany sceny — jest prezentowanych jako bodźce wizualne. Tak więc dekodowanie fMRI i odzyskiwanie filmów [...] jest złożonym zadaniem".

By jak najlepiej poradzić sobie z powyższymi zagadnieniami, badacze wyszkolili sztuczną inteligencję, którą nazwali MinD-Video. Jej celem było dekodowanie danych fMRI. Z kolei model AI Stable Diffusion miał za zadanie odtwarzania danych wejściowych w formie wideo

Naukowcy ocenili, że ich system był w 85 proc. dokładny względem semantyki - czy np. przedstawione zwierzę to faktycznie kot, który był zarejestrowany na oryginalnym filmie. Jednakże trzeba podkreślić, że część uzyskanych filmów przedstawia jedynie "ogólną charakterystykę" oryginalnego filmu, np. rekonstruowany film o rybie, nie przedstawia dokładnie tej samej ryby (gatunku), która jest w oryginale - często także nie odzwierciedla prawidłowo kolorów. Innym przykładem może być to, że na zrekonstruowanym filmie widzimy kobietę, a w oryginale jest mężczyzna - ogólną cechą zrekonstruowanego wideo jest to, że przedstawia ludzką istotę, a nie np. zwierzę, czy przedmiot.

Specjaliści dodają także: "Podstawowe obiekty, zwierzęta, osoby i typy scen można dobrze odzyskać [z danych skanowania mózgu]. Co ważniejsze, ruchy, takie jak bieganie, taniec i śpiew, oraz dynamika sceny, taka jak zbliżenie osoby, sceny szybkiego ruchu i długa scena widoku miasta, mogą być również poprawnie zrekonstruowane". Wyniki badań zostały zamieszczone w formie pre-printu na stronie arXiv , z kolei próbki omawianych filmów można znaleźć na stronie internetowej mind-video.com .