Chatbot SI wie o tobie wszystko. Wystarczy kilka niewinnych wpisów
Okazuje się, że coraz popularniejsze chatboty SI są w stanie wyciągnąć z twoich wiadomości więcej, niż mogłoby się wydawać. Pozornie niewinne zapytania dotyczące trywialnych spraw są dla nich kopalnią wiedzy na temat twojego wieku, płci czy lokalizacji. Sztuczna inteligencja mogłaby zostać wykorzystana przez hakerów, do wnioskowania o danych osobowych na niespotykaną do tej pory skalę.
Sztuczna inteligencja jest mistrzem w odgadywaniu wrażliwych informacji
Według najnowszego badania przeprowadzonego przez naukowców z ETH Zurich, popularne chatboty SI mogą odgadnąć wrażliwe informacje tylko na podstawie tego, co wypisujemy w internecie. Okazuje się, że informacje takie jak płeć, wiek, a nawet lokalizacja to kwestia wymiany kilku zdań z chatbotem, czy niewinnych wpisów w mediach społecznościowych. Są to informacje zwykle chronione na mocy przepisów dotyczących prywatności, jednak dzielimy się nimi całkowicie nieświadomie.
Autorzy badania twierdzą, że sztuczna inteligencja jest w stanie „wnioskować o danych osobowych na wcześniej nieosiągalną skalę”. Z pozornie niewinnych i nieujawniających żadnych informacji wiadomości „domyśla się” z kim ma do czynienia. Zagrożenie jest o tyle poważne, że mogłoby to zostać wykorzystane przez hakerów, którzy zyskaliby niesamowicie skuteczne narzędzie do wyłudzania wrażliwych informacji na temat użytkowników.
Duże modele językowe, jak ChatGPT, powinny być lepiej regulowane przez prawo
W badaniu sprawdzano, jak duże modele językowe, jak na przykład te, które zasilają popularnego ChatGPT, można nakłonić do „wywnioskowania” danych osobowych. W tym celu posłużono się 520 prawdziwymi profilami użytkowników Reddita, którzy udostępniali posty w latach 2012-2016. Sztuczna inteligencja miała za zadanie analizę wpisów pod kątem ukrytych informacji, a naukowcy porównywali odpowiedzi z tym, co sami zdołali ustalić.
Przetestowane zostały cztery modele językowe, z których najlepiej wypadł ChatGPT-4. Z 84,6 procentową dokładnością był w stanie określić wrażliwe dane na temat użytkowników. Pozostałe testowane modele to Llama2 firmy Meta, PaLM firmy Google i Claude firmy Anthropic.
Co ciekawe, PaLM firmy Google był najbardziej oporny w tym, aby tych informacji szukać. Odmówił odpowiedzi na około 10 procent zapytań dotyczących naruszenia prywatności. Jednak pozostałe modele były chętne do współpracy. Jeden z nich wywnioskował, że użytkownik mieszka w Melbourne po opisie skrzyżowania, twierdząc, że tego typu rozwiązania stosowane są szczególnie w Melbourne.
Nie jest to pierwszy raz, kiedy naukowcy są zaniepokojeni możliwościami dużych modeli językowych oraz zagrożeniem, jakie stanowią dla prywatności użytkowników. W sierpniu tego roku został opublikowany raport dotyczący umiejętności sztucznej inteligencji w odgadywaniu haseł z 93-procentową dokładnością. SI potrafi łamać kody tylko na podstawie dźwięku pisania nagranego przez Zoom.