Sztuczna inteligencja coraz śmielej wkracza na obszary, które dotąd wydawały się względnie bezpieczne dla użytkowników internetu. Najnowsze badania pokazują, że pseudonimowe konta w mediach społecznościowych przestają być skuteczną tarczą ochronną. Modele językowe nowej generacji potrafią łączyć rozproszone informacje i przypisywać je konkretnym osobom z zaskakująco wysoką skutecznością.
Zjawisko tymczasowych kont, czyli dodatkowych, pseudonimowych profili używanych do publikowania wrażliwych opinii lub udziału w kontrowersyjnych dyskusjach, przez lata było jednym z filarów internetowej prywatności. Użytkownicy zakładali, że brak bezpośrednich danych identyfikacyjnych wystarczy, by zachować anonimowość.
Nowe eksperymenty podważają to przekonanie. Badacze wykorzystali duże modele językowe do analizy swobodnych wypowiedzi publikowanych na różnych platformach społecznościowych. Następnie porównywali je z innymi publicznie dostępnymi treściami. Wskaźnik recall, czyli odsetek poprawnie zidentyfikowanych użytkowników, sięgnął nimal 70 procent. Precyzja (precision) – czyli wskaźnik trafności skutecznej identyfikacji użytkownika – sięgała nawet 90%. To poziomy, które jeszcze kilka lat temu były poza zasięgiem klasycznych metod deanonimizacji opartych na ręcznej analizie lub łączeniu ustrukturyzowanych baz danych.
Pseudonim przestaje być skuteczną barierą, a internet wkracza w etap, w którym anonimowość staje się luksusem trudnym do utrzymania.
Jak AI łączy kropki między platformami
W jednym z eksperymentów badacze zestawili wpisy z serwisu Hacker News z profilami zawodowymi z LinkedIn. Po usunięciu bezpośrednich odnośników identyfikujących autorów, modele językowe analizowały styl wypowiedzi, tematykę, specjalistyczne słownictwo oraz kontekst zawodowy. W wielu przypadkach udało się powiązać anonimowe treści z realnymi osobami.
Kolejny zestaw danych pochodził z historycznego zbioru opublikowanego przez Netflix w ramach konkursu rekomendacyjnego. Już w 2008 roku wykazano, że dane dotyczące ocen filmów mogą prowadzić do identyfikacji użytkowników oraz ujawnienia ich preferencji politycznych. Nowe podejście oparte na LLM znacząco poprawiło skuteczność takich prób.
Badacze przeanalizowali również aktywność użytkowników serwisu Reddit, w tym wpisy z subredditów takich jak r/movies, r/horror czy r/TrueFilm. Im więcej filmów omawiał dany użytkownik, tym łatwiej było go zidentyfikować na podstawie wzorców wypowiedzi i preferencji. Przy ponad dziesięciu omówionych tytułach niemal połowę autorów można było wskazać z 90-procentową precyzją.
Od transkryptu do konkretnej osoby
Szczególnie niepokojący okazał się eksperyment polegający na analizie pojedynczego, zanonimizowanego wywiadu. Model językowy wyodrębniał z rozmowy sygnały dotyczące wykształcenia, dziedziny badań, używanych narzędzi programistycznych czy charakterystycznych elementów językowych. Następnie autonomicznie przeszukiwał internet w poszukiwaniu kandydatów spełniających wszystkie kryteria.
W badaniu obejmującym odpowiedzi udzielone w ankiecie firmy Anthropic dotyczącej wykorzystania AI w codziennej pracy, udało się jednoznacznie zidentyfikować 7 procent uczestników na podstawie bardzo ogólnych informacji. To wciąż niewielki odsetek, jednak pokazuje kierunek rozwoju technologii.
Modele językowe nie ograniczają się do prostego dopasowywania schematów danych. Potrafią rozumować, budować hipotezy i weryfikować je poprzez analizę kolejnych źródeł. Działają podobnie jak ludzki badacz, lecz w znacznie większej skali i tempie.
Klasyczne metody w odwrocie
Porównanie z tradycyjnymi technikami deanonimizacji wypadło jednoznacznie na korzyść LLM. W testach obejmujących tysiące profili oraz dodatkowe „rozpraszające” tożsamości, klasyczne algorytmy szybko traciły precyzję. Modele językowe utrzymywały relatywnie wysoką skuteczność nawet przy bardziej liberalnych progach dopasowania.
Rozszerzenie podstawowego ataku o dodatkowe etapy rozumowania i kalibracji podwajało wskaźnik recall przy 99-procentowej precyzji. Oznacza to, że nowe podejście nie tylko identyfikuje więcej osób, lecz także ogranicza liczbę błędnych wskazań.
Prywatność zakończą algorytmy
Konsekwencje wykraczają daleko poza środowisko akademickie. Jeżeli skuteczność LLM w deanonimizacji będzie rosnąć, rządy zyskają narzędzie do identyfikowania krytyków w sieci, a korporacje możliwość budowania szczegółowych profili konsumenckich na potrzeby precyzyjnej reklamy. Przestępcy mogą wykorzystać takie techniki do tworzenia spersonalizowanych kampanii phishingowych i oszustw socjotechnicznych.
Badacze proponują wprowadzenie limitów dostępu do API, wykrywanie zautomatyzowanego scrapowania oraz ograniczenia w eksporcie danych zbiorczych. Dostawcy modeli językowych mogliby monitorować próby użycia ich systemów do deanonimizacji i blokować takie operacje.
Równolegle rośnie znaczenie cyfrowej higieny użytkowników. Regularne usuwanie starych wpisów i ograniczanie ilości udostępnianych informacji może stać się nowym standardem w erze modeli zdolnych do łączenia nawet najbardziej subtelnych sygnałów tożsamości. Postęp w dziedzinie LLM zmusza branżę technologiczną do ponownego przemyślenia fundamentów prywatności online
Spodobało Ci się? Podziel się ze znajomymi!
Pokaż / Dodaj komentarze do:
AI namierza internautów z przerażającą precyzją. To koniec anonimowości