W świecie sztucznej inteligencji wybuchł skandal po odkryciu, że popularna baza danych Common Crawl, wykorzystywana do trenowania zaawansowanych modeli językowych, zawiera niemal 12 000 prawidłowych kluczy API i haseł. Znalezisko to podważa bezpieczeństwo danych przetwarzanych przez AI oraz ujawnia istotne luki w sposobie filtrowania informacji przed ich wykorzystaniem w modelach językowych.
Common Crawl to obszerna baza danych stworzona przez organizację non-profit o tej samej nazwie. Od 2008 roku systematycznie zbiera petabajty danych z sieci, tworząc jeden z największych otwartych zbiorów treści internetowych dostępnych za darmo. Dzięki temu stał się kluczowym źródłem informacji dla firm i instytucji zajmujących się sztuczną inteligencją, w tym OpenAI, DeepSeek, Google, Anthropic i wielu innych.
Zgodnie z ustaleniami serwisu Bleeping Computer, przynajmniej część danych zgromadzonych w Common Crawl mogła zostać wykorzystana do trenowania modeli AI przez te firmy. To rodzi poważne pytania o bezpieczeństwo i integralność modeli językowych, które mogą nieświadomie „przyswajać” wrażliwe informacje.
Analiza kodu ujawnia ogromne ilości wrażliwych danych
Badacze z Truffle Security, którzy przeanalizowali ponad 400 terabajtów danych obejmujących zawartość 2,67 miliarda stron internetowych, natknęli się na prawdziwą „skrzynię sekretów”. Odkryli niemal 12 000 kluczy API i haseł, które nadal pozostają aktywne i mogą być wykorzystane do uzyskania dostępu do różnych systemów i usług.
Szczególnie niepokojące jest to, że większość z tych kluczy była osadzona w kodzie aplikacji internetowych, co wskazuje na błędy programistyczne i brak przestrzegania zasad bezpiecznego programowania. W teorii oznacza to, że duże modele językowe mogłyby być trenowane przy użyciu niebezpiecznego i nieprofesjonalnie napisanego kodu, co mogłoby prowadzić do nieprzewidywalnych skutków.
Filtry bezpieczeństwa zawodzą
Chociaż firmy technologiczne stosują mechanizmy filtrowania danych wykorzystywanych w treningu AI, okazało się, że nie są one wystarczająco skuteczne. Modele językowe przechodzą przez proces oczyszczania danych, który ma na celu eliminację nieistotnych informacji, zduplikowanych treści i danych mogących stanowić zagrożenie. Jednak skala wycieku tajnych informacji pokazuje, że systemy te nie działają w pełni efektywnie.
Wrażliwe klucze API i hasła dostępne publicznie
Eksperci Truffle Security znaleźli liczne klucze API do usług takich jak Amazon Web Services, MailChimp i WalkScore. Najczęściej występujące były klucze do MailChimp – aż 1500 unikalnych identyfikatorów zostało osadzonych w kodzie HTML i JavaScript, napisanym przez programistów front-end. Tego rodzaju dane są niezwykle niebezpieczne, ponieważ mogą zostać wykorzystane przez cyberprzestępców do przeprowadzania kampanii phishingowych, podszywania się pod znane marki, a nawet do uzyskania dostępu do systemów informatycznych firm.
Co więcej, badacze znaleźli te same klucze wielokrotnie na różnych stronach internetowych. Przykładowo, ten sam klucz API WalkScore wystąpił aż 57 029 razy w 1871 subdomenach. Jeszcze bardziej alarmujące jest odkrycie 17 unikalnych webhooków Slacka na jednej stronie internetowej – tego typu dane powinny być ściśle chronione, ponieważ mogą umożliwić publikowanie treści w zamkniętych kanałach komunikacyjnych.
Reakcja branży i działania naprawcze
Po ujawnieniu wyników swoich badań, specjaliści z Truffle Security skontaktowali się z twórcami dotkniętych aplikacji i usług. W rezultacie kilka tysięcy kluczy zostało wycofanych, jednak problem pozostaje aktualny – wiele z nich mogło już wcześniej zostać przechwyconych przez nieuprawnione osoby. Zdaniem ekspertów, incydent ten pokazuje, że modele językowe AI z dużym prawdopodobieństwem są trenowane przy użyciu kodu niskiej jakości, co może prowadzić do błędnych i potencjalnie niebezpiecznych decyzji podejmowanych przez systemy sztucznej inteligencji.
Wycieki tego typu mogą posłużyć również do stworzenia i trenowania złośliwej sztucznej inteligencji, specjalizującej się w cyberatakach. Jeśli modele AI uczą się na podstawie podatnych na ataki kodów, mogą nie tylko przejmować błędy programistyczne, ale również stać się narzędziem w rękach hakerów.

Pokaż / Dodaj komentarze do: Tysiące aktualnych loginów i haseł w popularnym zestawie szkoleniowym AI