Społeczność Wikimedia coraz głośniej wyraża swoje niezadowolenie z powodu rosnącego obciążenia infrastruktury serwisów takich jak Wikipedia i Wikimedia Commons, spowodowanego działalnością botów zbierającym dane. Programy te, wykorzystywane do pozyskiwania treści do trenowania modeli sztucznej inteligencji, generują ogromne ilości ruchu, który znacząco wpływa na wydajność i koszty utrzymania infrastruktury.
Fundacja Wikimedia, zarządzająca Wikipedią i innymi projektami społecznościowymi, alarmuje, że od stycznia 2024 r. przepustowość wykorzystywana do obsługi żądań plików multimedialnych wzrosła o 50 procent. „Ten wzrost nie jest wynikiem działań ludzkich czytelników, ale w dużej mierze zautomatyzowanych programów, które przeszukują katalog obrazów Wikimedia Commons obejmujący otwartą licencję i przekazują je modelom AI” — poinformowali przedstawiciele Fundacji Wikimedia w publicznym oświadczeniu.
Infrastruktura Wikimedia jest zaprojektowana do obsługi skoków ruchu spowodowanych wzrostem zainteresowania konkretnymi wydarzeniami. Jednak boty nie działają w ten sposób – ich aktywność jest stała, masowa i generuje bezprecedensowe obciążenie systemów. Według analiz Fundacji, boty odpowiadają za 65 procent ruchu generowanego przez najdroższe w obsłudze treści, mimo że stanowią jedynie 35 procent wszystkich wyświetleń stron.
Mechanizm buforowania Wikimedia, który zwykle pozwala na szybsze serwowanie popularnych treści z regionalnych centrów danych, nie jest w stanie efektywnie działać w przypadku botów. Programy te przeszukują całe archiwa, także te mniej popularne, co zmusza systemy do ciągłego pobierania danych z głównego centrum danych, zwiększając zużycie zasobów.
Zjawisko globalne – Wikimedia nie jest wyjątkiem
Problem masowego zbierania treści przez boty AI dotyczy nie tylko Wikimedia. W ostatnim czasie podobne skargi zgłaszały inne projekty open source, w tym platformy takie jak Git hosting Sourcehut, serwis dokumentacyjny ReadTheDocs czy społecznościowa sieć Diaspora. Wiele serwisów zauważyło, że firmy AI bez skrupułów wykorzystują ich treści do trenowania własnych modeli, często bez zgody i wynagrodzenia.
Czy AI zagraża źródłom, z których się uczy?
Firmy technologiczne, rozwijające modele AI, gromadzą gigantyczne ilości danych pochodzących z otwartej sieci, by tworzyć coraz bardziej zaawansowane systemy sztucznej inteligencji. Choć w wielu przypadkach korzystają z treści publicznie dostępnych, ich praktyki budzą kontrowersje. Modele AI mogą bowiem stać się konkurencyjnymi wobec samych źródeł, które je zasilają. Jeśli użytkownicy zaczną polegać wyłącznie na modelach generatywnej AI, spadnie ruch na stronach źródłowych, co może prowadzić do utraty przychodów z reklam oraz mniejszego wsparcia dla twórców treści.
Fundacja Wikimedia podejmuje działania
W swoim rocznym dokumencie planistycznym na lata 2025/2026 Fundacja Wikimedia postawiła sobie za cel zmniejszenie ruchu generowanego przez scrapery o 20 procent pod względem liczby żądań oraz o 30 procent pod względem zużycia przepustowości. „Musimy priorytetowo traktować użytkowników ludzkich i wspierać inicjatywy Wikimedia, zamiast pozwalać na niekontrolowane zużycie zasobów przez boty” – czytamy w dokumencie.
Obecnie inżynierowie Wikimedia podejmują pierwsze działania, blokując najbardziej agresywne boty. Jednocześnie społeczność zastanawia się nad bardziej długofalowymi strategiami. Możliwe są rozwiązania takie jak dynamiczne ograniczanie ruchu scraperów czy wprowadzenie nowych metod autoryzacji dla automatycznych systemów indeksujących.
Nowe narzędzia w walce z botami AI
W ostatnich latach powstało wiele inicjatyw mających na celu ograniczenie agresywnego zbierania danych przez AI. Projekty takie jak Glaze, Nightshade czy ArtShield koncentrują się na zniekształcaniu danych, aby uczynić je bezużytecznymi dla modeli AI. Inne, jak Kudurru, AI Labyrinth czy Anubis, mają na celu wykrywanie i blokowanie niechcianych botów.
Niektóre firmy, takie jak Google, OpenAI i Anthropic, zaczęły wdrażać zasady umożliwiające blokowanie botów AI za pomocą plików robots.txt. Jednak ten mechanizm obronny nie jest wystarczająco skuteczny – wiele scraperów ignoruje wpisy w plikach robots.txt lub ukrywa swoją tożsamość, podszywając się pod uznane boty indeksujące, takie jak Googlebot.

Pokaż / Dodaj komentarze do: Wikipedia wściekła na twórców AI. Boty zapychają łącza i generują koszty