Wikipedia oferuje twórcom AI zestaw danych szkoleniowych, żeby pozbyć się botów

Wikipedia oferuje twórcom AI zestaw danych szkoleniowych, żeby pozbyć się botów

Wikipedia, największa encyklopedia internetowa świata, zmaga się z nowym, nieoczekiwanym problemem: nadmiernym obciążeniem serwerów przez boty AI. 

Chodzi o automatyczne systemy, które przeszukują i wykorzystują treści, zarówno tekstowe, jak i multimedialne, w celu trenowania modeli generatywnej AI, takich jak chatboty czy systemy odpowiadające na pytania. Efektem są wyższe koszty operacyjne i wolniejsze ładowanie strony dla prawdziwych użytkowników. W odpowiedzi na ten rosnący problem, fundacja Wikimedia, organizacja zarządzająca Wikipedią, postanowiła zareagować w nietypowy sposób: udostępnia dane AI deweloperom w uporządkowanej formie, by ograniczyć niekontrolowany ruch botów na stronie.

Organizacja zarządzająca Wikipedią postanowiła zareagować w nietypowy sposób: udostępnia dane AI deweloperom w uporządkowanej formie, by ograniczyć niekontrolowany ruch botów na stronie.

Wikipedia i Kaggle łączą siły

W ramach współpracy z platformą Kaggle, należącą do Google, Wikimedia opublikowała wstępną wersję zestawu danych w języku angielskim i francuskim, zoptymalizowaną specjalnie pod kątem zastosowań związanych z uczeniem maszynowym. Dane te mają na celu zaspokojenie potrzeb twórców AI bez konieczności nieustannego przeczesywania „żywej” Wikipedii.

Zgodnie z informacjami udostępnionymi przez Wikimedia Enterprise, zestaw danych zawiera: streszczenia artykułów, krótkie opisy, dane w stylu infoboxów i linki do obrazów. Zabrakło jednak odnośników, materiałów wideo i innych elementów niebędących tekstem, co rodzi pytania o pełną przejrzystość źródeł i atrybucji, szczególnie w kontekście późniejszego wykorzystania informacji przez modele AI.

Licencja i wolność danych

Mimo ograniczonej zawartości, zestaw danych udostępniony przez Wikipedię jest w pełni otwarty i dostępny na licencjach Creative Commons lub w domenie publicznej. Oznacza to, że każdy może z nich korzystać, nawet do celów komercyjnych, przy zachowaniu odpowiednich zasad atrybucji.

Fundacja Wikimedia daje tym samym wyraźny sygnał, że nie chce, by rozwój sztucznej inteligencji nie może odbywać się kosztem dostępności i jakości usług dla zwykłych użytkowników internetu. Uporządkowany i oficjalny dostęp do danych ma zmniejszyć presję na infrastrukturę Wikipedii, a jednocześnie wesprzeć deweloperów AI w etycznym i efektywnym korzystaniu z zasobów.

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: Wikipedia oferuje twórcom AI zestaw danych szkoleniowych, żeby pozbyć się botów

 0
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł