Sztuczna inteligencja ma problem z... podstawami. Tylko 25% poprawnych odpowiedzi

Sztuczna inteligencja ma problem z... podstawami. Tylko 25% poprawnych odpowiedzi

Mimo że narzędzia oparte na generatywnej sztucznej inteligencji osiągają poziom, który jeszcze niedawno wydawał się domeną science fiction, wiele z nich wciąż ma duże trudności z podstawowymi zadaniami. Najnowsze badania wykazały, że multimodalne modele AI mają duży problem z odczytywaniem analogowych zegarów i kalendarzy. Średnio systemy te poprawnie odczytują czas z tarcz zegarowych w mniej niż 25% przypadków.

Zespół badaczy ze School of Informatics Uniwersytetu w Edynburgu sprawdził, jak najpopularniejsze modele AI radzą sobie z interpretacją obrazów przedstawiających zegary i kalendarze. W testach udział wzięły: Google DeepMind Gemini 2.0, Anthropic Claude 3.5, Sonnet, Meta Llama 3.2-11B-Vision-Instruct, Alibaba Qwen2-VL7B-Instruct, ModelBest MiniCPM-V-2.6 i OpenAI GPT-4o oraz GPT-01.

Badania objęły różne rodzaje zegarów – z cyframi arabskimi i rzymskimi, z sekundnikiem i bez niego, a także w różnych stylach graficznych. Okazało się, że nawet najnowsze systemy AI potrafiły poprawnie odczytać godzinę w mniej niż jednej czwartej przypadków. Modele szczególnie słabo radziły sobie z zegarami, które miały rzymskie cyfry i nietypowe, stylizowane wskazówki.

Najnowsze badania wykazały, że multimodalne modele AI mają duży problem z odczytywaniem analogowych zegarów i kalendarzy.

 AI mają duży problem z odczytywaniem analogowych zegarów

Co ciekawe, usunięcie wskazówki sekundowej nie poprawiało wyników AI, co sugeruje, że problemem jest nie tyle nadmiar informacji, ile trudność w detekcji wskazówek zegara i prawidłowej interpretacji ich położenia względem tarczy.

Kalendarze też są wyzwaniem

AI miały także problemy z interpretacją kalendarzy. W teście z wykorzystaniem obrazów kalendarzy z ostatnich 10 lat modele musiały odpowiadać na pytania takie jak: „Jaki dzień tygodnia przypada na Nowy Rok?” czy „Jaki to 153. dzień roku?”. Nawet najlepsze systemy AI popełniały błędy w 20% przypadków.

W testach zegarów najwyższą skuteczność osiągnął Gemini 2.0. Z kolei GPT-01 okazał się najdokładniejszy przy pytaniach kalendarzowych, osiągając 80% poprawnych odpowiedzi.

„To podstawowe umiejętności, które dla ludzi są oczywiste”

Rohit Saxena z Uniwersytetu w Edynburgu podkreśla: „Większość ludzi potrafi odczytać godzinę z zegara analogowego i korzystać z kalendarzy już od wczesnych lat życia. Nasze badania pokazują, jak duża przepaść dzieli obecnie zdolności AI od ludzkich umiejętności w tych – z pozoru prostych – zadaniach”.

Aryo Gema, współautor badania, dodaje: „Współczesne badania nad AI często koncentrują się na złożonych problemach logicznych, a tymczasem wiele systemów nadal ma trudności z prostymi, codziennymi zadaniami”.

Nie pierwszy raz AI zawodzi

To kolejne badanie w tym miesiącu, które pokazuje, jak wiele błędów popełniają systemy sztucznej inteligencji. Tow Center for Digital Journalism przeanalizowało osiem wyszukiwarek AI i stwierdziło, że są one niedokładne w 60% przypadków. Najgorzej wypadł Grok-3, którego błędne odpowiedzi stanowiły aż 94% wszystkich wyników.

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: Sztuczna inteligencja ma problem z... podstawami. Tylko 25% poprawnych odpowiedzi

 0
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł