Przełomowe badanie Apple ujawnia wady wszystkich modeli AI

Przełomowe badanie Apple ujawnia wady wszystkich modeli AI

W najnowszym badaniu, które może mieć poważne implikacje dla przyszłości rozwoju sztucznej inteligencji, naukowcy z Apple przeprowadzili testy zaawansowanych systemów AI pod kątem ich zdolności do logicznego myślenia i rozwiązywania problemów.  Wyniki okazały się zaskakująco sceptyczne: nawet najbardziej zaawansowane tzw. duże modele rozumowania (Large Reasoning Models – LRM) wykazują zasadnicze braki, gdy stają przed naprawdę wymagającymi zadaniami.

Apple, choć nie kojarzona dotąd z czołówką w wyścigu AI, wyraźnie zaznacza swoją obecność na naukowej mapie sztucznej inteligencji. W serii testów porównawczych badacze przyjrzeli się, jak nowoczesne modele AI — w tym Claude 3.7 Sonnet Thinking oraz DeepSeek-R1 — radzą sobie w środowiskach sztucznie zaprojektowanych łamigłówek, takich jak klasyczne Tower of Hanoi i River Crossing. Wnioski są jednoznaczne: obecna generacja zarówno standardowych dużych modeli językowych (LLM), jak i zaawansowanych LRM, nie potrafi skutecznie uogólniać myślenia w sposób przypominający ludzki.

Kiedy rozumowanie zawodzi

Zgodnie z wynikami badania, przy prostych zadaniach modele LLM – mimo braku wbudowanych mechanizmów rozumowania – radziły sobie lepiej: były szybsze, dokładniejsze i bardziej oszczędne w wykorzystaniu zasobów obliczeniowych. Jednak przy średnim poziomie trudności do głosu zaczynały dochodzić modele LRM, korzystające z technik takich jak Chain-of-Thought prompting, które pozwalają AI dzielić problem na mniejsze kroki logiczne.

Przy dalszym zwiększeniu złożoności zadań — np. gdy algorytmy wymagały wielu kroków pośrednich, planowania lub pamięci kontekstowej — wydajność obu klas modeli gwałtownie spadała do zera. Nie miało znaczenia, ile mocy obliczeniowej im zapewniono — żaden z modeli nie był w stanie konsekwentnie rozwiązać problemów ani prawidłowo wykonać logicznego ciągu działań.

Głębsza analiza: myślenie tylko z pozoru

Autorzy badania nie ograniczyli się do oceny poprawności końcowych odpowiedzi. Szczegółowa analiza tzw. „ścieżek rozumowania” ujawniła niepokojące schematy: w miarę jak problemy stawały się trudniejsze, modele początkowo wydłużały swoje sekwencje myślowe — jednak w kluczowym momencie, tuż przed punktem porażki, niespodziewanie skracano rozumowanie, pomimo dostępnych zasobów.

Jeszcze bardziej niepokojące były przypadki, w których modele dostawały wprost prawidłowy algorytm rozwiązania, a mimo to nie potrafiły konsekwentnie go zastosować krok po kroku. Jak wykazały eksperymenty, obliczenia logiczne okazywały się nietrwałe, niestabilne i podatne na błędy, zwłaszcza przy zadaniach wymagających dłuższego planowania lub zmiennego kontekstu.

Brak uogólnienia, zależność od danych

Kolejną słabością było wyraźne uzależnienie wyników od „znajomości” danego typu zadania. Modele radziły sobie znacznie lepiej z łamigłówkami podobnymi do tych, które najprawdopodobniej pojawiły się w ich danych treningowych, natomiast przy mniej popularnych strukturach — wydajność drastycznie spadała. To sugeruje, że pozorna „inteligencja” może w rzeczywistości być efektem trafnego dopasowania do znanych wzorców, a nie rzeczywistego rozumienia czy zdolności do generalizacji.

Co dalej dla sztucznej inteligencji?

Choć badania te nie obalają całkowicie potencjału AI, podkreślają, że obecna architektura dużych modeli – niezależnie od tego, jak bardzo jest rozbudowana – nie daje jeszcze odpowiedzi na pytanie, jak nauczyć maszynę prawdziwego myślenia.

Dla Apple, które dopiero wchodzi na scenę zaawansowanej sztucznej inteligencji, to badanie może stać się punktem wyjścia do opracowania bardziej fundamentalnych podejść do modelowania rozumowania. Dla całej branży — to wyraźny sygnał ostrzegawczy: potęga danych i parametrów nie wystarczy, by zbudować maszynę zdolną do myślenia na miarę człowieka.

Jak zauważają eksperci, następna generacja modeli AI będzie musiała wyjść poza powierzchniowe korelacje i nauczyć się operować na zasadach przyczynowości, planowania i adaptacji — czyli na tym, co stanowi fundament ludzkiej inteligencji.

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: Przełomowe badanie Apple ujawnia wady wszystkich modeli AI

 0
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł