Google prezentuje Gemini 1.5 Pro. Nowy, bardziej efektywny model AI

Aktualności Oprogramowanie

Daniel Górecki
16 lutego 2024

Źródło: Google

Google prezentuje Gemini 1.5 Pro. Nowy, bardziej efektywny model AI

Google zaprezentowało swój nowy model sztucznej inteligencji Gemini 1.5 Pro, który zapewniać ma „znacznie zwiększoną wydajność” w porównaniu z poprzednikiem. Kierunek rozwoju AI firmy – postrzeganej wewnętrznie jako coraz bardziej krytyczny element dla jej przyszłości – następuje po zaprezentowaniu w zeszłym tygodniu Gemini 1.0 Ultra i rebrandingu chatbota Bard (na Gemini właśnie), aby dostosować go do potężniejszych i bardziej wszechstronnych możliwości nowego modelu.

W poście na blogu z ogłoszeniem dyrektor generalny Google Sundar Pichai i dyrektor generalny Google DeepMind Demis Hassabis starają się zachować równowagę pomiędzy zapewnieniem odbiorców o etycznym bezpieczeństwie sztucznej inteligencji i zachwalaniem szybko rozwijających się możliwości swoich modeli. „Nasze zespoły w dalszym ciągu przesuwają granice naszych najnowszych modeli, mając na względzie bezpieczeństwo” – podsumował Pichai.

Google zaprezentowało swój nowy model sztucznej inteligencji Gemini 1.5 Pro, który zapewniać ma „znacznie zwiększoną wydajność” w porównaniu z poprzednikiem.

Firma musi brać pod uwagę sceptyków AI (w tym jednego byłego dyrektora generalnego Google) i rządowych organów regulacyjnych. Stara się jednak podkreślić rosnącą wydajność swoich modeli, tworzonych z myślą o programistach AI, potencjalnych klientach i inwestorach, którzy obawiają się, że firma zbyt późno zareagowała na sukces OpenAI i jego ChatGPT.

Pichai i Hassabis twierdzą, że Gemini 1.5 Pro zapewnia wyniki porównywalne z Gemini 1.0 Ultra. Jednak Gemini 1.5 działa na tym poziomie bardziej efektywnie, przy zmniejszonych wymaganiach obliczeniowych. Możliwości multimodalne obejmują przetwarzanie tekstu, obrazów, wideo, audio lub kodu. W miarę rozwoju modeli AI będą one nadal oferować bardziej wszechstronny wachlarz możliwości w jednym oknie do wydawania poleceń (innym niedawnym przykładem była integracja OpenAI z generowaniem obrazów DALL-E 3 w ChatGPT).

Gemini 1.5 Pro może także obsłużyć aż do miliona tokenów, czyli jednostek danych, które modele AI mogą przetworzyć w jednym poleceniu. Google twierdzi, że Gemini 1.5 Pro może przetworzyć ponad 700 000 słów, godzinę wideo, 11 godzin audio i bazy kodów zawierające ponad 30 000 linii kodu. Firma twierdzi, że „pomyślnie przetestowała” nawet wersję obsługującą do 10 milionów tokenów.

Google jednocześnie zapewnia, że Gemini 1.5 Pro utrzymuje wysoką dokładność w przypadku zapytań z większą liczbą tokenów, gdy ma więcej nowych danych do poznania. Mówi, że model zrobił wrażenie w ewaluacji Needle In a Haystack. W tym teście programiści umieszczają niewielką informację w długim bloku tekstu, aby sprawdzić, czy model sztucznej inteligencji może ją wychwycić. Google twierdzi, że Gemini 1.5 Pro może w 99 procentach przypadków znaleźć osadzony tekst w blokach danych o długości nawet miliona tokenów.

Google chwali się też, że Gemini 1.5 Pro może wyciągnąć różne szczegóły z 402-stronicowych transkrypcji misji księżycowej Apollo 11. Ponadto może analizować wątki i wydarzenia z przesłanego 44-minutowego niemego filmu z Busterem Keatonem w roli głównej. „Ponieważ długie okno kontekstowe wersji 1.5 Pro jest pierwszym tego rodzaju wśród modeli wielkoskalowych, stale opracowujemy nowe ewaluacje i punkty odniesienia do testowania jego nowatorskich możliwości” – napisał Hassabis.

Google wypuszcza na rynek Gemini 1.5 Pro z możliwością obsługi 128 000 tokenów, czyli taką samą, jaką osiągają maksymalne (publicznie ogłoszone) modele GPT-4 od OpenAI. Hassabis twierdzi, że Google ostatecznie wprowadzi nowe poziomy cenowe obsługujące do jednego miliona zapytań tokenów.

Gemini 1.5 Pro jest również biegły w uczeniu się nowych umiejętności na podstawie informacji zawartych w długich podpowiedziach – bez dodatkowego modyfikowania („nauka kontekstowa”). W benchmarku o nazwie Machine Translation from One Book model nauczył się podręcznika gramatyki dla kalamang – języka, który na całym świecie posługuje się mniej niż 200 użytkowników i Gemini nie było w nim wcześniej przeszkolone. Firma twierdzi, że Gemini 1.5 Pro nauczyło się działać na podobnym poziomie co człowiek, ucząc się tej samej treści podczas tłumaczenia z angielskiego na kalamang.

W ogłoszeniu Google zapewniło również, że Gemini 1.5 Pro może wykonywać zadania rozwiązywania problemów w dłuższych blokach kodu. „Po otrzymaniu podpowiedzi zawierającej ponad 100 000 wierszy kodu może lepiej przeprowadzić analizę przykładów, zasugerować przydatne modyfikacje i podać wyjaśnienia dotyczące działania różnych części kodu” – napisał Hassabis.

Jeśli chodzi o etykę i bezpieczeństwo, Google twierdzi, że stosuje „takie samo podejście do odpowiedzialnego wdrażania”, jak w przypadku modeli Gemini 1.0. Obejmuje to opracowywanie i stosowanie technik red-team, w których grupa etycznych programistów zasadniczo pełni rolę adwokata diabła, testując „szereg potencjalnych szkód”. Ponadto firma twierdzi, że dokładnie analizuje takie obszary, jak bezpieczeństwo treści i szkody wizerunkowe. Firma twierdzi, że nadal opracowuje nowe testy etyczne i bezpieczeństwa dla swoich narzędzi AI.

Google wprowadza Gemini 1.5 we wczesnym dostępie dla programistów i klientów korporacyjnych. Firma planuje w końcu udostępnić go szerzej. Gemini 1.0 jest obecnie dostępny dla konsumentów wraz z wersją Pro, która kosztuje 20 dolarów miesięcznie.

Daniel Górecki Redaktor działu peryferii/ Kierownik działu NEWS

Facebook LinkedIn

Zgłoś autorowi błąd na stronie

Google prezentuje Gemini 1.5 Pro. Nowy, bardziej efektywny model AI

Google prezentuje Gemini 1.5 Pro. Nowy, bardziej efektywny model AI

Komputery

Mobile

Gaming

Rankingi