Google zaprezentowało swój nowy model sztucznej inteligencji Gemini 1.5 Pro, który zapewniać ma „znacznie zwiększoną wydajność” w porównaniu z poprzednikiem. Kierunek rozwoju AI firmy – postrzeganej wewnętrznie jako coraz bardziej krytyczny element dla jej przyszłości – następuje po zaprezentowaniu w zeszłym tygodniu Gemini 1.0 Ultra i rebrandingu chatbota Bard (na Gemini właśnie), aby dostosować go do potężniejszych i bardziej wszechstronnych możliwości nowego modelu.
W poście na blogu z ogłoszeniem dyrektor generalny Google Sundar Pichai i dyrektor generalny Google DeepMind Demis Hassabis starają się zachować równowagę pomiędzy zapewnieniem odbiorców o etycznym bezpieczeństwie sztucznej inteligencji i zachwalaniem szybko rozwijających się możliwości swoich modeli. „Nasze zespoły w dalszym ciągu przesuwają granice naszych najnowszych modeli, mając na względzie bezpieczeństwo” – podsumował Pichai.
Google zaprezentowało swój nowy model sztucznej inteligencji Gemini 1.5 Pro, który zapewniać ma „znacznie zwiększoną wydajność” w porównaniu z poprzednikiem.
Firma musi brać pod uwagę sceptyków AI (w tym jednego byłego dyrektora generalnego Google) i rządowych organów regulacyjnych. Stara się jednak podkreślić rosnącą wydajność swoich modeli, tworzonych z myślą o programistach AI, potencjalnych klientach i inwestorach, którzy obawiają się, że firma zbyt późno zareagowała na sukces OpenAI i jego ChatGPT.
Pichai i Hassabis twierdzą, że Gemini 1.5 Pro zapewnia wyniki porównywalne z Gemini 1.0 Ultra. Jednak Gemini 1.5 działa na tym poziomie bardziej efektywnie, przy zmniejszonych wymaganiach obliczeniowych. Możliwości multimodalne obejmują przetwarzanie tekstu, obrazów, wideo, audio lub kodu. W miarę rozwoju modeli AI będą one nadal oferować bardziej wszechstronny wachlarz możliwości w jednym oknie do wydawania poleceń (innym niedawnym przykładem była integracja OpenAI z generowaniem obrazów DALL-E 3 w ChatGPT).
Gemini 1.5 Pro może także obsłużyć aż do miliona tokenów, czyli jednostek danych, które modele AI mogą przetworzyć w jednym poleceniu. Google twierdzi, że Gemini 1.5 Pro może przetworzyć ponad 700 000 słów, godzinę wideo, 11 godzin audio i bazy kodów zawierające ponad 30 000 linii kodu. Firma twierdzi, że „pomyślnie przetestowała” nawet wersję obsługującą do 10 milionów tokenów.
Google jednocześnie zapewnia, że Gemini 1.5 Pro utrzymuje wysoką dokładność w przypadku zapytań z większą liczbą tokenów, gdy ma więcej nowych danych do poznania. Mówi, że model zrobił wrażenie w ewaluacji Needle In a Haystack. W tym teście programiści umieszczają niewielką informację w długim bloku tekstu, aby sprawdzić, czy model sztucznej inteligencji może ją wychwycić. Google twierdzi, że Gemini 1.5 Pro może w 99 procentach przypadków znaleźć osadzony tekst w blokach danych o długości nawet miliona tokenów.
Google chwali się też, że Gemini 1.5 Pro może wyciągnąć różne szczegóły z 402-stronicowych transkrypcji misji księżycowej Apollo 11. Ponadto może analizować wątki i wydarzenia z przesłanego 44-minutowego niemego filmu z Busterem Keatonem w roli głównej. „Ponieważ długie okno kontekstowe wersji 1.5 Pro jest pierwszym tego rodzaju wśród modeli wielkoskalowych, stale opracowujemy nowe ewaluacje i punkty odniesienia do testowania jego nowatorskich możliwości” – napisał Hassabis.
Google wypuszcza na rynek Gemini 1.5 Pro z możliwością obsługi 128 000 tokenów, czyli taką samą, jaką osiągają maksymalne (publicznie ogłoszone) modele GPT-4 od OpenAI. Hassabis twierdzi, że Google ostatecznie wprowadzi nowe poziomy cenowe obsługujące do jednego miliona zapytań tokenów.
Gemini 1.5 Pro jest również biegły w uczeniu się nowych umiejętności na podstawie informacji zawartych w długich podpowiedziach – bez dodatkowego modyfikowania („nauka kontekstowa”). W benchmarku o nazwie Machine Translation from One Book model nauczył się podręcznika gramatyki dla kalamang – języka, który na całym świecie posługuje się mniej niż 200 użytkowników i Gemini nie było w nim wcześniej przeszkolone. Firma twierdzi, że Gemini 1.5 Pro nauczyło się działać na podobnym poziomie co człowiek, ucząc się tej samej treści podczas tłumaczenia z angielskiego na kalamang.
W ogłoszeniu Google zapewniło również, że Gemini 1.5 Pro może wykonywać zadania rozwiązywania problemów w dłuższych blokach kodu. „Po otrzymaniu podpowiedzi zawierającej ponad 100 000 wierszy kodu może lepiej przeprowadzić analizę przykładów, zasugerować przydatne modyfikacje i podać wyjaśnienia dotyczące działania różnych części kodu” – napisał Hassabis.
Jeśli chodzi o etykę i bezpieczeństwo, Google twierdzi, że stosuje „takie samo podejście do odpowiedzialnego wdrażania”, jak w przypadku modeli Gemini 1.0. Obejmuje to opracowywanie i stosowanie technik red-team, w których grupa etycznych programistów zasadniczo pełni rolę adwokata diabła, testując „szereg potencjalnych szkód”. Ponadto firma twierdzi, że dokładnie analizuje takie obszary, jak bezpieczeństwo treści i szkody wizerunkowe. Firma twierdzi, że nadal opracowuje nowe testy etyczne i bezpieczeństwa dla swoich narzędzi AI.
Google wprowadza Gemini 1.5 we wczesnym dostępie dla programistów i klientów korporacyjnych. Firma planuje w końcu udostępnić go szerzej. Gemini 1.0 jest obecnie dostępny dla konsumentów wraz z wersją Pro, która kosztuje 20 dolarów miesięcznie.
Pokaż / Dodaj komentarze do: Google prezentuje Gemini 1.5 Pro. Nowy, bardziej efektywny model AI