Co to jest Google Gemini? Wyjaśniono sztuczną inteligencję nowej generacji do walki z ChatGPT

Być może do niedawna nie słyszałeś o Google Gemini, ale chatbot Google Bard mógł wkraść się w Twoją atmosferę. Ale zmiana spowodowała, że w centrum uwagi ponownie znalazła się Gemini i z pewnością będziesz o niej słyszeć coraz częściej w nadchodzących latach.

Model Gemini 1.0, który został pierwotnie zaprezentowany na konferencji Google I/O w maju, jest potężniejszy od istniejącej technologii i potencjalnie lepiej przygotowany, aby stawić czoła modelowi ChatGPT OpenAI używanemu przez Microsoft. Testy Google mówią, że jest potężniejszy.

To część kluczowego kontekstu, ale przejdźmy do podstaw.

Co to jest Google Gemini?

8 lutego 2024 roku Google ogłosił, że Bard stanie się teraz Gemini, a chatbot przyjmie nazwę modelu sztucznej inteligencji, który go napędza. W związku z tym nazwa Google Gemini odnosi się teraz zarówno do modelu, jak i do chatbota dostępnego publicznie.

Google twierdzi, że Gemini to „największy i najpotężniejszy model sztucznej inteligencji” firmy i będzie odpowiedzialny za zasilanie wszystkich smartfonów, od Barda po gamę smartfonów Google Pixel.

The twierdzi firma klucz do Gemini i „multimodalnego” modelu AI. Oznacza to, że może „uogólniać i płynnie rozumieć, operować i łączyć różne typy informacji, w tym tekst, kod, dźwięk, obraz i wideo”. W poprzednich iteracjach osiągano bardziej ograniczone możliwości poprzez łączenie modeli. Gemini jest natywnie multimodalny.

Trzy różne rozmiary dla Gemini

Google twierdzi, że Gemini 1.0 to pierwsza wersja modelu, jak sugeruje konwencja numeracji. Istnieją poziomy zbudowane do różnych celów. Wszystkie korzystają z projektu multimodalnego, a ich cele szczegółowo opisano poniżej.

Na przykład Nano świetnie sprawdzi się w przypadku sztucznej inteligencji na urządzeniu i wkrótce będzie dostępny na Pixelu 8 Pro, natomiast Ultra jest przystosowany do ekstremalnych zastosowań, takich jak centra danych. Pro to szczęśliwy środek, na którym Bard będzie od dzisiaj zasilany.

Gemini Ultra — nasz największy i najbardziej wydajny model do bardzo złożonych zadań.
Gemini Pro — nasz najlepszy model do skalowania w szerokim zakresie zadań.
Gemini Nano — nasz najbardziej wydajny model do zadań na urządzeniu.

Dostępność

Gemini Pro jest dostępny do użytku w Google Bard od grudnia i pozostaje domyślną opcją do standardowego użytku Google Gemini, natomiast Gemini Nano pojawiło się na Pixelu 8 Pro w ramach grudniowej aktualizacji funkcji.

Zaoszczędź 23% na Google Pixel Watch 2

Cena Google Pixel Watch 2 właśnie osiągnęła najniższą jak dotąd cenę, spadając o 23% do 270 funtów.

Amazonka
Zaoszczędź 23%
Teraz 270 funtów

Zobacz ofertę

Google dodaje: „Wprowadzamy także Gemini do Pixela. Pixel 8 Pro to pierwszy smartfon zaprojektowany z myślą o Gemini Nano, który obsługuje nowe funkcje, takie jak Summaride w aplikacji Rejestrator i wprowadzane w Smart Reply na Gboard, zaczynając od WhatsApp – a więcej aplikacji do przesyłania wiadomości pojawi się w przyszłym roku.

8 lutego Google uruchomił Gemini Advanced, dając użytkownikom dostęp do modelu Ultra 1.0. Google twierdzi, że jest to „największy i najnowocześniejszy model sztucznej inteligencji” firmy. Poziom zaawansowany ma na celu radzenie sobie z bardziej złożonymi zadaniami, takimi jak kodowanie, logiczne rozumowanie, wykonywanie szczegółowych instrukcji i współpraca przy kreatywnych projektach. Ultra 1.0 także lepiej rozumie kontekst na podstawie wcześniejszych rozmów. Gemini Advanced jest dostępny w języku angielskim w 150 krajach i terytoriach. W przyszłości zostanie rozszerzona na więcej języków.

Dostęp do Google Gemini Advanced możesz uzyskać, rejestrując się w planie premium Google One AI. Plan kosztuje 18,99 GBP miesięcznie (19,99 USD miesięcznie). Wraz z dostępem do Gemini Advanced zyskujesz 2 TB miejsca na Dysku Google i „dostęp do innych korzyści Google One”.

Gemini i Gemini Advanced są wprowadzane na Androida za pośrednictwem Asystenta Google, umożliwiając wybór pomiędzy modelami AI a standardowym Asystentem. W przypadku systemu iOS Gemini jest wdrażane w aplikacji Google.

Nadludzka wydajność

Google twierdzi, że wydajność Gemini została rygorystycznie przetestowana pod kątem takich zadań, jak naturalny obraz, rozumienie dźwięku i obrazu oraz rozumowanie matematyczne. Gemini Ultra pokonuje dotychczasowe modele w 30 z 32 akademickich testach porównawczych dla dużych modeli językowych.

Obecnie, jak twierdzi Google, Gemini przewyższa ekspertów w 57 tematach, jeśli chodzi o MMLU (massive multitask Language Understanding). Gemini uzyskało w tych testach 90,0%, a ChatGPT 4 – 86,4%. To kluczowy wniosek.

Jak i dlaczego zbudowano następną generację

Google twierdzi, że podeszło do szkolenia Gemini inaczej niż w przypadku poprzednich funkcji multimodalnych. Wcześniej były one szkolone oddzielnie, a następnie łączone. Oznaczało to, że na przykład był dobry w opisywaniu obrazów, ale brakowało mu umiejętności kompetentnego, złożonego rozumowania.

Google twierdzi, że Gemini od początku był wstępnie przeszkolony pod kątem natywnej obsługi multimodalnej, co oznaczało ogromną modernizację.

„Następnie udoskonaliliśmy go, dodając dodatkowe dane dotyczące transportu multimodalnego, aby jeszcze bardziej udoskonalić jego skuteczność” – podaje firma w poście na blogu. „Dzięki temu Gemini bezproblemowo rozumie i analizuje wszelkiego rodzaju dane wejściowe od podstaw, znacznie lepiej niż istniejące modele multimodalne, a jego możliwości są najnowocześniejsze w niemal każdej dziedzinie”.