Główne Punkty Artykułu
- Znaczące firmy technologiczne, w tym OpenAI, Google, Microsoft i Meta, aktywnie inwestują w rozwój małych modeli językowych (SLM).
- Modele SLM zyskują coraz większe uznanie w sektorze technologicznym i są postrzegane jako obiecujący kierunek w przyszłości sztucznej inteligencji.
- Do znanych przykładów modeli SLM należą Google Nano, Phi-3 od Microsoft oraz GPT-4o mini od OpenAI.
Po wprowadzeniu ChatGPT przez OpenAI, duże modele językowe (LLM) zdobyły szerokie uznanie. Od tego czasu wiele przedsiębiorstw zaczęło tworzyć własne LLM, ale obecnie coraz częściej kierują swoją uwagę na mniejsze modele językowe (SLM).
Popularność SLM rośnie, ale czym dokładnie są i jak różnią się od LLM?
Definicja małego modelu językowego
Mały model językowy (SLM) to typ modelu sztucznej inteligencji, który cechuje się mniejszą liczbą parametrów. Parametry te, w uproszczeniu, to wartości modelu, które są modyfikowane w procesie uczenia. SLM, podobnie jak większe LLM, potrafią generować tekst i wykonywać różnorodne zadania, jednak do uczenia wykorzystują mniejsze zbiory danych, mają mniej parametrów i wymagają mniej mocy obliczeniowej.
Modele SLM skupiają się na podstawowych funkcjonalnościach, a ich niewielki rozmiar umożliwia uruchamianie ich na różnorodnych urządzeniach, w tym na tych o mniejszej mocy obliczeniowej, takich jak telefony komórkowe. Na przykład, Google Nano jest przykładem modelu SLM zaprojektowanego do pracy na urządzeniach mobilnych, umożliwiając lokalne działanie z dostępem do sieci lub bez niego.
Obok modelu Nano, wiele innych firm, zarówno znanych jak i nowo powstających, oferuje swoje rozwiązania SLM. Do często spotykanych modeli SLM należą Phi-3 od Microsoftu, GPT-4o mini od OpenAI, Claude 3 Haiku od Anthropic, Llama 3 od Meta oraz Mixtral 8x7B od Mistral AI.
Niektóre modele mogą być mylnie klasyfikowane jako LLM, podczas gdy w rzeczywistości są SLM. Tendencja do oferowania różnorodnych modeli językowych, zarówno LLM, jak i SLM, jest powszechna. Przykładem jest seria GPT-4, która obejmuje różne wersje, takie jak GPT-4, GPT-4o (Omni) oraz GPT-4o mini.
Porównanie modeli SLM i LLM
Analizując SLM, nie można pominąć ich większych odpowiedników, czyli LLM. Najważniejszą różnicą między nimi jest rozmiar modelu, który mierzy się liczbą parametrów.
Obecnie nie istnieje formalny konsensus w branży AI dotyczący dokładnej liczby parametrów, która decyduje o tym, czy model jest SLM, czy LLM. Przyjmuje się jednak, że SLM-y mają od milionów do kilku miliardów parametrów, natomiast LLM-y mogą mieć ich nawet tryliony.
Na przykład GPT-3, wprowadzony w 2020 roku, posiadał 175 miliardów parametrów, a GPT-4 szacunkowo około 1,76 tryliona. Z kolei modele SLM, takie jak Phi-3-mini, Phi-3-small i Phi-3-medium od Microsoftu, dysponują odpowiednio 3,8, 7 i 14 miliardami parametrów.
Kolejną istotną różnicą jest ilość danych wykorzystywanych do uczenia. SLM-y są trenowane na mniejszych zbiorach danych, podczas gdy LLM-y wymagają olbrzymich ilości danych. Ta różnica ma wpływ na ich zdolność do rozwiązywania złożonych problemów.
LLM, ze względu na dużą ilość danych treningowych, lepiej radzą sobie ze skomplikowanymi zadaniami wymagającymi zaawansowanego rozumowania, natomiast SLM są bardziej adekwatne do prostszych zadań. Modele SLM, mimo że wykorzystują mniej danych, muszą opierać się na danych wyższej jakości, aby osiągnąć podobne możliwości, jak LLM, przy zachowaniu mniejszego rozmiaru.
Perspektywy rozwoju SLM
W wielu sytuacjach SLM wydają się być bardziej odpowiednimi modelami do szerokiego zastosowania przez firmy i konsumentów. Mimo że LLM mają swoje zalety, szczególnie w rozwiązywaniu skomplikowanych problemów, SLM mają potencjał do dominacji w większości zastosowań, z kilku kluczowych powodów.
1. Niższe koszty rozwoju i eksploatacji
Timofeev Vladimir/Shutterstock
SLM, w porównaniu do LLM, potrzebują mniejszych ilości danych do uczenia, co sprawia, że są bardziej ekonomiczne dla mniejszych firm i użytkowników indywidualnych z ograniczonymi zasobami. LLM wymagają ogromnych zasobów obliczeniowych zarówno do uczenia, jak i późniejszej eksploatacji.
Dla przykładu, CEO OpenAI, Sam Altman, ujawnił, że na trening GPT-4 wydano ponad 100 milionów dolarów, jak podaje Wired. Kolejny przykład to LLM Meta, OPT-175B, do którego szkolenia wykorzystano 992 procesory GPU NVIDIA A100 80GB, w cenie około 10 000 dolarów za sztukę, co wg CNBC daje koszt rzędu 9 milionów dolarów, nie licząc kosztów energii i personelu.
Wobec takich kosztów, małe i średnie firmy nie mogą sobie pozwolić na trenowanie LLM. Z kolei SLM-y charakteryzują się niższym progiem wejścia i tańszą eksploatacją, co sprawia, że stają się bardziej atrakcyjne dla firm.
2. Wyższa efektywność
GBJSTOCK / Shutterstock
Kompaktowy rozmiar SLM przekłada się na ich wyższą wydajność w porównaniu do LLM. Mają niższe opóźnienia i są bardziej adekwatne w sytuacjach, gdzie wymagane są szybkie odpowiedzi, na przykład w aplikacjach czasu rzeczywistego, takich jak systemy głosowe i asystenci cyfrowi.
Możliwość lokalnego działania (o czym więcej poniżej) przyspiesza czas odpowiedzi, eliminując potrzebę przesyłania danych do zdalnych serwerów.
3. Zwiększona precyzja
ZinetroN / Shutterstock
W kontekście generatywnej AI obowiązuje zasada: jakość danych wejściowych ma kluczowe znaczenie dla jakości wyników. LLM, trenowane na ogromnych zbiorach danych z internetu, mogą nie być precyzyjne w każdej sytuacji. Jest to problem, z którym borykają się chatboty AI, stąd nie należy bezkrytycznie ufać ich odpowiedziom. SLM-y, trenowane na danych wyższej jakości, osiągają wyższą dokładność.
Dodatkowo, SLM-y można precyzyjnie dostosować do konkretnych zadań lub dziedzin, co poprawia ich dokładność w tych obszarach, w porównaniu do bardziej ogólnych LLM.
4. Możliwość działania w trybie offline
Pete Hansen/Shutterstock
SLM, z racji mniejszych wymagań co do mocy obliczeniowej, idealnie nadają się do wykorzystania w tzw. Edge Computing, czyli przetwarzaniu danych na urządzeniach końcowych, takich jak smartfony czy pojazdy autonomiczne, które zazwyczaj nie mają dużych zasobów obliczeniowych. Model Google Nano może działać lokalnie, co umożliwia jego funkcjonowanie nawet bez połączenia z internetem.
To zapewnia korzyści zarówno dla użytkowników, jak i firm. Dla użytkowników oznacza to zwiększoną prywatność, gdyż dane przetwarzane są lokalnie, a nie w chmurze. Jest to ważne w kontekście rosnącej integracji AI w nasze smartfony, które zawierają wiele informacji osobistych. Dla firm z kolei oznacza to brak konieczności inwestowania w rozbudowaną infrastrukturę serwerową.
Modele SLM zyskują na znaczeniu, a największe firmy w branży, takie jak OpenAI, Google, Microsoft, Anthropic i Meta, wprowadzają takie modele. Te modele lepiej pasują do prostszych zadań, co stanowi główny obszar zastosowań LLM, stąd ich przyszłość.
Należy jednak pamiętać, że LLM nie znikną. Będą one w dalszym ciągu wykorzystywane w zaawansowanych aplikacjach, gdzie potrzebne jest łączenie informacji z różnych dziedzin, np. w badaniach medycznych.
Podsumowanie: SLM-y dynamicznie zyskują popularność w świecie sztucznej inteligencji, przyciągając uwagę zarówno gigantów technologicznych, jak i mniejszych podmiotów. Ich atutami są niższe koszty, większa wydajność i zdolność do działania na urządzeniach brzegowych. Chociaż LLM zachowują swoją istotną rolę, SLM-y mają potencjał do zdominowania codziennych zastosowań, dzięki swojej adaptacyjności i precyzji wynikającej z wyższej jakości danych treningowych.