LongLLaMA pozwoli potencjalnie obsługiwać 64 razy więcej tekstu niż ChatGPT. Duży model językowy LLM badaczy z UW, PAN i IDEAS NCBR oparto na oprogramowaniu OpenLLaMA. Stworzył go właściciel Facebooka – firma META.
W opracowanie go było zaanagażowanych kilka osób. Szymon Tworkowski, Konrad Staniszewski, Mikołaj Pacek i Piotr Miłoś to badacze związani z IDEAS NCBR, UW i PAN. Yuhuai Wu to jeden ze współtwórców xAI, startupu Elona Muska. Wreszcie Henryk Michalewski jest związany z UW i Google DeepMind. Badacze, publikując w ostatnich tygodniach swoje wyniki, wzbudzili poruszenie w społeczności naukowej. Publikacja poświęcona LongLLaMA, “Focused Transformer: Contrastive Training for Context Scaling”, została przyjęta na prestiżową konferencję NeurIPS 2023 w Nowym Orleanie.
– LongLLaMA to „polski” duży model językowy, dostępny dla każdego w internecie – powiedział dr hab. Piotr Miłoś, prof. PAN, lider zespołu badawczego w IDEAS NCBR, który przyczynił się do opracowania modelu. – Nasz model może obsługiwać jednorazowo 8 tysięcy tokenów, czyli w przybliżeniu 30-50 stron tekstu. A w przypadku niektórych zadań znacznie więcej, nawet 256 tysięcy tokenów, chociaż to tylko wynik techniczny.
Od marca 2023 r. pojawiają się pierwsze duże otwarte modele językowe o otwartym kodzie źródłowym. Pozwalają one naukowcom na zaawansowane prace, bo obecnie nie można stworzyć własnego LLM od zera.
– Kiedy firma Meta wypuściła OpenLLaMA, naukowcy z całego świata, między innymi nasz zespół, wzięli go na warsztat i modyfikowali – wyjaśnia Piotr Miłoś. – Nasza LongLLaMA jest w stanie przetwarzać znacznie większy kontekst niż było to wcześniej możliwe.
Ogromne możliwości i niezwykła dokładność LLM
Przewaga LongLLaMA nad innymi modelami polega na tym, że potrafi przetwarzać bardzo długie dane wejściowe. Dzięki temu generuje bardziej spójne i trafne odpowiedzi. LongLLaMA może obsłużyć dowolną ilość kontekstu bez obcinania go i wypełniania, co pokazały testy z hasłem (passkey). Badacze sprawdzali, czy po otrzymaniu bardzo długiego promptu LongLLaMA będzie w stanie przypomnieć sobie hasło podane na początku. Okazało się, że utrzymuje 94,5% dokładności po otrzymaniu promptu o długości 100 tysięcy tokenów i 73% dokładności po otrzymaniu 256 tysięcy tokenów. OpenLLaMA daje sobie radę tylko z promptem o długości 2 tysięcy tokenów.
Co więcej, model ten potrafi obecnie wytwarzać spójne teksty o długości 8 tysięcy tokenów, a potencjalnie nawet 256 tysięcy tokenów. A to znacząco więcej niż ChatGPT. Co istotne, zużywa stosunkowo mało energii. Do korzystania z LongLLaMA, która pracuje bardzo szybko, wystarczy pojedynczy procesor. Może być wykorzystywana do wszystkich zadań, w których już pomagają nam chatboty. Do generowania o edycji tekstu, rozmowy z użytkownikiem, tworzenia streszczeń, tłumaczeć itd.
Czym różni się LongLLaMA od ChatGPT?
LongLLaMA w przeciwieństwie do ChatGPT nie posiada interfejsu w internecie. Każdy może jednak pobrać model ze strony HuggingFace i uruchomić go na własnym komputerze. Co ważne, otwarte oprogramowanie mogą modyfikować informatycy na całym świecie. Odróżnia je to od oprogramowania ChatGPT, którego nie udostępniono publicznie. A przecież również bazuje ono na architekturze Transformer. Jest to rodzaj architektury sieci neuronowej, która analizuje tekst, aby rozróżnić skomplikowane powiązania między słowami na wielu warstwach. Może to robić ucząc się wzorców na podstawie ogromnych ilości danych. Technologia ta już zrewolucjonizowała przetwarzanie języka naturalnego. Umożliwia bowiem chatbotom generowanie tekstu, tłumaczenie czy rozmawianie z użytkownikiem. A także wiele innych zadań na poziomie niedostępnym wcześniej dla AI.
Kiedy zadajemy pytanie chatbotowi korzystającemu z Transformera, zmienia on tekst na tokeny. Są to fragmenty informacji, zwykle mające długość pomiędzy jednym znakiem a jednym słowem. Dzięki dzieleniu tekstu na tokeny sztuczna inteligencja potrafi efektywnie przetwarzać informacje.
Jednak liczba tokenów, jaką może przyjąć chatbot jest ograniczona. W przypadku ChatGPT 3.5 limit tokenów wynosi 4 096, OpenLLaMA – 2 000, a Google Bard – około 1 000. Dlatego, gdy zadajemy chatbotowi długie pytanie lub podajemy dużo informacji, może być konieczne ucięcie lub pominięcie niektórych fragmentów. Większość istniejących chatbotów nie potrafi analizować całej książki, długiej rozmowy czy artykułu.
– Pełny potencjał LLM często ogranicza ilość kontekstu, jakie może przyjąć – powiedział Piotr Miłoś. – Dlatego wprowadziliśmy Focused Transformer (FoT), technikę wykorzystującą proces szkoleniowy inspirowany uczeniem kontrastowym (contrastive learning). To nowatorskie podejście pozwala na strojenie (fine-tuning) dostępnych już LLM, tak by były zdolne przyjmować większy kontekst.
– ChatGPT jest produktem komercyjnym. Został optymalizowany pod przyjemną obsługę – wyjaśnia Piotr Miłoś. – Modele takie jak LongLLaMA wydają raczej surowe informacje, na których dopiero można coś zbudować, np. analizować tekst albo produkować kod. LongLLaMA to duże osiągnięcie, ponieważ pokazuje, że LLM mogą pokonać ograniczenia związane z długością promptów i wytwarzać długie teksty, które będą przydatne dla człowieka.
Jak uruchomić LongLLaMA?
- Wejdź na stronę https://colab.research.google.com/github/CStanKonrad/long_llama/blob/main/long_llama_instruct_colab.ipynb
- W menu kliknik “Środowisko wykonawcze” i następnie “Uruchom wszystko”.
- Po chwili nastąpi uruchomienie kodu i na dole strony pojawi się okienko po słowie “USER:”, w którym można wprowadzać prompty.
Czytaj też o Polaku, który jest współtwórcą ChatGPT.