Polscy naukowcy opracowali duży model językowy LLM bardziej wydajny niż ChatGPT

LongLLaMA pozwoli potencjalnie obsługiwać 64 razy więcej tekstu niż ChatGPT. Duży model językowy LLM badaczy z UW, PAN i IDEAS NCBR oparto na oprogramowaniu OpenLLaMA. Stworzył go właściciel Facebooka – firma META.

W opracowanie go było zaanagażowanych kilka osób. Szymon Tworkowski, Konrad Staniszewski, Mikołaj Pacek i Piotr Miłoś to badacze związani z IDEAS NCBR, UW i PAN. Yuhuai Wu to jeden ze współtwórców xAI, startupu Elona Muska. Wreszcie Henryk Michalewski jest związany z UW i Google DeepMind. Badacze, publikując w ostatnich tygodniach swoje wyniki, wzbudzili poruszenie w społeczności naukowej. Publikacja poświęcona LongLLaMA, “Focused Transformer: Contrastive Training for Context Scaling”, została przyjęta na prestiżową konferencję NeurIPS 2023 w Nowym Orleanie.

Piotr Miłoś – leader zespołu

– LongLLaMA to „polski” duży model językowy, dostępny dla każdego w internecie – powiedział dr hab. Piotr Miłoś, prof. PAN, lider zespołu badawczego w IDEAS NCBR, który przyczynił się do opracowania modelu. – Nasz model może obsługiwać jednorazowo 8 tysięcy tokenów, czyli w przybliżeniu 30-50 stron tekstu. A w przypadku niektórych zadań znacznie więcej, nawet 256 tysięcy tokenów, chociaż to tylko wynik techniczny.

Od marca 2023 r. pojawiają się pierwsze duże otwarte modele językowe o otwartym kodzie źródłowym. Pozwalają one naukowcom na zaawansowane prace, bo obecnie nie można stworzyć własnego LLM od zera.

– Kiedy firma Meta wypuściła OpenLLaMA, naukowcy z całego świata, między innymi nasz zespół, wzięli go na warsztat i modyfikowali – wyjaśnia Piotr Miłoś. – Nasza LongLLaMA jest w stanie przetwarzać znacznie większy kontekst niż było to wcześniej możliwe.

Ogromne możliwości i niezwykła dokładność LLM

Przewaga LongLLaMA nad innymi modelami polega na tym, że potrafi przetwarzać bardzo długie dane wejściowe. Dzięki temu generuje bardziej spójne i trafne odpowiedzi. LongLLaMA może obsłużyć dowolną ilość kontekstu bez obcinania go i wypełniania, co pokazały testy z hasłem (passkey). Badacze sprawdzali, czy po otrzymaniu bardzo długiego promptu LongLLaMA będzie w stanie przypomnieć sobie hasło podane na początku. Okazało się, że utrzymuje 94,5% dokładności po otrzymaniu promptu o długości 100 tysięcy tokenów i 73% dokładności po otrzymaniu 256 tysięcy tokenów. OpenLLaMA daje sobie radę tylko z promptem o długości 2 tysięcy tokenów.

Co więcej, model ten potrafi obecnie wytwarzać spójne teksty o długości 8 tysięcy tokenów, a potencjalnie nawet 256 tysięcy tokenów. A to znacząco więcej niż ChatGPT. Co istotne, zużywa stosunkowo mało energii. Do korzystania z LongLLaMA, która pracuje bardzo szybko, wystarczy pojedynczy procesor. Może być wykorzystywana do wszystkich zadań, w których już pomagają nam chatboty. Do generowania o edycji tekstu, rozmowy z użytkownikiem, tworzenia streszczeń, tłumaczeć itd.

Czym różni się LongLLaMA od ChatGPT?

LongLLaMA w przeciwieństwie do ChatGPT nie posiada interfejsu w internecie. Każdy może jednak pobrać model ze strony HuggingFace i uruchomić go na własnym komputerze. Co ważne, otwarte oprogramowanie mogą modyfikować informatycy na całym świecie. Odróżnia je to od oprogramowania ChatGPT, którego nie udostępniono publicznie. A przecież również bazuje ono na architekturze Transformer. Jest to rodzaj architektury sieci neuronowej, która analizuje tekst, aby rozróżnić skomplikowane powiązania między słowami na wielu warstwach. Może to robić ucząc się wzorców na podstawie ogromnych ilości danych. Technologia ta już zrewolucjonizowała przetwarzanie języka naturalnego. Umożliwia bowiem  chatbotom generowanie tekstu, tłumaczenie czy rozmawianie z użytkownikiem. A także wiele innych zadań na poziomie niedostępnym wcześniej dla AI.

Kiedy zadajemy pytanie chatbotowi korzystającemu z Transformera, zmienia on tekst na tokeny. Są to fragmenty informacji, zwykle mające długość pomiędzy jednym znakiem a jednym słowem. Dzięki dzieleniu tekstu na tokeny sztuczna inteligencja potrafi efektywnie przetwarzać informacje.

Jednak liczba tokenów, jaką może przyjąć chatbot jest ograniczona. W przypadku ChatGPT 3.5 limit tokenów wynosi 4 096, OpenLLaMA – 2 000, a Google Bard – około 1 000. Dlatego, gdy zadajemy chatbotowi długie pytanie lub podajemy dużo informacji, może być konieczne ucięcie lub pominięcie niektórych fragmentów. Większość istniejących chatbotów nie potrafi analizować całej książki, długiej rozmowy czy artykułu.

– Pełny potencjał LLM często ogranicza ilość kontekstu, jakie może przyjąć – powiedział Piotr Miłoś. – Dlatego wprowadziliśmy Focused Transformer (FoT), technikę wykorzystującą proces szkoleniowy inspirowany uczeniem kontrastowym (contrastive learning). To nowatorskie podejście pozwala na strojenie (fine-tuning) dostępnych już LLM, tak by były zdolne przyjmować większy kontekst.

– ChatGPT jest produktem komercyjnym. Został optymalizowany pod przyjemną obsługę – wyjaśnia Piotr Miłoś. – Modele takie jak LongLLaMA wydają raczej surowe informacje, na których dopiero można coś zbudować, np. analizować tekst albo produkować kod. LongLLaMA to duże osiągnięcie, ponieważ pokazuje, że LLM mogą pokonać ograniczenia związane z długością promptów i wytwarzać długie teksty, które będą przydatne dla człowieka.

Jak uruchomić LongLLaMA?

  1. Wejdź na stronę https://colab.research.google.com/github/CStanKonrad/long_llama/blob/main/long_llama_instruct_colab.ipynb
  2. W menu kliknik “Środowisko wykonawcze” i następnie “Uruchom wszystko”.
  3. Po chwili nastąpi uruchomienie kodu i na dole strony pojawi się okienko po słowie “USER:”, w którym można wprowadzać prompty.

Czytaj też o Polaku, który jest współtwórcą ChatGPT.

Brązowy medal dla Uniwersytetu Warszawskiego w ICPC 2023

Zaległe finały 46. i 47. edycji ICPC 2022 i 2023 odbyły się w Luksorze w Egipcie. Z polskich ekip najlepiej wypadli tegoroczni mistrzowie Europy...

InPost Pay ma już 1 milion użytkowników

Usługa została nagrodzona w konkursie Mobile Trends Awards 2023 zdobywając statuetkę w kategorii Fintech oraz 2. miejsce w Kategorii Głównej. Jest również tegorocznym laureatem...

1,35 mld zł na rozbudowę centrów danych Atman

Atman pozyskał największe w Polsce dofinansowanie na rozbudowę centrów danych. Umowę sygnowało 6 instytucji finansowych z Polski i Europy. Kredyt przeznaczony jest na budowę...

Uniwersytet Warszawski zwycięzcą ICPC European Championship 2024

Polska ekipa odniosła zdecydowane zwycięstwo w ICPC EUC 2024 jako jedyna rozwiązując 9 zadań z 11, za co otrzymała złoty medal. Na miejscach 2-9...

Uniwersytet Jagielloński zwycięża w CERC 2023 po raz drugi z rzędu

Zwycięstwo UJ w Akademickich Mistrzostwach Europy Środkowej w Programowaniu Zespołowym (CERC 2023) było bezdyskusyjne, bo jako jedyny rozwiązał 10 zadań z 12. Drugie miejsce...

Zaproszenie na konferencję Perspektywy Women in Tech Summit 2024

Fundacja Edukacyjna Perspektywy organizuje szóstą już edycję konferencji Perspektywy Women in Tech Summit 2024 - największego w Europie i Azji wydarzenia dla kobiet w...
We use cookies to personalise content and to analyse our traffic. We also share information about your use of our site with our analytics partners. View more
Cookies settings
Accept
Privacy & Cookie policy
Privacy & Cookies policy
Cookie name Active

PoLAND of IT masters: Information Hub

Privacy Policy

Address of our website is: hub.landofitmasters.pl

What data do we collect?

Our Company collects the following data:
  • A unique ID is used to generate statistical data on how the visitor uses the website.
  • Determining the preferred language of the visitor and setting the language accordingly on the website, if possible.
  • Used by Google Analytics to collect data on the number of times a user has visited the website as well as dates for the first and most recent visit.
  • Cookie used by Google Analytics to throttle request rate
How do we collect your data?
Our website collects the data about your preferred language with the use of a built-in widget and statistical data with the use of third-party provider Google Analytics.

How will we use your data?

Our Company collects your data so that we can improve the page's content and performance in future development.

What are your data protection rights?

Our Company would like to make sure you are fully aware of all of your data protection rights. Every user is entitled to the following: The right to access – You have the right to request Our Company for copies of your personal data. We may charge you a small fee for this service. The right to rectification – You have the right to request that Our Company correct any information you believe is inaccurate. You also have the right to request Our Company to complete the information you believe is incomplete. The right to erasure – You have the right to request that Our Company erase your personal data, under certain conditions. The right to restrict processing – You have the right to request that Our Company restrict the processing of your personal data, under certain conditions. The right to object to processing – You have the right to object to Our Company’s processing of your personal data, under certain conditions. The right to data portability – You have the right to request that Our Company transfer the data that we have collected to another organization, or directly to you, under certain conditions. If you make a request, we have one month to respond to you. If you would like to exercise any of these rights, please contact us. You can find our detailed contact information in the footer of this website or by following the contact link in the main menu.

Cookies

Cookies are text files placed on your computer to collect standard Internet log information and visitor behavior information. When you visit our websites, we may collect information from you automatically through cookies or similar technology For further information, visit allaboutcookies.org.

How do we use cookies?

Our Company uses cookies in a range of ways to improve your experience on our website, including:
  • Understanding how you use our website
  • Collecting information about your preferred language

What types of cookies do we use?

There are a number of different types of cookies, however, our website uses:
  • Functionality – Our Company uses these cookies so that we recognize you on our website and remember your previously selected preferences. These could include what language you prefer and location you are in. A mix of first-party and third-party cookies are used.

How to manage cookies

You can set your browser not to accept cookies, and the above website tells you how to remove cookies from your browser. However, in a few cases, some of our website features may not function as a result.

Privacy policies of other websites

The PoLAND of IT masters: Information hub website contains links to other websites. Our privacy policy applies only to our website, so if you click on a link to another website, you should read their privacy policy.

Changes to our privacy policy

Our Company keeps its privacy policy under regular review and places any updates on this web page. This privacy policy was last updated on 21 November 2021. If you make a request, we have one month to respond to you. You can find our detailed and up-to-date contact information in the footer of this website or by following the contact link in the main menu.  
Save settings
Cookies settings