Polska odpowiedź na ChatGPT. W AGH powstał Bielik, polski model językowy

LoveKraków.pl 28.08.2024 12:28 Życie miasta

Doskonale radzi sobie z naszym językiem i kontekstem kulturowym, z czym problem mają zagraniczne modele – tłumaczą twórcy Bielika, nowego, dużego polskiego modelu językowego, który powstał dzięki grupie entuzjastów i mocom najszybszych superkomputerów w Polsce, Heliosa i Atheny z AGH.

ChatGPT to narzędzie, o którym słyszał już niemal każdy. Choć najbardziej popularny produkt wykorzystujący duży model językowy, który powstał w oparciu o zasoby firmy OpenAI używany jest przez ludzi na całym świecie, ma on jednak swoje minusy.

– O ile ChatGPT potrafi mówić w języku polskim, to nasycony jest treściami w języku angielskim. W związku z tym ma nikłe pojęcie na temat np. polskiej kultury czy niuansów polskiej literatury – podkreśla Marek Magryś, zastępca Dyrektora ACK Cyfronet AGH ds. Komputerów Dużej Mocy. – Nie do końca też sobie radzi ze zrozumieniem logiki bardziej skomplikowanych tekstów np. prawnych czy medycznych. Jeśli chcielibyśmy zastosować go w tych właśnie specjalistycznych obszarach i mieć model językowy, który dobrze rozumuje w języku polskim i odpowiada poprawną polszczyzną, to nie możemy opierać się wyłącznie na zagranicznych modelach językowych.

Pomysł entuzjastów

To między stąd zrodził się pomysł na Bielika, nowy polski model językowy, który powstał w efekcie prac zespołu działającego w ramach Fundacji SpeakLeash oraz Akademickiego Centrum Komputerowego Cyfronet AGH.

SpeakLeash to fundacja, która połączyła ludzi bardzo różnych profesji. Grupa entuzjastów za cel postawiła sobie stworzenie największego polskiego zbioru danych tekstowych wzorując się na zagranicznych inicjatywach jak The Pile. W skład zespołu projektowego wchodzą przede wszystkim pracownicy polskich przedsiębiorstw, badacze z ośrodków naukowych oraz studenci kierunków związanych z obszarami sztucznej inteligencji. Prace zespołu nad polskim modelem językowym trwały ponad rok, a ich pierwotny zakres obejmował m.in. zbieranie danych, ich przetwarzanie oraz klasyfikację. W ten sposób powstał Bielik, polski model z kategorii LLM (z ang. Large Language Models), tj. duży model językowy, posiadający 11 miliardów parametrów.

– Najtrudniejsze zadanie polegało na pozyskaniu danych w języku polskim. Musimy operować wyłącznie na danych źródłowych, co do których mamy pewność, jakie jest ich pochodzenie – tłumaczy pomysłodawca Bielika, Sebastian Kondracki z fundacji SpeakLeash, której zasoby są aktualnie największym, najlepiej opisanym i udokumentowanym zbiorem danych w języku polskim.

Superkomputery na pomoc

Skrzydła projektowi Bielik pozwoliły rozwinąć superkomputery z Akademickiego Centrum Komputerowego Cyfronet AGH. Współpraca kadry z Akademii Górniczo-Hutniczej w Krakowie z fundacją Speakleash umożliwiła wykorzystanie odpowiednich mocy obliczeniowych niezbędnych do stworzenia modelu i wsparcie zespołu SpeakLeash niezbędną wiedzą ekspercką oraz naukową gwarantując sukces wspólnego projektu.

Jak tłumaczą przedstawiciele krakowskiej uczelni, wsparcie zespołu ACK Cyfronet dotyczyło optymalizacji i skalowania procesów treningowych, prac nad potokami przetwarzania danych oraz rozwoju i działania metod generowania danych syntetycznych, a także prac w zakresie metod testowania modeli. Wynikiem tego jest Polski ranking modeli (Polish OpenLLM Leaderboard). Cenne doświadczenia i wiedza zebrane w wyniku tej współpracy umożliwiły zespołowi ekspertów PLGrid przygotowanie wytycznych oraz zoptymalizowanych rozwiązań w tym środowisk obliczeniowych do prac z modelami językowymi na bazie klastrów Athena i Helios dla potrzeb użytkowników naukowych.

– Zasoby Heliosa, najszybszej aktualnie maszyny w Polsce, wykorzystaliśmy do uczenia modeli językowych – precyzuje Marek Magryś. – Nasza rola polega na wsparciu wiedzą ekspercką, doświadczeniem i przede wszystkim mocą obliczeniową procesu katalogowania, zbierania, przetwarzania danych oraz na wspólnym przeprowadzeniu procesu uczenia modeli językowych. Dzięki pracy zespołu SpeakLeash i AGH udało nam się stworzyć Bielika, model LLM, który doskonale radzi sobie z naszym językiem oraz kontekstem kulturowym i który może być kluczowym elementem łańcuchów przetwarzania danych tekstowych dla naszego języka w zastosowaniach naukowych i biznesowych. Potwierdzeniem jakości Bielika są wysokie lokaty uzyskane przez model na listach rankingowych dla języka polskiego.

Potężne moce z AGH

Moc obliczeniowa Heliosa i Atheny w tradycyjnych symulacjach komputerowych to łącznie ponad 44 PFLOPS, a dla obliczeń z zakresu sztucznej inteligencji w niższej precyzji to aż 2 EFLOPS.

– Jeśli operujemy tak dużymi danymi jak w przypadku projektu Bielik to oczywiście infrastruktura potrzebna do pracy przekracza zdolności zwykłego komputera. Musimy dysponować mocą obliczeniową potrzebną tylko do tego żeby przygotowywać dane, porównywać je ze sobą, trenować modele. Bariera dostępności tego typu superkomputerów powoduje, że mało która firma jest w stanie takie prace prowadzić samodzielnie. Szczęśliwie AGH dysponuje takim zapleczem – wyjaśnia prof. Kazimierz Wiatr, Dyrektor ACK Cyfronet AGH.

Jak podaje AGH, równolegle z zasobów superkomputerów z ACK Cyfronet AGH korzysta kilka tysięcy naukowców reprezentujących wiele dziedzin. Zaawansowane modelowanie i obliczenia numeryczne są wykorzystywane głównie w zakresie: chemii, biologii, fizyki, medycyny i technologii materiałowej, a także astronomii, geologii i ochrony środowiska. Superkomputery w Cyfronecie dostępne w ramach infrastruktury PLGrid są również wykorzystywane na potrzeby fizyki wysokich energii (projekty ATLAS, LHCb, ALICE i CMS), astrofizyki (CTA, LOFAR), nauk o Ziemi (EPOS), europejskiego źródła spalacyjnego (ESS), badań fal grawitacyjnych (LIGO/Virgo) czy biologii (WeNMR).

– Wykorzystujemy do trenowania Bielika dwa najszybsze superkomputery w Polsce, Athenę i Heliosa, ale i tak w porównaniu z infrastrukturą światowych liderów mamy dużo mniejsze zaplecze. Do tego, w tym samym czasie z zasobów superkomputerów korzysta kilkuset innych użytkowników – wyjaśnia Marek Magryś. – Nasze systemy umożliwiają jednak przeprowadzenie w kilka godzin lub dni obliczeń, które na zwykłych komputerach mogłyby trwać lata lub, w niektórych przypadkach, nawet stulecia.

Bielik a chat GPT

Choć jest czym się chwalić, Bielik ma oczywiście swoje ograniczenia. – Zbiór danych zasilających Bielika cały czas rośnie, jednak trudno będzie nam się ścigać z zasobami wykorzystywanymi przez inne modele, które funkcjonują w języku angielskim. Poza tym liczba treści w internecie, która funkcjonuje w języku polskim jest znacznie mniejsza niż w angielskim – wyjaśniają twórcy.

Wersja, którą mogą testować użytkownicy jest utrzymywana nieodpłatnie w domenie publicznej i jest wciąż udoskonalana. Autorzy udostępnili, oprócz pełnych wersji opracowanych modeli, także całą gamę wersji skwantyzowanych w najpopularniejszych dostępnych formatach, które umożliwiają uruchomienie modelu na własnym komputerze.

– Warto wiedzieć, że Bielik będzie bardzo dobrze sprawdzał się w zakresie np. streszczania treści. Już w tym momencie nasz model ma swoją użyteczność w obszarze naukowym oraz biznesowym, może służyć na przykład do usprawnienia komunikacji z użytkownikami podczas obsługi zgłoszeń w Helpdesku – tłumaczy Szymon Mazurek z ACK Cyfronet AGH.

Po co polskie modele językowe?

Twórcy Bielika wyjaśniają, że usługi sztucznej inteligencji funkcjonujące w internecie, w tym te najpopularniejsze jak ChatGPT, utrzymywane są na serwerach zewnętrznych. Jeśli jakaś firma czy branża rozwija rozwiązanie, które operuje na specjalistycznych danych np. medycznych lub na tekstach, które z różnych powodów nie mogą opuścić firmy, np. są poufne, to jedyną możliwością jest uruchomienie takiego modelu u siebie. Ten model nie będzie tak doskonały jak ChatGPT, ale nie musi też być tak bardzo ogólny.

Dodatkową korzyścią płynącą z uruchomienia modeli językowych typu Bielik jest wzmocnienie pozycji Polski w obszarze innowacji w sektorze AI. Ponadto, co podkreślają twórcy, warto zabiegać o to, aby budować własne narzędzia i tym samym uniezależniać się od zewnętrznych firm, które w przypadku zawirowań na rynkach, regulacji czy ograniczeń prawnych mogą np. uniemożliwiać dostęp do swoich zasobów. – Tym samym rozwijając i udoskonalając narzędzia w Polsce, budujemy stabilne zaplecze i jesteśmy w stanie zabezpieczać wiele naszych sektorów - bankowy, administracyjny medyczny lub prawniczy – podkreślają.

A Jan Maria Kowalski z Fundacji Speakleash dodaje: – Intensywne działania nad rozwojem AI, modelami językowymi typu Bielik czy innymi narzędziami opartymi o sztuczną inteligencję są w interesie wszystkich dobrze działających gospodarek. Obserwujemy wzmożone prace nad tego typu rozwiązaniami w wielu krajach.

Możliwość testowania Bielika: https://bielik.ai/

Kolejny wzrost liczby pasażerów w Kraków Airport. Sezon letni zaczął się dużo wcześniej

Lotnisko spodziewa się kolejnych rekordów. Testuje tomografy

Awaria przejazdu kolejowego. Piesi na autostradzie A4

Wstęp do przebudowy skrzyżowania. Kolejna ulica bez tramwajów

Tory i wiadukt w Nowej Hucie sprawdzone. Wkrótce otwarcie [ZDJĘCIA]

Te konstrukcje pomogą zamontować elementy kładki [ZDJĘCIA]

MPK ma ponad 120 autobusów elektrycznych. Teraz instalują kolejne ładowarki

Rozpadło się torowisko na Starowiślnej. Nie kursowały tramwaje

MPK znów z milionami z KPO. Wyda je na tramwaje

Prądnik Czerwony bliżej kolei. Są pieniądze na przystanek

Trasa w stronę Śląska bez przejazdów przez tory

Podróż do Nowego Sącza o połowę krótsza. Budują nowe tory [ZDJĘCIA]

Velo Huta po raz piąty. Rowerowa parada i piknik w sercu Nowej Huty

E-rowery na sterydach. Interweniował biegły sądowy

Wracają miejskie kontrole rowerowe. Można za darmo sprawdzić swój rower

Remont ul. Zakopiańskiej. Zmiany w organizacji ruchu od poniedziałku

Niewielkie, a ważne zmiany na II obwodnicy. Jedna już się dzieje

Zakopianka: nocne roboty i utrudnienia. Nowy etap prac między Krakowem a Gajem

To jedna z najdroższych inwestycji. Powstaje kładka łącząca Kazimierz z Ludwinowem [ZDJĘCIA]

Budują kładkę nad zakopianką. Będzie gotowa w tym roku [ZDJĘCIA]

Co dalej z przejściem na Wielickiej? „Ten tynk spadł we właściwym momencie”

Pod Krakowem powstaje centrum przeładunkowe InPostu [ZDJĘCIA]

Majówka z pracą. Blisko 100 pracodawców i masa warsztatów

Krakowianie zadłużeni na ponad 51 mln zł wobec operatorów. Tylko Warszawa ma gorzej

Fabryka Kabla do wyburzenia? Szczegóły zdradził Główny Architekt Krakowa

Szykuje się potężna inwestycja w Kryspinowie. Kompleks obejmie blisko 100 działek

Plany na gigantyczne osiedle w Krakowie sypią się. Deweloper nie składa broni

Otwarcie nowego centrum handlowego w Krakowie. Na klientów czekają karty rabatowe i inne atrakcje

Kolejny fragment Mogilskiej zmieni się nie do poznania. Duży deweloper ma plan

Designer Outlet Kraków z datą otwarcia. Już można szykować się na zakupy

Pod Krakowem powstaje centrum przeładunkowe InPostu [ZDJĘCIA]

Nowoczesne technologie od Comarchu pomogą w opiece nad seniorami

Zakonnicy poszli do sądu zablokować inwestycję. Obok chcą budować hotel

Majówka z pracą. Blisko 100 pracodawców i masa warsztatów

Pracownicy nie mieli spokojnej majówki. Tysiąc osób do zwolnienia

Bezrobocie w Krakowie rośnie: Nowa Huta na czele, wyższe wykształcenie nie gwarantuje pracy

Krakowianie zadłużeni na ponad 51 mln zł wobec operatorów. Tylko Warszawa ma gorzej

Rzeszowski deweloper planuje budowę sanatorium w Krakowie

Designer Outlet Kraków już blisko otwarcia. Podano datę

150 milionów dolarów od inwestorów. Jak sobie radzą krakowskie startupy

Nagrody za drona solarnego i projekt, jak ograniczyć liczbę zużytych źródeł energii

Największy kobiecy hackathon świata w Krakowie?

Kroczek w emocjach po meczu z Legią. Godne pożegnanie i słowa uznania od Gonzalo Feio

Wielki mecz Cracovii z Legią! Nie przeszkodził im nawet niestrzelony karny [ZDJĘCIA]

Cracovia to nie tylko Kraków. Poznaliśmy liczby i klucze do sukcesu [ROZMOWA]

Kroczek w emocjach po meczu z Legią. Godne pożegnanie i słowa uznania od Gonzalo Feio

Wielki mecz Cracovii z Legią! Nie przeszkodził im nawet niestrzelony karny [ZDJĘCIA]

Cracovia to nie tylko Kraków. Poznaliśmy liczby i klucze do sukcesu [ROZMOWA]

Sporty przeszkodowe w nowym wydaniu. Kraków gospodarzem mistrzostw

Comarch szuka prezesa dla spółki wydzielonej z Cracovii. Wytypowany kandydat nie przyjął oferty

Przyszłość hokeja w Cracovii. Comarch odpowiedział jednym zdaniem

Nowy basen zaczyna piąć się w górę [ZDJĘCIA]

Co z planami zagospodarowania terenu wokół stadionu Wisły? [ROZMOWA]

Miasto i Wisła wspólnie ogłosiły konkurs. Co może na tym zyskać klub? Jest umowa

W jelitach widać, jak trenujemy. Najnowsze badania

Oferta dla tych, których najtrudniej wyciągnąć z domu i zmiany na Zakrzówku. „Nie tylko opalanie na pomostach”

Olszanica. Co kryje się pod hasłem „kompleks sportowy”?

Cracovia Półmaraton Królewski. Pewny jest sponsor i podwyżka. Rekord frekwencji zależy od biegaczy

Poland Business Run. Duże zmiany w biegu nie tylko w Krakowie

Jesienne wydarzenia Królewskiej Triady Biegowej z jednym sponsorem

Zainteresowanie konferencją „Młodzi o Sporcie” przerosło oczekiwania. W tym roku o konkurencji na rynku sportu

Juvenia Kraków. Zespół młodych Smoków zaskoczył we Włoszech

Ironman Kraków. Wszystkie miejsca wyprzedane, wyścig rozbudził apetyty polskiej społeczności

„Życie nie tylko po to jest by brać”. Bezpłatny koncert Stanisława Soyki w ramach akcji Pola Nadziei

Weekend pełen atrakcji: Noc Muzeów, Jadalny Kraków Fest i kiermasz dobrej książki

Nie żyje znany pieśniarz. „Makino” był autorem muzyki do hymnu Cracovii

Nowa Zbrojownia i wejście do XII-wiecznej wieży. Wawel kończy prace konserwatorskie [ZDJĘCIA]

„Ogrody rzeźbiarek”. Pierwsza wystawa plenerowa MNK [ZDJĘCIA]

Nowy dyrektor MOCAK-u. Wcześniej pracował w Pradze i Hanowerze

„Bawiłem się żołnierzykami”. Niezwykła wystawa na kopcu Kościuszki [ZDJĘCIA]

Warto było czekać! Wieża Zegarowa na Wawelu zachwyca po remoncie [ZDJĘCIA]

Artpower.pl. Wyjątkowa galeria sztuki z dziełami ponad 200 artystów

Gdzie jest smok wawelski? Jest reakcja prezydenta Krakowa

„Ofiary własnego sukcesu”. Dyrektor Teatru Proxima o walce o przetrwanie [ROZMOWA]

Historie pełne adrenaliny w Kinie Pod Baranami

Odessa w Krakowie: Międzynarodowy Festiwal Literatury z udziałem pisarzy z 13 krajów

Znamy laureata Nagrody Conrada

Fani czytelnictwa opanowali Expo Kraków. Oblegana Olga Tokarczuk [ZDJĘCIA]

„Kontynuujemy owocną współpracę”. To on dalej będzie kierował Filharmonią Krakowską

Tysiąc lat korony, jedna noc w muzeum. Kraków świętuje historię