Polska odpowiedź na ChatGPT: PLLuM - modele językowe wyspecjalizowane w języku polskim już działają

PLLuM Chat - strona główna / PLLuM - modele językowe wyspecjalizowane w języku polskim już udostępnione. Lepsze od ChatGPT? / Źródło zewnętrzne

Staraliśmy się, by polskie modele językowe PLLuM były bezpieczne, dostosowane do języka polskiego i "wytrenowane" na legalnie pozyskanych danych — powiedział PAP dr hab. Szymon Łukasik z NASK, ośrodka zaangażowanego w prace nad opublikowanymi w lutym modelami AI.

rozwiń >

PLLuM - rodzina dużych polskich modeli językowych

PLLuM (Polish Large Language Universal Model) to rodzina dużych polskich modeli językowych. Tego typu programy sztucznej inteligencji (AI) umożliwiają generowanie tekstu oraz przetwarzanie języka naturalnego. Dzięki nim komunikacja z maszyną nie wymaga od użytkownika stosowania sztywnych kodów i mechanicznych poleceń, ale przypominać może dialog z człowiekiem.

W odróżnieniu od komercyjnych modeli LLM (takich jak ChatGPT, Claude czy Gemini), modele PLLuM wyspecjalizowane są w języku polskim, choć do ich trenowania używano również tekstów w innych językach słowiańskich, bałtyckich oraz oczywiście w języku angielskim.

"Model jest dostosowany do języka i kultury polskiej. Prace w ramach tego projektu wspierają zaś polskich ekspertów i rozwój kompetencji w dziedzinie sztucznej inteligencji" — wyjaśnił w rozmowie z PAP uczestnik projektu dr hab. Szymon Łukasik, prof. AGH i dyrektor Ośrodka Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK. Ośrodek ten ma koordynować teraz prace nad dalszymi pracami i wdrożeniem modeli w prace administracji publicznej — w ramach działań konsorcjum HIVE.

Do doszkalania modeli wykorzystano największy w Polsce, bo liczący 40 tys. interakcji, zbiór zapytań, w tym około 3,5 tys. dłuższych dialogów między tutejszymi trenerami a maszyną. Dzięki tej mrówczej pracy tzw. anotatorów AI ma sobie lepiej radzić ze specyfiką polskiego języka i polskiej kultury.

Bezpieczeństwo i etyka

Badacz tłumaczy, jak ważne były w ramach prac kwestie bezpieczeństwa i etycznego podejścia do budowy AI. "Filozofią przyświecającą budowie tego modelu było to, żeby kwestie zbierania danych były maksymalnie przejrzyste. Żebyśmy mieli pewność, na jakim polu modele zbudowane z ich użyciem można wykorzystać" — powiedział dr hab. Łukasik. Wskazał, że przedstawiciele projektu zawierali np. umowy z redakcjami i pozyskiwali oficjalne zgody na korzystanie z archiwów polskich tekstów.

PLLuM — jak zapewniają jego twórcy — powstaje zgodnie z krajowymi i unijnymi wytycznymi dotyczącymi sztucznej inteligencji. I uwzględnia aktualne standardy ochrony danych.

30 miliardów tokenów

Ekspert z NASK tłumaczy, że język polski jest językiem o niskich zasobach. A to znaczy, że danych, które można wykorzystać do budowy modeli, nie ma zbyt dużo. Modele PLLuM do użytku komercyjnego są trenowane na ok. 30 miliardach tokenów (token to kawałek przetwarzanego tekstu - np. słowo lub jego fragment); zaś modele do użytku niekomercyjnego – dla takiego celu zasobów jest znacznie więcej – były trenowane na około 150 miliardach.

Wykorzystanie w administracji państwowej

Modele PLLuM docelowo mają być używane w administracji państwowej, a to oznacza kolejne wyzwania związane z bezpieczeństwem. Twórcy projektu musieli zadbać o to, by model stawiał w swoich odpowiedziach granice i by nie padały tam jakieś nielegalne, nieprawdziwe lub kontrowersyjne treści.

PLLuM Chat i PLLuM dla programistów

Modele PLLuM udostępnione są bezpłatnie w formie czatu wszystkim zainteresowanym https://pllum.clarin-pl.eu/. Ministerstwo Cyfryzacji opublikowało też dotąd 18 otwartych wersji modelu PLLuM dla programistów https://huggingface.co/CYFRAGOVPL. Do dyspozycji wszystkich zainteresowanych są więc zarówno lekkie, ale mniej dokładne wersje modeli, które można ściągnąć na laptopa, jak i mocniejsze, ale wymagające wielu kart graficznych modele do bardziej zaawansowanych zastosowań - np. badawczych. W przypadku obu typów istnieje możliwość uruchomienia modeli na własnej infrastrukturze, bez konieczności przekazywania zapytań do podmiotów zewnętrznych.

Generatory - wyspecjalizowane modele RAG-owe

W ramach projektu powstały też generatory, czyli wyspecjalizowane modele RAG-owe (ang. Retrieval Augmented Generation). Dzięki takim modelom można np. przeszukiwać i analizować swoje lokalne bazy danych i tworzyć wirtualnych asystentów analizujących zbiory własnych dokumentów. Zespół PLLuM zbudował najmniejszy (8 mld parametrów) ale wiodący w rankingach dla polskiego języka generator tego typu.

PLLuM i HIVE

Dr Łukasik odniósł się też do zmiany nazwy projektu z PLLuM na HIVE. "Nasze modele nazywają się PLLuM, a ich rodzina będzie dalej rozwijana w ramach konsorcjum HIVE. Chcieliśmy w ten sposób nawiązać do idea współpracy wielu badaczy, inżynierów i instytucji, działających niczym pszczoły w jednym ekosystemie, wymieniając się wiedzą i zasobami (np. danymi, kodem, modelami). Natomiast być może kiedyś będziemy chcieli wypuścić jakąś nową rodzinę modeli - z nową nazwą. Rozmawiamy o tym z Ministerstwem Cyfryzacji" - wskazał dr Łukasik.

Ludwika Tomala (PAP)
lt/ zan/ ktl/

oprac. Paweł Huczko
rozwiń więcej
Sektor publiczny
Uposażenie zasadnicze funkcjonariuszy Służby Więziennej. Podwyżki z wyrównaniem od 1 stycznia 2025 r.
03 mar 2025

Do uzgodnień i konsultacji publicznych trafił projekt rozporządzenia Ministra Sprawiedliwości zmieniającego rozporządzenie w sprawie uposażenia zasadniczego funkcjonariuszy Służby Więziennej. Chodzi o nowe stawki uposażenia zasadniczego wyrażonego w postaci mnożników kwoty bazowej.

Ćwiczenia z zakresu ochrony ludności i obrony cywilnej: co obejmują, dokumentacja, ważne terminy
03 mar 2025

Ćwiczenia z zakresu ochrony ludności i obrony cywilnej: co obejmują, dokumentacja, ważne terminy. W Dzienniku Ustaw ukazało się rozporządzenie. Chodzi m.in. o zakres i sposób organizowania ćwiczeń. Nowe przepisy zaczną obowiązywać 15 marca 2025 r.

Polska odpowiedź na ChatGPT: PLLuM - modele językowe wyspecjalizowane w języku polskim już działają
03 mar 2025

Staraliśmy się, by polskie modele językowe PLLuM były bezpieczne, dostosowane do języka polskiego i "wytrenowane" na legalnie pozyskanych danych — powiedział PAP dr hab. Szymon Łukasik z NASK, ośrodka zaangażowanego w prace nad opublikowanymi w lutym modelami AI.

Oddajesz odzież, obuwie, książki, zabawki, elektronikę – dostajesz InCoiny. EKOzwroty w każdym paczkomacie InPost-u
26 lut 2025

Darmowa usługa InPost umożliwia szybkie i łatwe oddanie niepotrzebnych, ale zdatnych do użycia rzeczy. W ramach usługi EKOzwroty można to robić za pośrednictwem urządzeń Paczkomat®. EKOzwroty mają na celu dać drugie życie niepotrzebnym, ale nadal zdatnym do użycia przedmiotom. Za każdy nadany EKOzwrot dostaje się 20 InCoinów. A teraz - do 12 marca 2025 r. za nadanie EKOzwrotu zyskuje się 20 InCoinów ekstra (w sumie 40)!

Niejednoznaczne objawy nowotworów dziecięcych wpływają na czas diagnozy. 66 proc. Polaków nie ma wiedzy na temat nowotworów dziecięcych
26 lut 2025

Wczesne objawy nowotworów dziecięcych zwykle są bardzo dyskretne i niejednoznaczne, co może wpłynąć na czas postawienia właściwej diagnozy. 15 lutego obchodziliśmy Międzynarodowy Dzień Nowotworów Dziecięcych.

Pomoc dla Ukrainy: ile wydały Stany Zjednoczone a ile Europa? Macron prostuje słowa Trumpa
25 lut 2025

Donald Trump, podejmując 24 lutego 2025 r. w Białym Domu Emmanuela Macrona, zasugerował, że USA udzieliły Ukrainie pomocy w wysokości 350 miliardów dolarów. Kwotę tę wymienił w ostatnich dniach kolejny już raz. Po raz pierwszy jednak usłyszał od rozmówcy, a zarazem głowy państwa, że w tych szacunkach rozmija się z prawdą.

BBC: Trump wywrócił sojusz transatlantycki do góry nogami. USA nie zagłosowały przeciw Rosji przed ONZ
25 lut 2025

Stany Zjednoczone dwukrotnie stanęły 24 lutego 2025 r. po stronie Rosji podczas głosowań dotyczących Ukrainy w Radzie Bezpieczeństwa i Zgromadzeniu Ogólnym ONZ. Waszyngton odmówił nazwania Rosji agresorem, co przewidywał projekt rezolucji UE.

Bakterie Escherichia coli w mące pszennej. Ostrzeżenie GIS z 24 lutego 2025 r.
25 lut 2025

W dniu 24 lutego 2025 r. Główny Inspektor Sanitarny przekazał informację o wykryciu w badaniach właścicielskich obecności bakterii Escherichia coli produkującej toksynę Shiga (STEC) w mące pszennej dokładnie opisanej poniżej, dystrybuowanej detalicznie przez sieć ALDI.

Prezydent Warszawy R. Trzaskowski na pogrzebie Mariana Turskiego: żegnamy naszego przyjaciela, wybitny autorytet
23 lut 2025

Przeżył piekło Auschwitz, ale nigdy nie pozwolił, by nienawiść zatruła jego serce - mówił 23 lutego 2025 r. podczas uroczystości pogrzebowych Mariana Turskiego jego przyjaciel, przewodniczący Stowarzyszenia ŻIH Piotr Wiślicki. Ocalony z Auschwitz, dziennikarz i historyk Marian Turski spoczął na Cmentarzu Żydowskim w Warszawie.

Zatrudnianie pracowników służby medycznej: 1/3 pracowników ochrony zdrowia na kontraktach B2B
19 lut 2025

Zatrudnianie pracowników służby medycznej: 1/3 pracowników ochrony zdrowia na kontraktach B2B. Niepokojące dane Agencji Oceny Technologii Medycznych i Taryfikacji (AOTMiT). Resort zdrowia przygląda się sprawie.

pokaż więcej
Proszę czekać...