Zespół polskich naukowców tworzy rywala ChatGPT. Poznajcie Qrę
Qra, bo tak nazywają swoje modele językowe naukowcy z Politechniki Gdańskiej oraz Ośrodka Przetwarzania Informacji (OPI), mogą konkurować z globalnymi graczami, takimi jak OpenAI ChatGPT czy Mistral AI. Modele te, jako pierwsze na taką skalę, są dostosowane do zrozumienia polszczyzny i generowania tekstów.
W informacji przekazanej przez Politechnikę Gdańską ujawniono, że współpraca między uczelnią a AI Lab z Ośrodka Przetwarzania Informacji zaowocowała stworzeniem generatywnych modeli neuronowych, które operują na terabajtach danych w języku polskim.
"Qra to pierwszy tej skali i najlepszy w modelowaniu języka polskiego odpowiednik otwartych narzędzi Mety czy Mistral AI. Qra lepiej rozumie treści w języku polskim, lepiej rozumie pytania zadawane w tym języku i lepiej sama tworzy spójne teksty" — podkreślono w oświadczeniu.
Czytaj takżę: ChatGPT to jeszcze nic. Nvidia H100 wyszkoli lepszą AI
Na Politechnice Gdańskiej, w Centrum Kompetencji STOS — jednym z najnowszych ośrodków IT w Europie, gdzie znajduje się superkomputer Kraken, zbudowano specjalistyczne środowisko do opracowywania modeli AI.
Polska ma powód do dumy
Uczelnia poinformowała, że do realizacji projektu wykorzystano klaster składający się z 21 kart graficznych Nvidia A100 80 GB. Proces przygotowania środowiska, tworzenia narzędzi i modeli, ich szkolenia (opartego na danych z różnych dziedzin, jak prawo, technika, nauki społeczne, biomedycyna, religia czy sport) oraz testowanie zajęły około sześciu miesięcy.
Dzięki zaawansowanej infrastrukturze CK STOS najbardziej skomplikowany z modeli mógł zostać wytrenowany w ciągu około miesiąca, zamiast lat — przekazano w komunikacie.
Współpraca między Politechniką Gdańską a OPI zaowocowała stworzeniem trzech modeli różniących się stopniem złożoności:
- Qra 1B
- Qra 7B
- Qra 13B
Modele Qra 7B i Qra 13B osiągają znacząco lepsze wyniki w testach, co świadczy o ich wyższej zdolności do modelowania polskiego języka, zarówno na poziomie leksykalnym, jak i gramatycznym, w porównaniu z oryginalnymi modelami Llama-2-7b-hf (Meta) oraz Mistral-7B-v0.1 (Mistral-AI).
Testy przeprowadzono na zbiorze pierwszych 10 tys. zdań z testowego zbioru PolEval-2018 oraz na 5 tys. długich i skomplikowanych dokumentów napisanych w 2024 r.
Modele Qra mają służyć jako fundament dla informatycznych rozwiązań w obszarach wymagających głębszego zrozumienia polskiego języka.
"Na tym etapie Qra jest fundamentalnym modelem językowym, który potrafi generować poprawne gramatycznie i stylistycznie odpowiedzi w języku polskim. Tworzone treści są bardzo wysokiej jakości, co potwierdza m.in. miara perplexity" — zaznaczono w komunikacie.
Zespół planuje dalsze prace nad dostrojeniem modeli, aby ocenić ich efektywność w takich zastosowaniach, jak klasyfikacja tekstów, streszczanie czy odpowiadanie na pytania.
Rozwinięte modele zostały udostępnione w repozytorium OPI-PG na platformie Huggingface, co umożliwia ich pobranie i wykorzystanie w różnych dziedzinach i zadaniach, takich jak udzielanie odpowiedzi.