Privítajte Mistral-sk-7b!

Slovenská AI komunita sa po dlhom čase dočkala nového, tentoraz naozaj veľkého jazykového modelu pre slovenský jazyk.

Privítajte Mistral-sk-7b!

Slovenská AI komunita sa po dlhom čase dočkala nového, tentoraz naozaj veľkého jazykového modelu pre slovenský jazyk. Takmer po troch rokoch od vydania prvého slovenského jazykového modelu SlovakBERT, kolektív autorov tvorený Petrom Bednárom z Katedry kybernetiky a umelej inteligencie FEI TUKE, Marekom Dobešom z Centra spoločenských a psychologických vied SAV a Radovanom Garabíkom z Jazykovedného ústavu Ľudovíta Štúra SAV použil ako základ multilingválny model Mistral-7B-v0.1 so siedmimi miliardami parametrov.

Na doladenie (tzv. „finetuning“) všetkých parametrov boli použité dáta z webového korpusu „Araneum Slovacum VII Maximum”. Ako autori uvádzajú, v prípade potreby je možné kvalitu predtrénovaného modelu zlepšiť ďalším dotrénovaním na konkrétny problém. Zároveň upozorňujú, že model neobsahuje žiadny moderačný mechanizmus.

Trénovanie modelu Mistral-sk-7b bolo vykonané na aktuálne siedmom najvýkonnejšom superpočítači na svete, Leonardo, obstaranom rovnomenným konzorciom, ktorého členom je aj Slovensko. Potrebný výpočtový čas autori získali vďaka úspešnému projektu v rámci národnej výzvy pre prístup k superpočítaču Leonardo, ktorú koordinovalo Výpočtové stredisko Slovenskej akadémie vied v spolupráci s Národným superpočítačovým centrom.

Model Mistral-sk-7b je publikovaný pod licenciou „Apache 2.0“ na platforme Hugging Face, pod organizáciou „Slovak NLP Community“

SPÄŤ

Poďakovanie

Tento projekt je financovaný zo zdrojov Spoločného európskeho podniku pre vysokovýkonné výpočty (EuroHPC) na základe dohody o grante číslo 101101903. EuroHPC získal podporu z programu Digitálna Európa a od Nemecka, Bulharska, Rakúska, Chorvátska, Cypru, Českej republiky, Dánska, Estónska, Fínska, Grécka, Maďarska, Írska, Talianska, Litvy, Lotyšska, Poľska, Portugalska, Rumunska, Slovinska, Španielska, Švédska, Francúzska, Holandska, Belgicka, Luxemburska, Slovenska, Nórska, Švajčiarska, Turecka, Severomacedónskej republiky, Islandu, Čiernej Hory a Srbska.