Záznam z podujatia: Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)

Záznam z podujatia: Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)

Dňa 11. júna 2025 sa uskutočnil spoločný webinár o modelovaní jazyka, ktorý zorganizovali Národné kompetenčné centrá pre HPC na Slovensku a v Taliansku. Diskusia sa sústredila na výzvy a riešenia spojené s používaním veľkých jazykových modelov (LLM) pre menej rozšírené jazyky, akým je aj slovenčina.

Záznam z podujatia: Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)

Účastníci sa oboznámili s viacerými inovatívnymi prístupmi, ktorých cieľom je znížiť jazykovú nerovnosť v ére umelej inteligencie:

Generovanie bilingválnych datasetov: Využili sme databázu odborne redigovaných slovenských kníh a model LLaMA 3.3 70B Instruct na preklad medzi slovenčinou a angličtinou, čím vznikli datasety pre trénovanie prekladových modelov a zlepšovanie strojovo preloženej slovenčiny.
Sumarizácia vedeckých textov: Pomocou modelu Gemini Flash Experimental a databázy PLOS sme generovali slovenské súhrny vedeckých článkov, čo prispieva k rozvoju odborného jazyka v LLM.
Zvýšenie kultúrneho kontextu: Pripravujeme dataset založený na slovenských zdrojoch, ktorý má zlepšiť schopnosť modelov rozumieť kultúrne špecifickým témam a reáliám.

Webinárom sprevádzal Marek Dobeš, spoluautormi projektu sú Radovan Garabík a Peter Bednár. Výskum prebieha s využitím vysokovýkonnej výpočtovej infraštruktúry – slovenského superpočítača Devana a talianskeho Leonarda, prevádzkovaného talianským superpočítačovým centrom Cineca.

Prípadová štúdia poukazuje na možnosti aplikácie týchto metodík aj pre iné jazyky s nízkym počtom zdrojov. Veríme, že skúsenosti z tohto projektu môžu inšpirovať odborníkov po celom svete.

SPRáVY

ASAI AI Osobnosť 2026 17 jún - Prestížne ocenenie ASAI AI Osobnosť 2026

Keď AI klope na bránu teológie 11 jún - Prečo umelá inteligencia patrí aj do teológie?

Nový recept na skrotenie slnečnej energie 11 jún - Umelá inteligencia v spojení s čistou fyzikou dokáže predpovedať silu slnečného žiarenia rýchlejšie a lacnejšie než kedykoľvek predtým

Poďakovanie

Tento projekt je financovaný zo zdrojov Spoločného európskeho podniku pre vysokovýkonné výpočty (EuroHPC) na základe dohody o grante číslo 101101903. EuroHPC získal podporu z programu Digitálna Európa a od Nemecka, Bulharska, Rakúska, Chorvátska, Cypru, Českej republiky, Dánska, Estónska, Fínska, Grécka, Maďarska, Írska, Talianska, Litvy, Lotyšska, Poľska, Portugalska, Rumunska, Slovinska, Španielska, Švédska, Francúzska, Holandska, Belgicka, Luxemburska, Slovenska, Nórska, Švajčiarska, Turecka, Severomacedónskej republiky, Islandu, Čiernej Hory a Srbska.