Kategórie
Všeobecné

Záznam z podujatia: Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)

Dňa 11. júna 2025 sa uskutočnil spoločný webinár o modelovaní jazyka, ktorý zorganizovali Národné kompetenčné centrá pre HPC na Slovensku a v Taliansku. Diskusia sa sústredila na výzvy a riešenia spojené s používaním veľkých jazykových modelov (LLM) pre menej rozšírené jazyky, akým je aj slovenčina.

Záznam z podujatia: Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)

Dňa 11. júna 2025 sa uskutočnil spoločný webinár o modelovaní jazyka, ktorý zorganizovali Národné kompetenčné centrá pre HPC na Slovensku a v Taliansku. Diskusia sa sústredila na výzvy a riešenia spojené s používaním veľkých jazykových modelov (LLM) pre menej rozšírené jazyky, akým je aj slovenčina.

Účastníci sa oboznámili s viacerými inovatívnymi prístupmi, ktorých cieľom je znížiť jazykovú nerovnosť v ére umelej inteligencie:

  • Generovanie bilingválnych datasetov: Využili sme databázu odborne redigovaných slovenských kníh a model LLaMA 3.3 70B Instruct na preklad medzi slovenčinou a angličtinou, čím vznikli datasety pre trénovanie prekladových modelov a zlepšovanie strojovo preloženej slovenčiny.
  • Sumarizácia vedeckých textov: Pomocou modelu Gemini Flash Experimental a databázy PLOS sme generovali slovenské súhrny vedeckých článkov, čo prispieva k rozvoju odborného jazyka v LLM.
  • Zvýšenie kultúrneho kontextu: Pripravujeme dataset založený na slovenských zdrojoch, ktorý má zlepšiť schopnosť modelov rozumieť kultúrne špecifickým témam a reáliám.

Webinárom sprevádzal Marek Dobeš, spoluautormi projektu sú Radovan Garabík a Peter Bednár. Výskum prebieha s využitím vysokovýkonnej výpočtovej infraštruktúry – slovenského superpočítača Devana a talianskeho Leonarda, prevádzkovaného talianským superpočítačovým centrom Cineca.

Prípadová štúdia poukazuje na možnosti aplikácie týchto metodík aj pre iné jazyky s nízkym počtom zdrojov. Veríme, že skúsenosti z tohto projektu môžu inšpirovať odborníkov po celom svete.

Ako komunikovať vedu a technológie efektívne: skúsenosti nášho tímu 22 aug - Náš tím sa dlhodobo venuje nielen rozvoju vysokovýkonného počítania, ale aj efektívnej komunikácii výsledkov a možností, ktoré prinášame priemyslu, akademickej sfére a mladej generácii výskumníkov. Považujeme to za kľúčovú súčasť našej práce – moderná vedecká a technologická inštitúcia dnes nemôže fungovať izolovane, ale musí vedieť jasne a zrozumiteľne komunikovať hodnotu a prínos svojich aktivít.
HPC a MATLAB: Silné partnerstvo pre dostupné superpočítače 19 aug - Minulý týždeň sa uskutočnilo zaujímavé pracovné stretnutie, na ktorom sa Lucia Malíčková, zastrešujúca Národné superpočítačové centrum a Národné kompetenčné centrum pre HPC, stretla s Martinom Foltínom zo spoločnosti HUMUSOFT s.r.o., oficiálneho distribútora MathWorks.
Webinár: Ako vzniká veľký jazykový model pre jazyk s obmedzenými zdrojmi 14 aug - Pozývame vás na náš ďalší odborný webinár, ktorý sa zameria na pokroky v oblasti umelej inteligencie pre slovinský jazyk. Podujatie sa uskutoční online v polovici septembra a ponúkne jedinečnú príležitosť nazrieť do zákulisia vývoja veľkého jazykového modelu prispôsobeného pre jazyk s obmedzenými zdrojmi. Prednášajúcim bude Domen Vreš z Univerzity v Ľubľane, Fakulty informatiky a počítačových vied, ktorý sa dlhodobo venuje výskumu v oblasti spracovania prirodzeného jazyka a umelej inteligencie.