Záznam z podujatia: Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)
Dňa 11. júna 2025 sa uskutočnil spoločný webinár o modelovaní jazyka, ktorý zorganizovali Národné kompetenčné centrá pre HPC na Slovensku a v Taliansku. Diskusia sa sústredila na výzvy a riešenia spojené s používaním veľkých jazykových modelov (LLM) pre menej rozšírené jazyky, akým je aj slovenčina.
Účastníci sa oboznámili s viacerými inovatívnymi prístupmi, ktorých cieľom je znížiť jazykovú nerovnosť v ére umelej inteligencie:
- Generovanie bilingválnych datasetov: Využili sme databázu odborne redigovaných slovenských kníh a model LLaMA 3.3 70B Instruct na preklad medzi slovenčinou a angličtinou, čím vznikli datasety pre trénovanie prekladových modelov a zlepšovanie strojovo preloženej slovenčiny.
- Sumarizácia vedeckých textov: Pomocou modelu Gemini Flash Experimental a databázy PLOS sme generovali slovenské súhrny vedeckých článkov, čo prispieva k rozvoju odborného jazyka v LLM.
- Zvýšenie kultúrneho kontextu: Pripravujeme dataset založený na slovenských zdrojoch, ktorý má zlepšiť schopnosť modelov rozumieť kultúrne špecifickým témam a reáliám.
Webinárom sprevádzal Marek Dobeš, spoluautormi projektu sú Radovan Garabík a Peter Bednár. Výskum prebieha s využitím vysokovýkonnej výpočtovej infraštruktúry – slovenského superpočítača Devana a talianskeho Leonarda, prevádzkovaného talianským superpočítačovým centrom Cineca.
Prípadová štúdia poukazuje na možnosti aplikácie týchto metodík aj pre iné jazyky s nízkym počtom zdrojov. Veríme, že skúsenosti z tohto projektu môžu inšpirovať odborníkov po celom svete.
BeeGFS v praxi — Paralelné súborové systémy pre HPC, AI a dátovo náročné úlohy 6 feb - Tento webinár predstaví BeeGFS, popredný paralelný súborový systém navrhnutý na podporu náročných HPC, AI a dátovo intenzívnych pracovných záťaží. Odborníci zo spoločnosti ThinkParQ vysvetlia, ako paralelné súborové systémy fungujú, aká je architektúra BeeGFS a ako sa používa v praxi v akademickom, výskumnom a priemyselnom prostredí.
Keď výrobná linka vie, čo sa stane o 10 minút 5 feb - Každý výpadok na výrobnej linke znamená stres. Stroje stoja, ľudia čakajú, výroba sa spomaľuje a rozhodnutia sa robia pod tlakom. V potravinárstve, najmä pri výrobe plnených cestovinových výrobkov, kde proces prebieha v presne nadväzujúcich technologických krokoch, môže jeden nečakaný problém na konci linky zastaviť celý výrobný tok. Čo keby však výrobná linka dokázala vopred upozorniť, že o pár minút nastane problém? Alebo pomôcť rozhodnúť už počas zmeny, či sa ešte dnes oplatí plánovať balenie? Presne tieto otázky stáli na začiatku spolupráce výskumného tímu, ktorý spojil priemyselné dáta, umelú inteligenciu a superpočítačový výkon.
Kto vlastní AI v rámci organizácie? — Operatívna zodpovednosť 5 feb - Tento webinár sa zameriava na to, ako môžu organizácie nastaviť jasnú operatívnu zodpovednosť a vlastníctvo AI systémov primeraným a prakticky realizovateľným spôsobom. Na základe praktických skúseností z oblasti ochrany osobných údajov, AI governance a compliance sa Petra Fernandes bude venovať modelom riadenia, ktoré fungujú v praxi — pre malé a stredné podniky aj pre väčšie organizácie. Pozornosť bude venovaná interným procesom, ktoré organizáciám pomáhajú udržať kontrolu nad AI systémami v čase, bez zbytočnej administratívnej záťaže.
