Záznam z podujatia: Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)
Dňa 11. júna 2025 sa uskutočnil spoločný webinár o modelovaní jazyka, ktorý zorganizovali Národné kompetenčné centrá pre HPC na Slovensku a v Taliansku. Diskusia sa sústredila na výzvy a riešenia spojené s používaním veľkých jazykových modelov (LLM) pre menej rozšírené jazyky, akým je aj slovenčina.
Účastníci sa oboznámili s viacerými inovatívnymi prístupmi, ktorých cieľom je znížiť jazykovú nerovnosť v ére umelej inteligencie:
- Generovanie bilingválnych datasetov: Využili sme databázu odborne redigovaných slovenských kníh a model LLaMA 3.3 70B Instruct na preklad medzi slovenčinou a angličtinou, čím vznikli datasety pre trénovanie prekladových modelov a zlepšovanie strojovo preloženej slovenčiny.
- Sumarizácia vedeckých textov: Pomocou modelu Gemini Flash Experimental a databázy PLOS sme generovali slovenské súhrny vedeckých článkov, čo prispieva k rozvoju odborného jazyka v LLM.
- Zvýšenie kultúrneho kontextu: Pripravujeme dataset založený na slovenských zdrojoch, ktorý má zlepšiť schopnosť modelov rozumieť kultúrne špecifickým témam a reáliám.
Webinárom sprevádzal Marek Dobeš, spoluautormi projektu sú Radovan Garabík a Peter Bednár. Výskum prebieha s využitím vysokovýkonnej výpočtovej infraštruktúry – slovenského superpočítača Devana a talianskeho Leonarda, prevádzkovaného talianským superpočítačovým centrom Cineca.
Prípadová štúdia poukazuje na možnosti aplikácie týchto metodík aj pre iné jazyky s nízkym počtom zdrojov. Veríme, že skúsenosti z tohto projektu môžu inšpirovať odborníkov po celom svete.
Zodpovednosť už v návrhu: Od štandardov pre AI k praxi a certifikácii 12 mar - Ako Akt EÚ o AI premieňa harmonizované normy na reálne testovanie a certifikáciu umelej inteligencie. Zistite, ako sa Akt EÚ o AI posúva od regulačného textu k technickej implementácii — a čo to znamená pre organizácie, ktoré vyvíjajú a nasadzujú systémy AI.
Mestské budovy sa prebúdzajú: Slovenská AI dáva druhú šancu nevyužitým priestorom 4 mar - Mestá sú živé organizmy, ktoré sa neustále menia. Mnohí z nás však v susedstve denne míňajú tiché svedectvá minulosti – prázdne školy, nevyužívané úrady či chátrajúce verejné budovy. Často si kladieme otázky: „Prečo je to zatvorené?“ „Nemohol by tu byť radšej denný stacionár, škôlka alebo kultúrne centrum?“
BeeGFS v praxi — Paralelné súborové systémy pre HPC, AI a dátovo náročné úlohy 6 feb - Tento webinár predstaví BeeGFS, popredný paralelný súborový systém navrhnutý na podporu náročných HPC, AI a dátovo intenzívnych pracovných záťaží. Odborníci zo spoločnosti ThinkParQ vysvetlia, ako paralelné súborové systémy fungujú, aká je architektúra BeeGFS a ako sa používa v praxi v akademickom, výskumnom a priemyselnom prostredí.
