Webinár: Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)

Webinár: Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)

Srdečne vás pozývame na spoločný webinár o modelovaní jazyka, ktorý organizujú Národné kompetenčné centrá pre HPC na Slovensku a v Taliansku. Nástup veľkých jazykových modelov (LLM), ktoré si vyžadujú obrovské množstvo trénovacích dát, pôvodne znevýhodňoval používateľov málo zastúpených jazykov.

V rámci nášho projektu sa snažíme túto bariéru prekonať pre slovenčinu prostredníctvom viacerých stratégií, ktoré môžu poskytnúť metodologické poznatky aj pre iné jazyky s nízkym počtom zdrojov:

Generovanie bilingválnych dátových súborov: Pomocou starostlivo zostavenej databázy odborne redigovaných slovenských kníh využívame model LLaMA 3.3 70B Instruct na preklad textov do angličtiny a späť do slovenčiny. Týmto spôsobom vytvárame dva datasety – jeden na trénovanie kompaktného otvoreného modelu pre preklad z angličtiny do slovenčiny a druhý na zlepšenie strojovo preloženej slovenčiny.
Sumarizácia vedeckých textov: S využitím Gemini Flash Experimental a vedeckej databázy PLOS generujeme súhrny vedeckých článkov v slovenčine. Tento dataset podporuje trénovanie slovenských LLM v oblasti špecializovanej vedeckej terminológie.
Zvýšenie kultúrneho kontextu: Hoci modely ako DeepSeek a ChatGPT dosahujú v slovenčine relatívne dobré výsledky, majú ťažkosti s kultúrne špecifickými a kontextuálnymi témami týkajúcimi sa Slovenska. Plánujeme syntetizovať texty zo slovenských zdrojov na vytvorenie datasetu, ktorý túto medzeru zaplní.

Dátum a čas: 11. jún 2025, 10:00 – 11:00 CEST
Miesto: online
Jazyk: Angličtina
Rečník: Marek Dobeš
Spoluautori: Radovan Garabík a Peter Bednár
Registrácia

Našou snahou je zmierniť nedostatok dát pre slovenčinu a zvýšiť výkonnosť LLM v oblasti jazykovej presnosti, vedeckého diskurzu a kultúrnej relevantnosti. Veríme, že prístupy preskúmané v tejto prípadovej štúdii môžu inšpirovať podobné snahy aj pre iné málo zastúpené jazyky.

Tento výskum je realizovaný na vysokovýkonnéj infrastruktúre – konkrétne slovenským národným superpočítačom Devana a Leonardom, jedným z najvýkonnejších európskych superpočítačov, ktorý prevádzkuje Cineca v Taliansku. Tieto platformy nám umožňujú spracovávať viacjazyčné datasety, trénovať modely vo veľkom rozsahu a testovať pokročilé techniky LLM efektívne z hľadiska zdrojov.

Aj keď sa naša prípadová štúdia zameriava na slovenčinu, vyvíjané metódy a nástroje sú široko aplikovateľné aj na iné nedostatočne zastúpené jazyky po celom svete. Srdečne pozývame spolupracovníkov zo všetkých krajín – nielen zo strednej Európy či Talianska – ale z akéhokoľvek regiónu, kde nedostatok jazykových dát predstavuje prekážku rozvoja umelej inteligencie. Náš projekt ukazuje, ako môže európska spolupráca a spoločné využívanie superpočítačových zdrojov otvárať nové možnosti inkluzívneho, viacjazyčného modelovania jazyka – najmä pre krajiny, ktoré doposiaľ nemali rovnaké možnosti podieľať sa na tvorbe viacjazyčných jazykových modelov.

SPÄŤ