Success story: Keď výrobná linka vie, čo sa stane o 10 minút
Každý výpadok na výrobnej linke znamená stres. Stroje stoja, ľudia čakajú, výroba sa spomaľuje a rozhodnutia sa robia pod tlakom. V potravinárstve, najmä pri výrobe plnených cestovinových výrobkov, kde proces prebieha v presne nadväzujúcich technologických krokoch, môže jeden nečakaný problém na konci linky zastaviť celý výrobný tok.
Čo keby však výrobná linka dokázala vopred upozorniť, že o pár minút nastane problém? Alebo pomôcť rozhodnúť už počas zmeny, či sa ešte dnes oplatí plánovať balenie? Presne tieto otázky stáli na začiatku spolupráce výskumného tímu, ktorý spojil priemyselné dáta, umelú inteligenciu a superpočítačový výkon.
Výskum realizoval medzinárodný tím odborníkov na umelú inteligenciu a priemyselnú analytiku z akademického a súkromného sektora. Na projekte sa podieľala spoločnosť Prouniona.s. v spolupráci s Univerzitou Konštantína Filozofa v Nitre a ďalšími akademickými partnermi z Českej republiky a Maďarska.
Výzva
Moderné výrobné linky generujú obrovské množstvo dát – od stavov strojov, cez rýchlosti a teploty, až po počty vyrobených kusov. Napriek tomu sa kľúčové operatívne rozhodnutia často robia na základe skúseností a intuície.
Výskumníci sa zamerali na reálnu výrobnú linku na plnené cestovinové výrobky, kde produkt prechádza pevne danou sekvenciou strojov – od prípravy surovín, cez tvarovanie a plnenie, až po tepelné spracovanie a balenie. Identifikovali dve rozhodnutia, ktoré majú zásadný dopad na efektivitu výroby:
Včasné varovanie: Je možné predpovedať, že baliaci stroj sa v priebehu nasledujúcich 10 minút zastaví?
Plánovanie v rámci zmeny: Dá sa počas pracovného dňa spoľahlivo určiť, či sa ešte bude baliť neskôr v ten istý deň?
Odpoveď si vyžadovala prácu s veľkým objemom časových dát a zároveň dôsledné dodržanie reality výrobného prostredia – modely pracovali iba s údajmi, ktoré sú v danom momente skutočne k dispozícii operátorovi alebo vedúcemu zmeny.
Riešenie
Výskumný tím najprv zjednotil dáta zo všetkých strojov do jednej časovej osi a spracoval ich tak, aby presne odrážali skutočný chod výrobnej linky. Následne vytvoril modely strojového učenia, ktoré pracovali výhradne s informáciami dostupnými v danom okamihu – presne tak, ako by ich mal k dispozícii operátor alebo vedúci zmeny.
Kľúčovým momentom projektu bol prístup k výpočtovému výkonu. NSCC Slovakia sprostredkovalo výskumnému tímu prístup k európskej superpočítačovej infraštruktúre EuroHPC, konkrétne k superpočítaču Karolina v Českej republike. Vďaka tomu bolo možné rýchlo experimentovať s rôznymi modelmi, testovať ich na reálnych výrobných dňoch a overovať ich správanie v podmienkach blízkych praxi.
Superpočítač sa tak nestal len technickým nástrojom, ale dôležitým kľúčovým prvkom inovácií – umožnil posunúť analytiku z teórie do reálne použiteľných rozhodnutí.
Výsledky
Model zameraný na včasné varovanie pred zastavením baliaceho stroja dosiahol veľmi vysokú presnosť. Dokázal spoľahlivo identifikovať situácie, keď hrozilo zastavenie v priebehu nasledujúcich 10 minút, pričom počet falošných poplachov bol minimálny. To znamená, že upozornenia sú dôveryhodné a nezahlcujú obsluhu zbytočnými alarmami.
Druhý model, určený na plánovanie v rámci zmeny, dokázal s vysokou úspešnosťou určiť, či sa ešte v ten istý deň bude baliť. Manažéri tak získali praktický podklad pre rozhodovanie o personálnom obsadení, plánovaní práce a efektívnom využití času.
Oba prístupy majú spoločný menovateľ: nepredpovedajú abstraktné čísla, ale odpovedajú na konkrétne otázky, ktoré si výroba kladie každý deň.
Dopad a potenciál do budúcnosti
Táto success story ukazuje, že umelá inteligencia v priemysle nemusí byť futuristickým experimentom. Ak sa analytika zameria na reálne rozhodnutia a využije sa správna infraštruktúra, môže sa stať tichým a spoľahlivým pomocníkom výroby.
Riešenie je ľahko rozšíriteľné aj na iné výrobné linky a sektory. Do budúcnosti sa ponúka zapojenie ďalších dát – napríklad typov produktov, plánovaných údržieb či zmenových kalendárov – a ešte presnejšie prispôsobenie modelov konkrétnym potrebám podnikov.
Hlavné posolstvo je jasné: Keď sa dáta, umelá inteligencia a superpočítače spoja s reálnymi potrebami priemyslu, vznikajú riešenia, ktoré majú okamžitú praktickú hodnotu.
BeeGFS v praxi — Paralelné súborové systémy pre HPC, AI a dátovo náročné úlohy6 feb-Tento webinár predstaví BeeGFS, popredný paralelný súborový systém navrhnutý na podporu náročných HPC, AI a dátovo intenzívnych pracovných záťaží. Odborníci zo spoločnosti ThinkParQ vysvetlia, ako paralelné súborové systémy fungujú, aká je architektúra BeeGFS a ako sa používa v praxi v akademickom, výskumnom a priemyselnom prostredí.
Keď výrobná linka vie, čo sa stane o 10 minút5 feb-Každý výpadok na výrobnej linke znamená stres. Stroje stoja, ľudia čakajú, výroba sa spomaľuje a rozhodnutia sa robia pod tlakom. V potravinárstve, najmä pri výrobe plnených cestovinových výrobkov, kde proces prebieha v presne nadväzujúcich technologických krokoch, môže jeden nečakaný problém na konci linky zastaviť celý výrobný tok. Čo keby však výrobná linka dokázala vopred upozorniť, že o pár minút nastane problém? Alebo pomôcť rozhodnúť už počas zmeny, či sa ešte dnes oplatí plánovať balenie? Presne tieto otázky stáli na začiatku spolupráce výskumného tímu, ktorý spojil priemyselné dáta, umelú inteligenciu a superpočítačový výkon.
Kto vlastní AI v rámci organizácie? — Operatívna zodpovednosť5 feb-Tento webinár sa zameriava na to, ako môžu organizácie nastaviť jasnú operatívnu zodpovednosť a vlastníctvo AI systémov primeraným a prakticky realizovateľným spôsobom. Na základe praktických skúseností z oblasti ochrany osobných údajov, AI governance a compliance sa Petra Fernandes bude venovať modelom riadenia, ktoré fungujú v praxi — pre malé a stredné podniky aj pre väčšie organizácie. Pozornosť bude venovaná interným procesom, ktoré organizáciám pomáhajú udržať kontrolu nad AI systémami v čase, bez zbytočnej administratívnej záťaže.
Success story: AI pomáha zachraňovať ženské životy
Strach z rakoviny prsníka je tichým spoločníkom mnohých žien. Stačí jedno pozvanie na preventívne vyšetrenie, jeden telefonát od lekára či jedno čakanie na výsledky – a myseľ je plná otázok: „Som v poriadku?“ „Čo ak nie?“ „Môže sa niečo prehliadnuť?“ Aj keď skríning potvrdí negatívny nález, obavy často pretrvávajú.
Práve preto má zmysel hľadať nové cesty, ako rakovinu zachytiť čo najskôr. Nie nahradiť lekárov, ale pomôcť im vidieť viac, rýchlejšie a istejšie. A práve tu vstupuje do príbehu umelá inteligencia. Avšak nie ako sci-fi technológia, ale ako nástroj, ktorý môže raz pomáhať chrániť životy.
Slovenský výskumný tím zo Žilinskej univerzity spojil medicínu, AI a európske superpočítače do spoločného projektu s jasným cieľom: zlepšiť presnosť detekcie rakoviny prsníka a podporiť lekárov pri interpretácii mamografických snímok.
Výzva
Mamografia produkuje obrovské objemy obrazových dát. Jediný projekt môže pracovať so stovkami tisíc snímok v extrémne vysokom rozlíšení. Slovenský tím zo Žilinskej univerzity pracoval s viac než 434 000 mamogramami, čo predstavuje dáta v rozsahu niekoľkých terabajtov.
Zároveň sa rozhodol použiť model typu foundation model – obrovskú neurónovú sieť s takmer miliardou parametrov, pôvodne vyvinutú pre všeobecnú analýzu obrazov. Takýto model má obrovský potenciál, no kladie extrémne nároky na výpočtový výkon, pamäť aj rýchlosť práce s dátami.
Rýchlo sa ukázalo, že bežná výskumná infraštruktúra na takýto objem výpočtov jednoducho nestačí. Bez superpočítača by projekt nemohol pokračovať.
Riešenie
Zlom nastal v momente, keď projekt získal prístup k AI Factory VEGA v Slovinsku, ktorá je súčasťou európskej iniciatívy EuroHPC. Po prvý raz dostal slovenský medicínsky AI výskum možnosť pracovať na infraštruktúre s výkonom, aký dovtedy nemal k dispozícii.
Na tejto platforme boli k dispozícii najmodernejšie grafické akcelerátory NVIDIA H100, určené špeciálne pre umelú inteligenciu. Výskumníci tu vytvorili celý technologický reťazec od spracovania mamografických snímok až po samotný tréning modelu.
Dáta sa najskôr museli očistiť, optimalizovať a pripraviť tak, aby ich bolo možné efektívne načítavať počas výpočtov. Následne sa spustil proces adaptácie veľkého AI modelu, ktorý sa „učil“ rozumieť jemným detailom mamografie. Nešlo o jednorazový výpočet. Bol to postupný proces, počas ktorého sa model krok za krokom zlepšoval.
Superpočítač sa tak nestal len výkonným nástrojom, ale kľúčovým partnerom výskumu. Umožnil robiť to, čo bolo predtým prakticky nemožné, trénovať obrovský medicínsky AI model naraz z obrovského množstva dát.
Výsledky
Výskumníci ukázali, že umelá inteligencia sa dokáže učiť z mamografických snímok tak, aby postupne rozoznávala rozdiel medzi zdravým tkanivom a zmenami, ktoré môžu signalizovať problém. Inými slovami, systém sa začal učiť „pozerať sa“ na snímky podobným spôsobom ako lekár. Hľadať jemné detaily a malé odchýlky, ktoré môžu byť pre ľudské oko veľmi nenápadné.
Tento pokrok je dôležitý najmä preto, že ide o prvý krok k tomu, aby umelá inteligencia mohla v budúcnosti upozorniť na zmeny, ktoré by si človek nemusel všimnúť na prvý pohľad. Nejde o náhradu lekára, ale o pomocnú ruku, ktorá mu môže pomôcť rozhodovať sa s väčšou istotou, najmä v hraničných a nejednoznačných prípadoch.
Dopad a potenciál do budúcnosti
Ak sa tento výskum podarí ďalej rozvíjať, umelá inteligencia by sa mohla stať tichým pomocníkom pri preventívnych vyšetreniach. Môže zrýchliť vyhodnocovanie snímok, znížiť riziko prehliadnutia drobných zmien a pomôcť zachytiť ochorenie v štádiu, keď je ešte dobre liečiteľné.
Pre ženy to v praxi znamená väčšiu šancu na včasné odhalenie rakoviny a tým aj vyššiu nádej na úplné uzdravenie. Pri negatívnych nálezoch môžu dostať ženy nezávislý a objektívny doplnkový názor a tým si znížia neistotu po skríningu. Hoci je pred vedcami ešte ďalšia práca, už dnes je jasné, že smer, ktorým sa výskum uberá, má veľký zmysel. Cieľ je jednoduchý, ale silný. Využiť moderné technológie tak, aby pomáhali chrániť zdravie a životy žien.
BeeGFS v praxi — Paralelné súborové systémy pre HPC, AI a dátovo náročné úlohy6 feb-Tento webinár predstaví BeeGFS, popredný paralelný súborový systém navrhnutý na podporu náročných HPC, AI a dátovo intenzívnych pracovných záťaží. Odborníci zo spoločnosti ThinkParQ vysvetlia, ako paralelné súborové systémy fungujú, aká je architektúra BeeGFS a ako sa používa v praxi v akademickom, výskumnom a priemyselnom prostredí.
Keď výrobná linka vie, čo sa stane o 10 minút5 feb-Každý výpadok na výrobnej linke znamená stres. Stroje stoja, ľudia čakajú, výroba sa spomaľuje a rozhodnutia sa robia pod tlakom. V potravinárstve, najmä pri výrobe plnených cestovinových výrobkov, kde proces prebieha v presne nadväzujúcich technologických krokoch, môže jeden nečakaný problém na konci linky zastaviť celý výrobný tok. Čo keby však výrobná linka dokázala vopred upozorniť, že o pár minút nastane problém? Alebo pomôcť rozhodnúť už počas zmeny, či sa ešte dnes oplatí plánovať balenie? Presne tieto otázky stáli na začiatku spolupráce výskumného tímu, ktorý spojil priemyselné dáta, umelú inteligenciu a superpočítačový výkon.
Kto vlastní AI v rámci organizácie? — Operatívna zodpovednosť5 feb-Tento webinár sa zameriava na to, ako môžu organizácie nastaviť jasnú operatívnu zodpovednosť a vlastníctvo AI systémov primeraným a prakticky realizovateľným spôsobom. Na základe praktických skúseností z oblasti ochrany osobných údajov, AI governance a compliance sa Petra Fernandes bude venovať modelom riadenia, ktoré fungujú v praxi — pre malé a stredné podniky aj pre väčšie organizácie. Pozornosť bude venovaná interným procesom, ktoré organizáciám pomáhajú udržať kontrolu nad AI systémami v čase, bez zbytočnej administratívnej záťaže.
Vysokovýkonné počítanie (HPC) prináša vedcom možnosť spracovať obrovské objemy dát a objaviť súvislosti, ktoré by inak ostali skryté. Dnes už nie je len nástrojom pre technické odbory – svoj význam nachádza aj v spoločenských a environmentálnych výskumoch. Príkladom je projekt, ktorý využil silu HPC na hlbšie pochopenie vzťahu medzi človekom, pôdou a krajinou.
Výzva
Pôda predstavuje jeden z najcennejších zdrojov, ktoré máme nie len ako priestor pre hospodárenie, ale ako základ kultúrnej identity, spoločenských vzťahov a kvality života. Spôsob, akým pôdu využívame, sa dnes mení rýchlejšie než kedykoľvek predtým. Tlak klimatických zmien, rozvoj infraštruktúry, požiadavky na bývanie či obnoviteľné zdroje energie vytvárajú nové napätia medzi ekonomickými záujmami, ochranou krajiny a verejným záujmom.
Základom spravodlivého a udržateľného rozhodovania je participácia, teda zapojenie ľudí do rozhodovacích procesov o pôde a krajine, v ktorej žijú. Ak však takéto procesy nie sú dobre navrhnuté, môžu viesť k nedôvere, konfliktom a krátkodobým riešeniam.
Výskumný tím zo Slovenskej poľnohospodárskej univerzity v Nitre preto hľadal spôsob, ako tieto rôzne perspektívy zachytiť, analyzovať a prepojiť. Cieľom bolo pochopiť pôdu ako spoločenský a kultúrny kapitál ako priestor, ktorý spája ekonomické, environmentálne aj ľudské hodnoty. Aby sa to podarilo, bolo potrebné spracovať rozsiahle súbory dát, ktoré zachytávajú verejné diskusie, postoje a hodnoty spojené s pôdou v európskom kontexte.
Riešenie
Aby bolo možné lepšie pochopiť, ako rôzni aktéri vnímajú pôdu a jej hodnotu, tím využil kombináciu dátovej analytiky a participatívnych prístupov. V rámci testovacej fázy boli spracované rozsiahle textové dáta, odborné dokumenty, mediálne výstupy a verejné vyjadrenia, ktoré odrážajú spoločenské postoje k pôde a krajine.
Na ich spracovanie bola použitá metóda text miningu, ktorá umožňuje identifikovať opakujúce sa témy, vzorce v jazyku a emocionálne postoje spojené s využívaním pôdy. Takýto prístup otvára priestor pre nové poznanie, v ktorom z dát možno odvodiť, ako sa formujú názory, kde vznikajú napätia a aké hodnoty ľudia spájajú s krajinou, v ktorej žijú.
Cieľom výskumu nie je len zhromaždiť informácie, ale premeniť ich na podklady, ktoré pomôžu budovať konsenzus medzi verejnosťou, odborníkmi a tvorcami politík.
Využitie HPC infraštruktúry
Analýza rozsiahlych textových dát si vyžadovala výkon, ktorý presahuje možnosti bežných pracovných staníc. Na spracovanie týchto dát preto výskumný tím využil výpočtovú infraštruktúru sprostredkovanú NSCC Slovakia.
V testovacej fáze boli výpočty realizované na superpočítači s využitím 128 core*h v prostredí R, čo umožnilo paralelné spracovanie veľkých datasetov v krátkom čase. Tento prístup výrazne skrátil čas potrebný na analýzu a zároveň umožnil aplikovať komplexné metodické prístupy typické pre sociálne a environmentálne dáta, napríklad modelovanie vzťahov medzi aktérmi, sledovanie výskytu kľúčových pojmov alebo vizualizáciu jazykových vzorcov.
Vďaka HPC výpočtom bolo možné:
spracovať rozsiahle textové súbory z rôznych zdrojov bez obmedzení kapacity,
získať prehľadné dátové výstupy, ktoré by na bežných počítačoch vznikali niekoľkonásobne dlhšie,
otestovať potenciál superpočítača pre spoločenskovedné a interdisciplinárne výskumy, ktoré spájajú ľudské správanie, dáta a priestorové väzby.
Výsledky
Testovacie výpočty potvrdili, že využitie výpočtovej infraštruktúry umožňuje efektívne spracovať a analyzovať rozsiahle textové dáta pochádzajúce z rôznych spoločenských, environmentálnych a kultúrnych zdrojov. Vďaka aplikácii metódy text miningu sa podarilo získať prehľad o kľúčových témach a vzťahoch medzi jednotlivými aktérmi zapojenými do rozhodovania o využívaní pôdy.
Analýza odhalila výrazné rozdiely v tom, ako rôzne skupiny vnímajú pôdu a krajinu, či už z pohľadu ekonomických, ekologických alebo hodnotových priorít. Tieto poznatky pomáhajú identifikovať oblasti, v ktorých dochádza k nedorozumeniam a konfliktom, a zároveň poukazujú na spoločné hodnoty, ktoré môžu slúžiť ako základ pre konštruktívny dialóg.
Výskum potvrdil, že využitie HPC infraštruktúry zefektívňuje spracovanie dát a umožňuje realizovať komplexné analýzy v čase, ktorý by bol pri bežných výpočtových prostriedkoch neúnosný. Tým vznikol spoľahlivý základ pre hlavnú fázu projektu, v ktorej budú výsledky testovacej etapy rozšírené o nové dátové zdroje a metodické prístupy.
Získané výstupy predstavujú prvý krok k vytvoreniu nástroja, ktorý dokáže prepojiť kvantitatívne dáta so spoločenskými súvislosťami a tým prispieť k lepšiemu pochopeniu vzťahu medzi ľuďmi, krajinou a rozhodnutiami o jej využívaní.
Dopad a budúcnosť
Projekt potvrdil, že vysokovýkonné výpočtové prostredie má zásadný prínos aj pre spoločenskovedné a environmentálne výskumy, ktoré pracujú s komplexnými, neštruktúrovanými dátami. Kombinácia sociálneho výskumu a výpočtovej analytiky vytvorila nový prístup, ktorý možno využiť pri lepšom porozumení vzťahu medzi človekom, krajinou a spoločenskými zmenami.
Z metodického hľadiska predstavuje projekt modelový príklad, ako môže HPC podporiť interdisciplinárny výskum, kde sa prelínajú údaje o prostredí, textové korpusy, legislatíva či verejné diskusie. Takýto prístup má veľký potenciál v rámci európskych iniciatív zameraných na udržateľné hospodárenie s pôdou a krajinné plánovanie.
Výsledky tak vytvárajú transferovateľný rámec, ktorý môže byť využitý v európskych aj národných projektoch, od výskumu verejných politík cez participatívne plánovanie až po hodnotenie spoločenských dopadov environmentálnych rozhodnutí.
Dáta dnes dokážu rozprávať príbehy, ktoré by sme ešte pred pár rokmi nevedeli zachytiť. Výskumný tím využil výpočtovú silu superpočítača na analýzu rozsiahlych textových dát, aby lepšie pochopil, ako spoločnosť vníma pôdu, krajinu a ich hodnotu. Projekt ukazuje, že budúcnosť pôdy je ukrytá v dátach a že vysokovýkonné výpočty môžu pomáhať nielen vedcom, ale aj komunitám, ktoré hľadajú rovnováhu medzi rozvojom a udržateľnosťou.
BeeGFS v praxi — Paralelné súborové systémy pre HPC, AI a dátovo náročné úlohy6 feb-Tento webinár predstaví BeeGFS, popredný paralelný súborový systém navrhnutý na podporu náročných HPC, AI a dátovo intenzívnych pracovných záťaží. Odborníci zo spoločnosti ThinkParQ vysvetlia, ako paralelné súborové systémy fungujú, aká je architektúra BeeGFS a ako sa používa v praxi v akademickom, výskumnom a priemyselnom prostredí.
Keď výrobná linka vie, čo sa stane o 10 minút5 feb-Každý výpadok na výrobnej linke znamená stres. Stroje stoja, ľudia čakajú, výroba sa spomaľuje a rozhodnutia sa robia pod tlakom. V potravinárstve, najmä pri výrobe plnených cestovinových výrobkov, kde proces prebieha v presne nadväzujúcich technologických krokoch, môže jeden nečakaný problém na konci linky zastaviť celý výrobný tok. Čo keby však výrobná linka dokázala vopred upozorniť, že o pár minút nastane problém? Alebo pomôcť rozhodnúť už počas zmeny, či sa ešte dnes oplatí plánovať balenie? Presne tieto otázky stáli na začiatku spolupráce výskumného tímu, ktorý spojil priemyselné dáta, umelú inteligenciu a superpočítačový výkon.
Kto vlastní AI v rámci organizácie? — Operatívna zodpovednosť5 feb-Tento webinár sa zameriava na to, ako môžu organizácie nastaviť jasnú operatívnu zodpovednosť a vlastníctvo AI systémov primeraným a prakticky realizovateľným spôsobom. Na základe praktických skúseností z oblasti ochrany osobných údajov, AI governance a compliance sa Petra Fernandes bude venovať modelom riadenia, ktoré fungujú v praxi — pre malé a stredné podniky aj pre väčšie organizácie. Pozornosť bude venovaná interným procesom, ktoré organizáciám pomáhajú udržať kontrolu nad AI systémami v čase, bez zbytočnej administratívnej záťaže.
Superpočítač pre každého: odvážte sa objaviť svet moderných výpočtov
Kedysi boli superpočítače tajomnou technológiou, ku ktorej mali prístup iba špičkoví vedci vo futuristických laboratóriách. Dnes však začína platiť úplne nový príbeh. Superpočítač môžu využívať aj obyčajní ľudia z univerzít, menších firiem či dokonca zo štátnej správy — všetci, ktorí potrebujú zvládnuť výpočty, na aké bežný počítač jednoducho nestačí.
Výskumníci pripravili jednoduchý používateľský manuál, ktorý krok za krokom vysvetľuje, ako sa dostať k dostupnému výpočtovému výkonu. Spravili to sami, s cieľom pomôcť každému, kto chce spracovávať veľké dáta, učiť umelú inteligenciu, modelovať prírodu alebo vytvárať nové technologické riešenia. Stačí sa prihlásiť, získať projekt a môžete skúmať, vynaliezať či riešiť tie najodvážnejšie nápady.
Nie je dôvod sa báť
Superpočítač si môžete predstaviť ako veľmi výkonný počítač s tisíckami mozgov, ktoré pracujú spoločne. Nenachádza sa vo vašej kancelárii a nesvieti vám pod nohami — ukrytý je v špecializovanom dátovom centre a vy ho ovládate pohodlne cez webový prehliadač.
Jednoducho si pripravíte úlohu a odošlete ju do systému. Kým sa superpočítač pustí do práce, vy môžete pokojne piť kávu. O pár minút či hodín dostanete výsledky, ktoré by váš notebook počítal celé týždne — alebo by ich vôbec nezvládol.
Komu môže pomôcť?
• študentom, ktorí spracúvajú veľké množstvo dát • vedcom testujúcim nové algoritmy umelej inteligencie • meteorológom pri predpovediach počasia • dizajnérom a inžinierom pri simuláciách a vývoji • lekárom a biológom pracujúcim s genómami či zdravotnými dátami • malým inovatívnym firmám bez vlastnej výpočtovej techniky
A mnoho ďalších oblastí čaká, kým sa ich niekto odváži preskúmať.
Prečo je to dôležité?
Potrebujeme nový impulz v inováciách. Máme múdrych ľudí, odvážne nápady a teraz aj nástroj, ktorý šetrí čas, peniaze a otvára cestu k svetovým výsledkom. Superpočítač je tu preto, aby zrýchlil vedecký pokrok aj rozvoj ekonomiky.
Už čoskoro prvý webinár
Autori manuálu chystajú praktický webinár určený úplným začiatočníkom. Ukážeme, že prístup k supervýpočtom zvládne doslova každý, kto sa nebojí nových možností. Cieľom je prebudiť zvedavosť a zbúrať bariéry medzi technológiou a jej používateľmi.
BeeGFS v praxi — Paralelné súborové systémy pre HPC, AI a dátovo náročné úlohy6 feb-Tento webinár predstaví BeeGFS, popredný paralelný súborový systém navrhnutý na podporu náročných HPC, AI a dátovo intenzívnych pracovných záťaží. Odborníci zo spoločnosti ThinkParQ vysvetlia, ako paralelné súborové systémy fungujú, aká je architektúra BeeGFS a ako sa používa v praxi v akademickom, výskumnom a priemyselnom prostredí.
Keď výrobná linka vie, čo sa stane o 10 minút5 feb-Každý výpadok na výrobnej linke znamená stres. Stroje stoja, ľudia čakajú, výroba sa spomaľuje a rozhodnutia sa robia pod tlakom. V potravinárstve, najmä pri výrobe plnených cestovinových výrobkov, kde proces prebieha v presne nadväzujúcich technologických krokoch, môže jeden nečakaný problém na konci linky zastaviť celý výrobný tok. Čo keby však výrobná linka dokázala vopred upozorniť, že o pár minút nastane problém? Alebo pomôcť rozhodnúť už počas zmeny, či sa ešte dnes oplatí plánovať balenie? Presne tieto otázky stáli na začiatku spolupráce výskumného tímu, ktorý spojil priemyselné dáta, umelú inteligenciu a superpočítačový výkon.
Kto vlastní AI v rámci organizácie? — Operatívna zodpovednosť5 feb-Tento webinár sa zameriava na to, ako môžu organizácie nastaviť jasnú operatívnu zodpovednosť a vlastníctvo AI systémov primeraným a prakticky realizovateľným spôsobom. Na základe praktických skúseností z oblasti ochrany osobných údajov, AI governance a compliance sa Petra Fernandes bude venovať modelom riadenia, ktoré fungujú v praxi — pre malé a stredné podniky aj pre väčšie organizácie. Pozornosť bude venovaná interným procesom, ktoré organizáciám pomáhajú udržať kontrolu nad AI systémami v čase, bez zbytočnej administratívnej záťaže.
Slovenskí vedci spájajú sily v boji proti stafylokokovej infekcii
Baktérie patria medzi najmenších, no zároveň najnebezpečnejších protivníkov v medicíne. Kým niektoré sú neškodné, iné dokážu spôsobiť vážne infekcie, ktorých včasná diagnostika rozhoduje o úspechu liečby. Tím slovenských vedcov zo SAV preto skúma, ako odhaliť prítomnosť baktérií priamo v tkanive, rýchlo, presne a bez potreby invazívnych zásahov. Výskum spája konfokálnu Ramanovu mikroskopiu, fotodynamickú terapiu a analýzu dát na superpočítači.
Výzva: Rozpoznať, či je tkanivo napadnuté baktériami, nie je vždy jednoduché. V raných štádiách infekcie sa rozdiely medzi zdravými a poškodenými bunkami často nedajú zachytiť ani pod mikroskopom. Klasické biochemické testy síce dokážu potvrdiť prítomnosť baktérií, no zvyčajne sú časovo náročné a vyžadujú odber vzoriek.
Riešenie: Aby bolo možné identifikovať jemné rozdiely medzi zdravým a infikovaným tkanivom, výskumníci sa rozhodli prepojiť experimentálne merania s pokročilým spracovaním dát. Ramanove spektrá získané z rôznych hĺbok a oblastí tkaniva obsahovali obrovské množstvo informácií, ktoré nebolo možné spoľahlivo vyhodnotiť bežnými vizuálnymi metódami.
Vedci preto chceli overiť, či touto metódou možno spoľahlivo rozlíšiť zdravé tkanivo od tkaniva infikovaného baktériou Staphylococcus aureus, ktorá patrí medzi najčastejších pôvodcov zápalov kože a slizníc. Zároveň sa výskumníci zamerali na sledovanie účinnosti fotodynamickej liečby – experimentálnej terapie založenej na uhlíkových kvantových bodkách, ktoré po osvietení modrým viditeľným svetlom ničia baktérie bez poškodenia zdravých buniek.
Využitie HPC infraštruktúry
Tím využil matematickú analýzu založenú na euklidovskom kosínuse zo štvorcov prvých diferencovaných hodnôt, ktorá umožňuje porovnávať podobnosť medzi spektrami po ich transformácii. Táto metóda eliminuje vplyv pozadia, zvýrazňuje chemické zmeny v štruktúre tkaniva a umožňuje presne identifikovať rozdiely spôsobené prítomnosťou baktérií alebo účinkom liečby.
Na spracovanie rozsiahlych datasetov boli využité výpočtové kapacity superpočítača. Vďaka paralelnému spracovaniu dát bolo možné rýchlo analyzovať stovky meraní z rôznych vrstiev tkaniva a vizualizovať ich podobnosť v prehľadnej matici výsledkov. Takýto prístup by bol pri manuálnom vyhodnocovaní prakticky nemožný.
Riešenie vzniklo vďaka úzkej spolupráci odborníkov z viacerých disciplín – biológie, fyziky, materiálového výskumu aj výpočtovej vedy. Rekonštituované tkanivá pokožky boli zabezpečené laboratóriami SK-NETVAL na Ústave experimentálnej farmakológie a toxikológie, Centra experimentálnej medicíny SAV, v.v.i. ktoré vykonalo aj expozíciu testovaným látkam. Fotodynamická liečba bola aplikovaná tímom z Ústavu polymérov SAV, v.v.i. a Ramanove dáta boli namerané na Fyzikálnom ústave SAV, v.v.i. v spolupráci s Centrom pre využitie pokročilých materiálov.
Výsledky
Analýza spektrálnych dát ukázala, že medzi zdravým a infikovaným tkanivom existujú výrazné chemické rozdiely, ktoré možno zachytiť pomocou Ramanovej mikroskopie. Vzorky infikované baktériou Staphylococcus aureus vykazovali odlišné spektrálne charakteristiky vo všetkých skúmaných hĺbkach.
Zvlášť zaujímavé boli výsledky u vzoriek, ktoré prešli fotodynamickou liečbou. Po aplikácii uhlíkových kvantových bodov a následnej aktivácii modrým svetlom sa chemické spektrá výrazne priblížili k hodnotám zdravého tkaniva. To naznačuje, že liečba účinne potláča bakteriálnu infekciu bez poškodenia samotných buniek.
Použitý algoritmus sa ukázal ako spoľahlivý a rýchly nástroj na porovnávanie spektrálnych dát. Vďaka jeho implementácii v HPC prostredí bolo možné spracovať veľké množstvo meraní automaticky a vyhodnotiť výsledky objektívne, bez subjektívneho zásahu výskumníka.
Dopad a potenciál do budúcnosti
Projekt priniesol nové poznatky o možnostiach využitia svetla a dátovej analýzy v medicínskej diagnostike. Ukázal, že spojenie Ramanovej mikroskopie s výpočtovými metódami umožňuje nielen identifikovať bakteriálnu infekciu v tkanive, ale aj sledovať účinnosť liečby v reálnom čase.
V budúcnosti môže tento prístup nájsť uplatnenie pri vývoji nových antibakteriálnych terapií či pri predklinickom testovaní liečiv, kde je potrebné rýchlo a presne zhodnotiť zmeny v štruktúre tkaniva bez invazívnych zásahov. Výskumný tím zároveň plánuje rozšíriť metodiku na iné typy baktérií a tkanív a využiť výkon superpočítača aj na testovanie pokročilých algoritmov umelej inteligencie, ktoré by mohli analýzu ešte viac zautomatizovať.
Projekt je dôkazom, že prepojenie biomedicíny, fyziky, materiálového výskumu a výpočtovej vedy otvára nové možnosti pre diagnostiku a liečbu chorôb. Slovenské výskumné tímy tak nielen potvrdzujú svoju odbornú úroveň, ale aj prispievajú k posunu hraníc modernej medicíny.
BeeGFS v praxi — Paralelné súborové systémy pre HPC, AI a dátovo náročné úlohy6 feb-Tento webinár predstaví BeeGFS, popredný paralelný súborový systém navrhnutý na podporu náročných HPC, AI a dátovo intenzívnych pracovných záťaží. Odborníci zo spoločnosti ThinkParQ vysvetlia, ako paralelné súborové systémy fungujú, aká je architektúra BeeGFS a ako sa používa v praxi v akademickom, výskumnom a priemyselnom prostredí.
Keď výrobná linka vie, čo sa stane o 10 minút5 feb-Každý výpadok na výrobnej linke znamená stres. Stroje stoja, ľudia čakajú, výroba sa spomaľuje a rozhodnutia sa robia pod tlakom. V potravinárstve, najmä pri výrobe plnených cestovinových výrobkov, kde proces prebieha v presne nadväzujúcich technologických krokoch, môže jeden nečakaný problém na konci linky zastaviť celý výrobný tok. Čo keby však výrobná linka dokázala vopred upozorniť, že o pár minút nastane problém? Alebo pomôcť rozhodnúť už počas zmeny, či sa ešte dnes oplatí plánovať balenie? Presne tieto otázky stáli na začiatku spolupráce výskumného tímu, ktorý spojil priemyselné dáta, umelú inteligenciu a superpočítačový výkon.
Kto vlastní AI v rámci organizácie? — Operatívna zodpovednosť5 feb-Tento webinár sa zameriava na to, ako môžu organizácie nastaviť jasnú operatívnu zodpovednosť a vlastníctvo AI systémov primeraným a prakticky realizovateľným spôsobom. Na základe praktických skúseností z oblasti ochrany osobných údajov, AI governance a compliance sa Petra Fernandes bude venovať modelom riadenia, ktoré fungujú v praxi — pre malé a stredné podniky aj pre väčšie organizácie. Pozornosť bude venovaná interným procesom, ktoré organizáciám pomáhajú udržať kontrolu nad AI systémami v čase, bez zbytočnej administratívnej záťaže.
Superpočítač pomohol urýchliť vývoj ekologickej výroby vodíka
Vodík patrí medzi kľúčové prvky pre prechod na udržateľnú energetiku. Jeho výroba bez emisií uhlíka predstavuje jeden z pilierov budúcnosti zelenej energie – od priemyslu až po dopravu. No nájsť efektívny a cenovo dostupný spôsob, ako ho vyrábať, je vedecká výzva, ktorá spája chémiu, materiálový výskum aj výpočtové modelovanie.
V tejto success story sa pozrieme na to, ako slovenské vedkyne využili výpočtovú silu superpočítača NSCC Slovakia, aby urýchlili vývoj lacnejšieho a ekologickejšieho katalyzátora pre výrobu vodíka. Kombináciou experimentov a HPC simulácií sa im podarilo pochopiť správanie atómov na povrchu materiálu, ktorý by v budúcnosti mohol nahradiť drahé kovy ako platina.
Tento výskum je ukážkou, ako HPC (High-Performance Computing) pomáha posúvať hranice vedeckého poznania a podporuje prechod k čistejšej a udržateľnejšej energetike – priamo zo slovenských laboratórií.
Výzva: Vodík sa čoraz viac vníma ako „palivo budúcnosti“ – bez uhlíka, čistý a využiteľný v priemysle, energetike aj doprave. Aby sa však stal skutočne dostupným, je potrebné ho vyrábať lacnejšie a efektívnejšie. Tradične sa na to používajú drahé kovy ako platina, no tie nie sú vhodné pre masové nasadenie. Vedci preto hľadajú nové materiály, ktoré dokážu katalyzovať (urýchľovať) reakciu, pri ktorej sa vodík uvoľňuje z vody.
Riešenie: Tím vedkýň z Ústavu chemických vied Univerzity Pavla Jozefa Šafárika v Košiciach a Ústavu materiálového výskumu Slovenskej akadémie vied sa zameral na molybdén-fosfid (MoP) – lacný a dostupný materiál s potenciálom nahradiť drahé kovy. Skúmali, ako MoP funguje v rôznych prostrediach – od kyslých až po zásadité – a prečo dokáže udržať svoju účinnosť.
Na to nestačilo len laboratórium. Reakcie na povrchu katalyzátora sú totiž extrémne rýchle a prebiehajú na úrovni atómov. Aby sa im porozumelo, bolo potrebné prepojiť experimenty s výpočtami na superpočítači.
Využitie HPC infraštruktúry
Spolupráca s NSCC Slovakia a využitie superpočítača umožnilo vedkyniam vytvoriť počítačové modely katalyzátora a simulovať, čo sa deje, keď sa na jeho povrch viaže vodík.
Vďaka HPC sa podarilo:
odhaliť mechanizmus reakcie – ako sa atómy vodíka správajú na povrchu MoP,
overiť stabilitu materiálu v rôznych prostrediach,
predpovedať možnosti vylepšenia katalyzátora ešte pred tým, ako sa vyrobí v laboratóriu.
Dopad
Výsledok je dôležitý z viacerých dôvodov:
MoP je lacnejší a dostupnejší než platina, čo môže znížiť cenu výroby vodíka.
Materiál funguje v širokom spektre prostredí, čo znamená, že by mohol byť nasadený v rôznych typoch elektrolyzérov po celom svete.
Kombinácia experimentu a HPC simulácií šetrí čas aj náklady – vedci vedia rýchlejšie vybrať najlepšie riešenia.
Tento výskum ukazuje, že HPC nie je len pre fyzikov či informatikov, ale dokáže pomôcť aj v oblasti zelenej energetiky. Vďaka výpočtovej sile superpočítača, slovenské vedkyne prispeli k svetovému poznaniu o ekologickej výrobe vodíka a otvorili cestu k novým technológiám, ktoré môžu mať priamy vplyv na energetickú nezávislosť a udržateľnosť.
BeeGFS v praxi — Paralelné súborové systémy pre HPC, AI a dátovo náročné úlohy6 feb-Tento webinár predstaví BeeGFS, popredný paralelný súborový systém navrhnutý na podporu náročných HPC, AI a dátovo intenzívnych pracovných záťaží. Odborníci zo spoločnosti ThinkParQ vysvetlia, ako paralelné súborové systémy fungujú, aká je architektúra BeeGFS a ako sa používa v praxi v akademickom, výskumnom a priemyselnom prostredí.
Keď výrobná linka vie, čo sa stane o 10 minút5 feb-Každý výpadok na výrobnej linke znamená stres. Stroje stoja, ľudia čakajú, výroba sa spomaľuje a rozhodnutia sa robia pod tlakom. V potravinárstve, najmä pri výrobe plnených cestovinových výrobkov, kde proces prebieha v presne nadväzujúcich technologických krokoch, môže jeden nečakaný problém na konci linky zastaviť celý výrobný tok. Čo keby však výrobná linka dokázala vopred upozorniť, že o pár minút nastane problém? Alebo pomôcť rozhodnúť už počas zmeny, či sa ešte dnes oplatí plánovať balenie? Presne tieto otázky stáli na začiatku spolupráce výskumného tímu, ktorý spojil priemyselné dáta, umelú inteligenciu a superpočítačový výkon.
Kto vlastní AI v rámci organizácie? — Operatívna zodpovednosť5 feb-Tento webinár sa zameriava na to, ako môžu organizácie nastaviť jasnú operatívnu zodpovednosť a vlastníctvo AI systémov primeraným a prakticky realizovateľným spôsobom. Na základe praktických skúseností z oblasti ochrany osobných údajov, AI governance a compliance sa Petra Fernandes bude venovať modelom riadenia, ktoré fungujú v praxi — pre malé a stredné podniky aj pre väčšie organizácie. Pozornosť bude venovaná interným procesom, ktoré organizáciám pomáhajú udržať kontrolu nad AI systémami v čase, bez zbytočnej administratívnej záťaže.
Výpočtová sila HPC prináša nové možnosti v ochrane medveďa hnedého
Vysokovýkonné počítanie (HPC) je kľúčová technológia modernej doby, ktorá zásadne mení spôsob riešenia zložitých problémov. Superpočítače spracujú obrovské objemy dát a miliardy výpočtov za sekundu – úlohy, ktoré by bežným počítačom trvali mesiace, zvládnu v priebehu hodín. Vďaka tomu urýchľujú vedecké objavy, umožňujú simulácie od molekulárnych interakcií po klimatické zmeny a otvárajú cestu k využitiu umelej inteligencie. HPC je motorom inovácií a konkurencieschopnosti v medicíne, priemysle, energetike aj ochrane životného prostredia.
Nie je to však len abstraktný pojem – jeho prínosy vidno v konkrétnych aplikáciách. Slovenskí výskumníci vďaka HPC natrénovali komplexné modely umelej inteligencie na tisíckach záberov z kamerových pascí, aby rozpoznávali hnedého medveďa. Proces, ktorý by trval celé týždne, superpočítač zvládol za niekoľko hodín. Výsledkom je success story: spojenie moderných technológií s ochranou prírody, zvýšením bezpečnosti ľudí a efektívnejšou prácou vedcov.
Výzva:
Hnedý medveď (Ursus arctos) patrí medzi ikonické, ale aj kontroverzné druhy v našej prírode. Na Slovensku je ich populácia relatívne stabilná, no sledovanie ich pohybu a správania je dôležité pre ochranu prírody aj bezpečnosť ľudí. Tradičné metódy, ako vizuálne pozorovania či stopovanie, sú časovo náročné a často nepresné. Moderné kamerové pasce dokážu zachytiť tisíce záberov z lesa, no ručne ich vyhodnotiť je prakticky nemožné.
Riešenie: Tím výskumníkov z Fakulty prírodných vied a informatiky UKF v Nitre vyvinul systém umelej inteligencie, ktorý sa snaží automaticky rozpoznať, či je na obrázku medveď alebo nie. Použili na tokonvolučné neurónové siete (CNN)– rovnaký princíp, na akom funguje napríklad rozpoznávanie tvárí v mobiloch.
Na tréning modelu zozbierali:
4 974 obrázkov s medveďom
656 obrázkov bez medveďa (iné zvieratá alebo prázdny les)
Dáta poskytla Slovenská poľovnícka komora, Národná zoologická záhrada v Bojniciach a Štátna ochrana prírody SR.
Využitie HPC infraštruktúry: Tréning umelej inteligencie na takýchto dátach je mimoriadnevýpočtovo náročný. Vyžaduje opakované spracovanie tisícov obrázkov vo vysokom rozlíšení (512×512 px), ladenie parametrov a skúšanie rôznych architektúr modelov.
Bežný počítač by na tento proces potreboval týždne. Vďaka superpočítaču a NSCC Slovakia bolo možné:
natrénovať modely za niekoľko hodín až dní,
porovnať viacero prístupov (ResNet, MobileNet, YOLOv8/v10),
analyzovať slabé miesta modelu a vizualizovať, čo sa „naučil“.
HPC umožnilo vedcom experimentovať rýchlo a efektívne – a teda posunúť sa od základného modelu k metodike použiteľnej aj v budúcnosti.
Výsledky
Model sa naučil rozpoznávať základné črty medveďa a dosahoval vysokú presnosť počas tréningu (>90 %)
V reálnych podmienkach (nočné zábery, šum, pohyb kamery) však presnosť zatiaľ nestačí na nasadenie v teréne
Dopad a budúcnosť: Aj keď výsledky nie sú zatiaľ dokonalé, výskum ukazuje, že umelá inteligencia má veľký potenciál v ochrane prírody. Automatická analýza kamerových pascí by v budúcnosti mohla:
pomôcť monitorovať početnosť a pohyb medveďov
znížiť riziko konfliktov s ľuďmi
ušetriť vedcom stovky hodín manuálnej práce
Ďalší krok je doplnenie datasetu a využitie syntetických dát – teda počítačom generovaných obrázkov, ktoré rozšíria tréningovú databázu. Aj tu bude superpočítač kľúčový, keďže generovanie a spracovanie takýchto dát je opäť náročné.
Vďaka superpočítaču sa slovenským vedcom podarilo vybudovať prvý krok k systému, ktorý môže v budúcnosti uľahčiť monitorovanie medveďa hnedého – druhu, ktorý je súčasťou slovenskej prírody aj kultúrneho dedičstva.
BeeGFS v praxi — Paralelné súborové systémy pre HPC, AI a dátovo náročné úlohy6 feb-Tento webinár predstaví BeeGFS, popredný paralelný súborový systém navrhnutý na podporu náročných HPC, AI a dátovo intenzívnych pracovných záťaží. Odborníci zo spoločnosti ThinkParQ vysvetlia, ako paralelné súborové systémy fungujú, aká je architektúra BeeGFS a ako sa používa v praxi v akademickom, výskumnom a priemyselnom prostredí.
Keď výrobná linka vie, čo sa stane o 10 minút5 feb-Každý výpadok na výrobnej linke znamená stres. Stroje stoja, ľudia čakajú, výroba sa spomaľuje a rozhodnutia sa robia pod tlakom. V potravinárstve, najmä pri výrobe plnených cestovinových výrobkov, kde proces prebieha v presne nadväzujúcich technologických krokoch, môže jeden nečakaný problém na konci linky zastaviť celý výrobný tok. Čo keby však výrobná linka dokázala vopred upozorniť, že o pár minút nastane problém? Alebo pomôcť rozhodnúť už počas zmeny, či sa ešte dnes oplatí plánovať balenie? Presne tieto otázky stáli na začiatku spolupráce výskumného tímu, ktorý spojil priemyselné dáta, umelú inteligenciu a superpočítačový výkon.
Kto vlastní AI v rámci organizácie? — Operatívna zodpovednosť5 feb-Tento webinár sa zameriava na to, ako môžu organizácie nastaviť jasnú operatívnu zodpovednosť a vlastníctvo AI systémov primeraným a prakticky realizovateľným spôsobom. Na základe praktických skúseností z oblasti ochrany osobných údajov, AI governance a compliance sa Petra Fernandes bude venovať modelom riadenia, ktoré fungujú v praxi — pre malé a stredné podniky aj pre väčšie organizácie. Pozornosť bude venovaná interným procesom, ktoré organizáciám pomáhajú udržať kontrolu nad AI systémami v čase, bez zbytočnej administratívnej záťaže.
Klasifikácia intentov pre bankové chatboty pomocou veľkých jazykových modelov
Tento článok hodnotí použitie veľkých jazykových modelov na klasifikáciu intentov v chatbote s preddefinovanými odpoveďami, určenom pre webové stránky bankového sektora. Zameriavame sa na efektivitu modelu SlovakBERT a porovnávame ho s použitím multilingválnych generatívnych modelov, ako sú Llama 8b instruct a Gemma 7b instruct, v ich predtrénovaných aj fine-tunovaných verziách. Výsledky naznačujú, že SlovakBERT dosahuje lepšie výsledky než ostatné modely, a to v presnosti klasifikácie ako aj v miere falošne pozitívnych predikcií.
Príchod digitálnych technológií výrazne ovplyvnil aj sektor zákazníckych služieb, pričom výrazný posun je pozorovateľný hlavne v integrácii chatbotov do zákazníckej podpory. Tento trend možno pozorovať najmä na webových stránkach firiem, kde chatboty slúžia na zodpovedanie zákazníckych otázok týkajúcich sa daného biznisu. Títo virtuálni asistenti sú kľúčoví pri poskytovaní základných informácií zákazníkom, čím znižujú množstvo pracovných úloh, ktoré by inak museli riešiť pracovníci zákazníckej podpory.
V oblasti vývoja chatbotov bolo možné v posledných rokoch pozorovať obrovský nárast využitia generatívnej umelej inteligencie na tvorbu personalizovaných odpovedí. Napriek tomuto technologickému pokroku niektoré firmy stále uprednostňujú štruktúrovaný prístup k interakciám chatbota. V tomto prípade sú odpovede vopred definované, nie generované počas interakcie. Týmto je zaručená presnosť informácií v odpovediach bota a zároveň je zabezpečené konzistentné dodržiavanie komunikačného štýlu danej firmy. Vývoj chatbotov zvyčajne zahŕňa definovanie špecifických kategórií nazývaných intenty. Každý intent predstavuje konkrétny dopyt zákazníka, čo umožňuje chatbotu poskytnúť adekvátnu odpoveď. Najväčšou výzvou tohto systému je preto presná identifikácia zákazníkovho zámeru (intentu) na základe jeho textového vstupu.
Popis problému
Tento článok je výsledkom spoločného úsilia Národného kompetenčného centra pre vysokovýkonné počítanie a spoločnosti nettle, s.r.o., ktorá je slovenským start-upom zameraným na spracovanie prirodzeného jazyka, chatboty a voiceboty. V rámci tejto spolupráce sa sústredíme na návrh jazykového klasifikátora chatbota pre online prostredie banky. Na spracovanie rozsiahlych výpočtov potrebných na vývoj tohto riešenia boli použité zdroje HPC systému Devana.
V chatbotoch spomenutých v úvode je preferovaná vopred definovaná odpoveď namiesto generovanej. Kľúčovým krokom v počiatočnej fáze vývoja takéhoto chatbota je preto identifikácia súboru intentov v danej doméne. Tento krok je zásadný pre správne fungovanie chatbota a pre poskytovanie presných odpovedí na každý konkrétny intent. Takéto chatboty bývajú vysoko sofistikované a často zahŕňajú široké spektrum intentov, niekedy až niekoľko stoviek. Vývojári vytvárajú rôzne ukážkové frázy pre každý intent, ktoré by mohli používatelia použiť pri otázkach súvisiacich s konkrétnym zámerom. Tieto frázy zohrávajú zásadnú úlohu pri definovaní jednotlivých intentov a slúžia ako trénovacie dáta pre klasifikačný algoritmus.
Náš základný model na klasifikáciu intentov, ktorý nevyužíva hlboké učenie, dosahuje presnosť 67% na reálnych testovacích dátach, podrobnejšie popísaných v ďalšej časti tohto článku. Cieľom práce je vyvinúť model založený na hlbokom učení, ktorý prekoná výkon tohto základného modelu.
Prezentujeme dva rôzne prístupy k riešeniu tejto úlohy. Prvý z nich skúma aplikáciu modelu BERT (Bidirectional Encoder Representations from Transformers), ako základ pre klasifikáciu intentov. Druhý prístup sa zameriava na využitie generatívnych veľkých jazykových modelov (LLM z angl. large language models) pomocou prompt inžinieringu na identifikáciu vhodného intentu, pričom skúmame využitie týchto modelov s fine-tuningom aj bez neho.
Dáta
Naša trénovacia dátová sada pozostáva z párov (text, intent), kde každý text predstavuje príklad dopytu adresovaného chatbotovi, ktorý vyvolá príslušný intent. Táto dátová množina je precízne skomponovaná tak, aby pokrývala celé spektrum preddefinovaných intentov, zaručujúc dostatočný objem textových príkladov pre každú kategóriu.
V našej štúdii pracujeme s rozsiahlym súborom intentov, pričom každý je doplnený o príslušné príklady dopytov. Používame dve trénovacie množiny: ”simple” množinu, ktorá obsahuje 10 až 20 príkladov pre každý intent, a ”generated” množinu, ktorá zahŕňa 20 až 500 príkladov na intent. Množina ”generated” poskytuje väčší objem dát, avšak s opakujúcimi sa frázami v rámci jednotlivých intentov.
Tieto zoskupenia dát sú pripravené na spracovanie supervizovanými klasifikačnými modelmi. Tento proces zahŕňa konverziu množiny intentov do číselného poradia a priradenie každého textového príkladu k príslušnému číslu intentu, po čom nasleduje samotné trénovanie modelu.
Okrem trénovacej sady využívame aj testovaciu dátovú sadu, ktorá obsahuje približne 300 párov (text, intent), získaných z reálnej prevádzky chatbota, čo nám poskytuje autentický obraz interakcií používateľov. Všetky texty v tejto dátovej sade sú manuálne anotované ľudskými anotátormi. Táto sada slúži na hodnotenie výkonu našich klasifikačných modelov porovnávaním predikovaných intentov so skutočnými.
Všetky spomínané dátové množiny sú vlastníctvom spoločnosti nettle, s.r.o., a preto nebudú detailnejšie diskutované.
Vyhodnotenie
V tomto článku sú modely hodnotené predovšetkým na základe ich presnosti meranej na reálnej testovacej dátovej sade obsahujúcej 300 pozorovaní. Každé z týchto pozorovaní patrí do jedného z preddefinovaných intentov, na ktorých boli modely trénované. Presnosť počítame ako pomer správne klasifikovaných vzoriek k celkovému počtu vzoriek. Pre modely, ktorých výstupom je aj pravdepodobnosť predikcie, ako napr. BERT, je vzorka považovaná za správne klasifikovanú iba vtedy, ak jej pravdepodobnosť predikcie do správnej triedy (intentu) prekročí stanovený prah.
Druhotnou metriku používanou na vyhodnotenie modelov je miera falošne pozitívnych predikcií (FPR z angl. false positive rate), kde je preferovaná čo najnižšia hodnota. Na vyhodnotenie tejto metriky používame syntetické dáta, ktoré nepatria do žiadneho intentu. Očakáva sa, že modely budú v tomto prípade produkovať nízke hodnoty pravdepodobnosti predikcie (pre model BERT), alebo klasifikovať tieto vzorky do triedy ”invalid” (pre generatívne jazykové modely).
V celom článku sa pod pojmami presnosť a FPR rozumejú metriky vypočítané týmto spôsobom.
Prístup 1: Klasifikácia intentov pomocou modelov BERT SlovakBERT
Keďže dáta sú v slovenskom jazyku, bolo nevyhnutné vybrať model, ktorý ”rozumie” slovenčine. Preto sme sa rozhodli pre model s názvom SlovakBERT [5], ktorý je prvým verejne dostupným veľkým modelom pre slovenčinu.
Na dosiahnutie najlepšieho výkonu sme vykonali viacero experimentov s optimalizáciou tohto modelu. Tieto pokusy zahŕňali ladenie hyperparametrov, rôzne techniky predspracovania textu a, hlavne, výber trénovacích dát.
Vzhľadom na existenciu dvoch trénovacích dátových množín s relevantnými intentami (”simple” a ”generated”), ako prvé boli vykonané experimenty s rôznymi pomermi vzoriek z týchto dvoch množín. Výsledky ukázali, že optimálny výkon modelu sa dosahuje pri trénovaní pomocou “generated” dátovej sady.
Po výbere dátovej množiny boli vykonané ďalšie experimenty, zamerané na výber správneho predspracovania dát. Testovali sme nasledujúce možnosti:
prevod celého textu na malé písmená,
odstránenie diakritiky z textu
odstránenie interpunkcie z textu.
Ďalej boli testované aj kombinácie týchto troch možností. Keďže použitý model SlovakBERT je citlivý na veľké a malé písmená a tiež na používanie diakritiky, všetky tieto transformácie textu ovplyvňujú celkový výkon modelu trénovaného na týchto dátach.
Zistenia z experimentov odhalili, že najlepšie výsledky sú dosiahnuté, keď je text prevedený na malé písmená a je odstránená diakritika aj interpunkcia.
Ďalším skúmaným aspektom počas experimentálnej fázy bol výber vrstiev, ktoré budú fine-tunované. Testovali sme fine-tunovanie štvrtiny, polovice, troch štvrtín a celého modelu, pričom sme skúmali aj variácie ako napríklad fine-tunovanie celého modelu niekoľko epoch a následné fine-tunovanie zvoleného počtu vrstiev až do konvergencie. Výsledky ukázali, že priemerné zlepšenie získané týmito úpravami je štatisticky nevýznamné. Keďže cieľom je vytvoriť čo najjednoduchší algoritmus, tieto zmeny neboli vo výslednom modeli realizované.
Každý experiment bol vykonaný trikrát až päťkrát na zabezpečenie spoľahlivosti výsledkov.
Najlepší model dosiahol priemernú presnosť 77.2% so smerodajnou odchýlkou 0.012.
Banking-Tailored BERT
Keďže naše dáta obsahujú terminológiu špecifickú pre bankový sektor, rozhodli sme sa využiť model BERT, ktorý bol fine-tunovaný špeciálne na dátach pre sektor bankovníctva a financií. Avšak, keďže tento model rozumie výlučne angličtine, bolo nutné trénovanie dáta preložiť.
Na preklad sme použili DeepL API[1]. Najprv sme preložili trénovaciu, validačnú a testovaciu množinu. Vzhľadom na povahu angličtiny, nebol text ďalej upravovaný (predspracovaný), ako tomu bolo v prípade použitia modelu SlovakBERT v sekcii 2.3.1. Následne sme optimalizovali model BERT pre bankovníctvo na preložených dátach.
Fine-tunovaný model dosiahol sľubné počiatočné výsledky, s presnosťou mierne prevyšujúcou 70%. Bohužiaľ, ďalšie trénovanie a ladenie hyperparametrov nepriniesli zlepšenie. Testovali sme aj ďalšie modely trénované na anglickom jazyku, no všetky priniesli podobné výsledky. Použitie anglického modelu sa ukázalo ako nedostatočné na dosiahnutie lepších výsledkov, pravdepodobne kvôli chybám v preklade. Preklad obsahoval nepresnosti spôsobené ”šumom” v dátach, hlavne v testovacej dátovej sade.
Prístup 2: Klasifikáca intentov pomocou veľkých jazykových modelov
Ako bolo uvedené v sekcii 2, okrem fine-tunovania modelu SlovakBERT a ďalších modelov založených na architektúre BERT, sme skúmali aj využitie generatívnych veľkých jazykových modelov pre klasifikáciu intentov. Zamerali sme sa na inštrukčné modely, kvôli ich schopnosti pracovať s inštrukčnými promptami a tiež schopnosti odpovedať na otázky.
Keďže neexistujú verejne dostupné inštrukčné modely trénované výhradne na slovenčinu, vybrali sme niekoľko multilingválnych modelov: Gemma 7b instruct [6] a Llama3 8b instruct [1]. Na porovnanie ukážeme aj výsledky proprierárneho modelu OpenAI gpt-3.5-turbo, používaného za rovnakých podmienok ako vyššie uvedené verejne dostupné modely.
Podobne ako v článku [4], našou stratégiou je využitie promptov s možnosťami intentov a ich popismi na vykonanie predikcie intentu v režime zero-shot. Očakávame, že výstupom bude možnosť so správnym intentom. Keďže kompletná sada intentov s ich popismi by produkovala veľmi dlhé prompty, používame náš základný model na výber troch najlepších intentov. Dáta pre tieto modely boli pripravené nasledovne:
Každý prompt obsahuje vetu (otázku od používateľa) v slovenčine, štyri možnosti intentov s popismi a inštrukciu na výber najvhodnejšej možnosti. Prvé tri možnosti intentov sú vybrané základným modelom, ktorý má hodnotu Top-3 recall metriky 87%. Posledná možnosť je vždy ”invalid” a mala by byť vybraná, keď žiadna z prvých troch možností nezodpovedá otázke používateľa, alebo ide o otázku mimo rozsahu intentov. V tomto nastavení je najvyššia možná dosiahnuteľná presnosť 87%.
Implementácia predtrénovaného LLM
Na úvod sme implementovali neoptimalizovaný predtrénovaný veľký jazykový model, čo znamená, že daný inštrukčný model bol použitý bez fine-tunovania na našich dátach.
Na zlepšenie výsledkov sme využili prompt inžiniering. Tento proces jemne preformuluje prompt, v našom prípade sme upravovali pokyny pre model, aby odpovedal napr. iba názvom intentu alebo číslom/písmenom, ktoré označuje správnu možnosť. Rovnako sme skúmali rôzne možnosti umiestnenia promptu (rola používateľa/rola systému) a experimentovali sme s rozdelením promptu, kde pokyn pre model bol umiestnený v úlohe systému a otázka spolu s možnosťami v úlohe používateľa.
Napriek týmto snahám tento prístup nepriniesol lepšie výsledky ako fine-tuning modelu SlovakBERT. Avšak, pomohol nám identifikovať najefektívnejšie formáty promptov pre fine-tuning týchto inštrukčných modelov. Tieto kroky boli zásadné pri analyzovaní správania modelov a ich vzorcov odpovedí, čo sme následne využili pri tvorbe stratégií na fine-tunovanie týchto modelov.
Optimalizácia LLM
Prompty, na ktoré predtrénované modely reagovali najlepšie, boli využité pri fine-tuningu modelov. Keďže predtrénované veľké jazykové modely nevyžadujú rozsiahle trénovacie dátové množiny, použili sme našu ”simple” dátovú množinu, podrobne opísanú v sekcii 2.1. Model bol následne fine-tunovaný tak, aby na zadané prompty odpovedal príslušnými názvami intentov.
Kvôli veľkosti vybraných modelov sme použili metódu nazývanú parameter efficient training (PEFT) [2], čo je stratégia zameraná na efektívne využívanie pamäte a znižovanie času výpočtu. PEFT trénuje len malú podmnožinu parametrov, s hodnotami zvyšných vôbec nehýbe, čím sa znižuje počet trénovateľných parametrov. Konkrétne sme použili prístup Low-Rank Adaptation (LoRA) [3].
Na dosiahnutie najlepšieho výkonu boli ladené aj hyperparametre, vrátane rýchlosti učenia, veľkosti dávky, parametra lora alpha v konfigurácii LoRA, počtu krokov akumulácie gradientu a formulácie ”chat template”.
Optimalizácia jazykových modelov si vyžaduje značné výpočtové zdroje, čo znamená potrebu využitia HPC (High Performance Computing) zdrojov na dosiahnutie požadovaného výkonu a efektivity. HPC systém Devana, ktorý je vybavený 4 GPU akcelerátormi NVidia A100 s 40 GB pamäte na každom uzle, poskytuje potrebnú výpočtovú kapacitu. V našom prípade sa oba fine-tunované modely zmestia do pamäte jedného GPU akcelerátora (v plnej veľkosti) s maximálnou veľkosťou dávky 2.
Aj keď využitie všetkých 4 GPU akcelerátorov na jednom uzle by skrátilo čas trénovania a umožnilo väčšiu veľkosť dávky, pre účely benchmarkingu a na zabezpečenie konzistentnosti a porovnateľnosti výsledkov sme vykonali všetky experimenty iba s jedným GPU akcelerátorom.
Toto úsilie viedlo k určitým zlepšeniam vo výkone modelov. Pre model Gemma 7b instruct sa podarilo znížiť počet falošne pozitívnych predikcií. Na druhej strane, pri fine-tuningu modelu Llama3 8b instruct došlo k zlepšeniu oboch metrík (presnosť a počet falošne pozitívnych predikcií). Avšak, ani jeden z týchto modelov po optimalizácii neprekročil schopnosti fine-tunovaného modelu SlovakBERT.
Čo sa týka modelu Gemma 7b instruct, niektoré množiny hyperparametrov priniesli vyššiu presnosť, ale aj vysokú hodnotu FPR, zatiaľčo ďalšie viedli k nižšej presnosti a nízkej hodnoty FPR. Hľadanie množiny hyperparametrov, ktorá by zaistila vyvážené hodnoty presnosti a FPR bolo náročné. Najlepšia konfigurácia dosiahla presnosť mierne prevyšujúcu 70% s hodnotou FPR 4.6%. Porovnaním týchto hodnôt s výkonom tohto modelu bez optimalizácie zisťujeme, že fine-tunovanie iba zľahka zvýšilo presnosť, ale dramaticky redukovalo počet falošne pozitívnych predikcií, takmer o 70%.
Pre model Llama3 8b instruct, najlepšia konfigurácia dosiahla presnosť 75.1% s hodnotou FPR 7.0%. V porovnaní s výkonom modelu bez optimalizácie prinieslo fine-tunovanie vyššiu presnosť a zároveň prispelo k významnému zníženiu hodnoty FPR, ktorá sa znížila na polovicu.
Porovnanie s proprietárnym modelom
Na porovnanie nášho prístupu s proprietárnym veľkým jazykovým modelom sme vykonali experimenty s modelom gpt-3.5-turbo od OpenAI[1]. Použili sme identické prompty na zabezpečenie spravodlivého porovnania a testovali sme ako predtrénovanú, tak aj fine-tunovanú verziu tohto modelu. Bez fine-tuningu dosiahol gpt-3.5-turbo presnosť 76%, hoci vykazoval značnú mieru falošne pozitívnych predikcií. Po fine-tuningu sa presnosť zvýšila na takmer 80% a miera falošne pozitívnych predikcií sa výrazne znížila.
Výsledky
V našej počiatočnej stratégii, ktorá zahŕňala fine-tuning modelu SlovakBERT, sme dosiahli priemernú presnosť 77.2% so štandardnou odchýlkou 0,012, čo predstavuje nárast o 10% v porovnaní s presnosťou základného modelu.
Fine-tuning modelu BERT, špeciálne trénovaný pre bankovníctvo, dosiahol presnosť tesne pod 70%. Tento výsledok prekonáva presnosť základného modelu, avšak nedosahuje výkon fine-tunovaného modelu SlovakBERT.
Následne sme experimentovali s generatívnymi jazykovými modelmi (predtrénovanými, ale nie fine-tunovanými na našich dátach). Hoci tieto modely preukázali sľubné schopnosti, ich výkon bol nižší v porovnaní s fine-tunovaným modelom SlovakBERT. Preto sme pristúpili k fine-tuningu týchto modelov, konkrétne Gemma 7b instruct a Llama3 8b instruct.
Fine-tunovaná verzia modelu Gemma 7b instruct vykazovala finálnu presnosť porovnateľnú s modelom BERT optimalizovaným pre bankovníctvo, a fine-tunovaný model Llama3 8b instruct dosiahol výkon o niečo horší než fine-tunovaný SlovakBERT. Napriek rozsiahlemu úsiliu nájsť konfiguráciu hyperparametrov, ktorá by prekonala schopnosti modelu SlovakBERT, neboli tieto pokusy úspešné. Takže model SlovakBERT je najlepším z porovnávaným modelov.
Všetky výsledky sú zobrazené v Tabuľke 1, vrátane nášho základného modelu a tiež výsledkov proprietárneho modelu od OpenAI pre porovnanie.
Tabuľka 1: Porovnanie hodnôt metrík presnosť a FPR, definovaných v časti 2.2, pre všetky analyzované modely. Hodnoty sú uvedené v percentách.
Záver
Cieľom tohto článku bolo nájsť prístup na riešenie úlohy klasifikácie intentov, ktorý využíva predtrénovaný jazykový model (fine-tunovaný ako aj pôvodný bez fine-tuningu) ako základ pre chatbot pre sektor bankovníctva. Dáta pre našu prácu pozostávali z párov textu a intentu, kde text predstavuje dopyt používateľa (zákazníka) a intent predstavuje príslušný zámer.
Experimentovali sme s viacerými modelmi, vrátane modelu SlovakBERT, BERT pre bankovníctvo a generatívnych modelov Gemma 7b instruct a Llama3 8b instruct. Po pokusoch s dátovými množinami, konfiguráciami hyperparametrov pre fine-tuning a prompt inžinieringu, sa ukázalo, že optimalizácia modelu SlovakBERT je najlepším prístupom, s finálnou presnosťou o niečo vyššou než 77%, čo predstauje nárast o 10% v porovnaní so základným modelom.
Táto štúdia zdôrazňuje efektivitu optimalizácie predtrénovaných jazykových modelov pre vývoj robustného chatbota s presnou klasifikáciou zámerov užívateľov. Tieto poznatky budú v budúcnosti využité na ďalšie zlepšenie výkonu a efektivity v reálnych bankových aplikáciách.
Výskum bol realizovaný s podporou Národného kompetenčného centra pre HPC, projektu EuroCC 2 a Národného Superpočítačového Centra na základe dohody o grante 101101903-EuroCC 2-DIGITAL-EUROHPC-JU-2022-NCC-01.
Literatúra
[1] AI@Meta. Llama 3 model card. 2024. URL: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.
[2] Zeyu Han, Chao Gao, Jinyang Liu, Jeff Zhang, and Sai Qian Zhang. Parameter-efficient fine-tuning for large models: A comprehensive survey, 2024. arXiv:2403.14608.
[3] Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. CoRR, abs/2106.09685, 2021. URL: https://arxiv.org/abs/2106.09685, arXiv:2106.09685.
[4] Soham Parikh, Quaizar Vohra, Prashil Tumbade, and Mitul Tiwari. Exploring zero and fewshot techniques for intent classification, 2023. URL: https://arxiv.org/abs/2305.07157, arXiv:2305.07157.
[5] Matúš Pikuliak, Štefan Grivalský, Martin Konôpka, Miroslav Blšták, Martin Tamajka, Viktor Bachratý, Marián Šimko, Pavol Balážik, Michal Trnka, and Filip Uhlárik. Slovakbert: Slovak masked language model. CoRR, abs/2109.15254, 2021. URL: https://arxiv.org/abs/2109.15254, arXiv:2109.15254.
[6] Gemma Team, Thomas Mesnard, and Cassidy Hardin et al. Gemma: Open models based on gemini research and technology, 2024. arXiv:2403.08295.
Autori
Bibiána Lajčinová – Národné superpočítačové centrum Patrik Valábek – Národné superpočítačové centrum, Ústav informatizácie, automatizácie a matematiky, Slovenská technická univerzita v Bratislave, Slovenská republika Michal Spišiak – nettle, s.r.o., Bratislava, Slovenská republika
BeeGFS v praxi — Paralelné súborové systémy pre HPC, AI a dátovo náročné úlohy6 feb-Tento webinár predstaví BeeGFS, popredný paralelný súborový systém navrhnutý na podporu náročných HPC, AI a dátovo intenzívnych pracovných záťaží. Odborníci zo spoločnosti ThinkParQ vysvetlia, ako paralelné súborové systémy fungujú, aká je architektúra BeeGFS a ako sa používa v praxi v akademickom, výskumnom a priemyselnom prostredí.
Keď výrobná linka vie, čo sa stane o 10 minút5 feb-Každý výpadok na výrobnej linke znamená stres. Stroje stoja, ľudia čakajú, výroba sa spomaľuje a rozhodnutia sa robia pod tlakom. V potravinárstve, najmä pri výrobe plnených cestovinových výrobkov, kde proces prebieha v presne nadväzujúcich technologických krokoch, môže jeden nečakaný problém na konci linky zastaviť celý výrobný tok. Čo keby však výrobná linka dokázala vopred upozorniť, že o pár minút nastane problém? Alebo pomôcť rozhodnúť už počas zmeny, či sa ešte dnes oplatí plánovať balenie? Presne tieto otázky stáli na začiatku spolupráce výskumného tímu, ktorý spojil priemyselné dáta, umelú inteligenciu a superpočítačový výkon.
Kto vlastní AI v rámci organizácie? — Operatívna zodpovednosť5 feb-Tento webinár sa zameriava na to, ako môžu organizácie nastaviť jasnú operatívnu zodpovednosť a vlastníctvo AI systémov primeraným a prakticky realizovateľným spôsobom. Na základe praktických skúseností z oblasti ochrany osobných údajov, AI governance a compliance sa Petra Fernandes bude venovať modelom riadenia, ktoré fungujú v praxi — pre malé a stredné podniky aj pre väčšie organizácie. Pozornosť bude venovaná interným procesom, ktoré organizáciám pomáhajú udržať kontrolu nad AI systémami v čase, bez zbytočnej administratívnej záťaže.
Využitie veľkých jazykových modelov na efektívnu analýzu náboženských textov
Analýza a štúdium textov s náboženskými témami boli historicky doménou filozofov, teológov a ďalších špecialistov v sociálnych vedách. S príchodom umelej inteligencie, konkrétne veľkých jazykových modelov, naberá výskum v tejto oblasti nové dimenzie. Tieto moderné technológie môžu byť využité na odhaľovanie skrytých nuáns v náboženských textoch, čím umožňujú hlbšie pochopenie rôznych symbolizmov a odhalenie významov, ktoré sú pre tieto texty charakteristické a môžu byť nejasné. Takéto zrýchlenie analytického procesu umožňuje výskumníkom sústrediť sa len na špecifické aspekty textu relevantné pre ich výskum.
Jednou z úloh, ktorou sa vedci v tejto oblasti zaoberajú, je štúdium diel autorov asociovaných so špecifickými náboženskými skupinami a komunitami. Porovnávaním ich textov s oficiálnymi doktrínami a učeniami ich denominácií môžu výskumníci hlbšie nahliadnuť do presvedčení, viery a uhlov pohľadu komunít, formovaných učeniami vplyvných autorov.
Štúdia sumarizuje prístup využívajúci embeddingové indexy a jazykové modely na efektívnu analýzu textov s náboženskými témami. Primárnym cieľom je vyvinúť nástroj na získavanie informácií, špeciálne navrhnutý na účinné lokalizovanie relevantných častí textu v dokumentoch. Identifikácia nesúladov medzi získanými časťami textu z diel náboženských komunít a oficiálnymi náukami daného náboženstva, z ktorého táto komunita pochádza, nie je cieľom tejto práce a je ponechaná na teológov.
Táto práca vznikla spojeným úsilím Národného superpočítačového centra a Teologickej fakulty Trnavskej univerzity. Na dosiahnutie riešenia, ktoré vyžadovalo numericky náročné spracovanie veľkého objemu dát, boli využité výpočtové zdroje HPC systému Devana.
Dáta
Texty analyzované v tejto štúdii pochádzajú z náboženskej komunity známej ako Hnutie Nazaret (bežne nazývanej aj ”Beňovci”), ktorá sa začala formovať v sedemdesiatych rokoch minulého storočia. Hnutie, o ktorom niektorí vedci hovoria, že má známky sekty, je stále aktívne aj v dnešnej dobe, avšak v redukovanej a zmenenej forme. Jeho zakladateľ, Ján Augustín Beňo (1921 – 2006), bol tajne vysväteným katolíckym kňazom v totalitnej dobe. Beňo nabádal členov hnutia k aktívnemu žitiu viery prostredníctvom každodenného čítania biblických textov a uplatňovania ich posolstva v praxi prostredníctvom konkrétnych rozhodnutí a činov. Hnutie sa rozšírilo po celom Slovensku, pričom komunity existovali takmer v každom väčšom meste. Rozšírilo sa aj do susedných krajín, ako Poľsko, Česká republika, Ukrajina a Maďarsko. V roku 2000 bolo v hnutí približne tristo manželských párov, tisíc deti a stotridsať kňazov a študentov pripravujúcich sa na kňazstvo. Hnutie malo tri hlavné ciele: radikálnu prevenciu v oblasti vzdelania, podporu kňazov, ktorí by mohli pôsobiť ako rodičovské postavy na identifikáciu a rozvoj kňazských povolaní u detí, a výrobu a distribúciu samizdatových materiálov potrebných na katechézu a evanjelizáciu.
Pre výskum bolo k dispozícii 27 dokumentov vytvorených touto komunitou. Tieto dokumenty, ktoré významne vplývali na formovanie ideológie komunity Beňovci, boli reprodukované a distribuované počas komunistického režimu vo forme samizdatov – literatúry zakázanej komunistickým režimom. Po politickom prevrate boli viaceré z týchto dokumentov vytlačené a distribuované verejnosti mimo hnutia. Väčšina z dokumentov pozostávala z textov určených pre ”ranné úvahy” — krátke meditácie nad biblickými textami. Dokumenty taktiež obsahovali zakladateľove komentáre o učeniach Katolíckej cirkvi a vybraných témach týkajúcich sa výchovy detí, spirituálneho vedenia a katechézy pre deti.
Dokumenty obsahovali niekoľko duplicít, avšak pre úlohu získavania a vyhľadávania informácií to nepredstavuje problém. Všetky dokumenty sú napísané výhradne v slovenskom jazyku.
Jeden z dokumentov bol anotovaný pre účely testovania expertom z partnerskej fakulty, ktorý sa dlhodobo venuje Hnutiu Nazaret. Anotáciami myslíme časti textu (zvyčajne odseky, prípadne vety) označené ako patriace do jednej z piatich tried, pričom tieto triedy reprezentujú päť tém:
Direktívna poslušnosť
Hierarchická výchova
Radikálnosť v prevzatí modelu života
Ľudské potreby realizované len v spoločenstve/hnutí a v rodine
Divné/čudné/silné
Každá z týchto tém je doplnená o súbor otázok (dopytov/výrazov), ktoré boli navrhnuté na testovanie riešenia získavania informácií. Cieľom týchto testovacích otázok je vyhodnotiť, koľko relevantných častí textu týkajúcich sa danej témy dokáže náš nástroj získať z anotovaného dokumentu.
Tabuľka 1
Postup riešenia
Existuje viacero metód vhodných na riešenie tejto úlohy, vrátane klasifikácie textu, modelovania témy textu, RAG (z angl. Retrieval-Augmented Generation), alebo optimalizácie predtrénovaného jazykového modelu. Avšak, požiadavkou partnerských teológov, zaoberajúci sa analýzou týchto dokumentov, bola identifikácia konkrétných častí textu relevantných k daným témam, a teda získanie ich presného znenia. Práve preto bola vybraná metóda získavania informácií (z angl. information retrieval). Tento prístup sa líši od metódy RAG, ktorá bežne obsahuje časť získavania informácií a tiež časť generovania nového textu, v tom, že sa sústredí výhradne na identifikáciu relevantných častí textu v dokumentoch a negeneruje žiadny nový text.
Metóda získavania informácií využíva jazykové modely na transformovanie komplexných dát, ako je text, do numerickej reprezentácie, ktorá zachytáva celý význam a kontext daného vstupu. Táto numerická reprezentácia, nazývaná embedding (vo zvyšku textu budeme kvôli jednoduchosti využívať už len tento termín), môže byť použitá na sémantické vyhľadávanie v dokumentoch analyzovaním pozícií a blízkosti embeddingov v multidimenzionálnom vektorovom priestore. Použitím otázok (dopytov) dokáže systém nájsť v dokumentoch relevantné časti textu meraním podobnosti medzi embeddingami otázok a embeddingami segmentovaného textu. Tento prístup nevyžaduje žiadnu optimalizáciu existujúceho jazykového modelu, takže modely môžu byť použité bez akýchkoľvek úprav a pracovaný postup zostáva pomerne jednoduchý.
Výber modelu
Keďže všetky analyzované dokumenty v rámci tejto štúdie sú v slovenskom jazyku, je potrebné, aby zvolený jazykový model ”rozumel” slovenčine, čo značne zúžilo možnosti jeho výberu. K dnešnému dňu existuje len jeden verejne dostupný model, ktorý rozumie výhradne slovenskému jazyku, a niekoľko multilingválnych modelov, ktoré rozumejú slovenčine do určitej miery. Štyri predtrénované modely boli vybrané z malého množstva dostupných možností, prvým z nich je model Slovak-BERT . Slovak-BERT je verejne dostupný model založený na architektúre transformerov. Ďalším vybraným modelom je text-embedding-3-small model. Ide o výkonný proprietárny embedding model dostupným len cez API spoločnosti OpenAI. Tretím modelom je verejne dostupný embedding model BGE M3 , ktorý je výkonným multilingválnym modelom podporujúcim viac než 100 jazykov. Posledným modelom je taktiež multilingválny model z dielne Microsoftu nazývaný E5 , ktorý je rovnako verejne dostupný.
Tieto štyri modely boli použité na získanie vektorových reprezentácií textu. Ich výkon bude detailne diskutovaný v nasledujúcich častiach reportu.
Predspracovanie dát
Prvým krokom predspracovania dát je segmentovanie textu (z angl. chunking). Hlavným dôvodom pre tento krok bolo splniť požiadavku teológov na vyhľadávanie (získavanie) krátkych častí textu. Okrem toho bolo potrebné dokumenty rozdeliť na menšie časti, aj kvôli obmedzenej dĺžke vstupu niektorých jazykových modelov. Na túto úlohu bola použitá knižnica Langchain . Poskytuje hierarchické segmentovanie textu, ktoré produkuje prekrývajúce sa bloky textu definovanej dĺžky (s definovaným prekrytím) tak, aby v nich bol zachovaný kontext. Takto boli vytvorené bloky s dĺžkami 300, 400, 500 a 700 znakov. Následne spracovanie pozostávalo z odstránenia diakritiky, úprava textu na veľké/malé písmená, podľa podmienok modelov a odstránenie vylúčených slov (z angl. stopwords). Odstraňovanie týchto slov je bežnou praxou v úlohách spracovania prirodzeného jazyka, keďže vylúčené slová nenesú žiadnu významovú informáciu. Niektoré modely môžu profitovať z odstránenia vylúčených slov na zlepšenie relevantnosti získaných blokov textu, ale iné môžu ťažiť z ponechania týchto slov, aby bol zachovaný celý kontext nevyhnutný na pochopenie textu.
Tabuľka 2
Vektorové embeddingy
Vektorové embeddingy boli vytvorené z blokov textu s použitím vybraných predtrénovaných jazykových modelov.
V prípade modelu Slovak-BERT, sme pre generovanie embeddingov použili model bez pridaných predikčných vrstiev, a následne sme ukladali iba prvý embedding, ktorý obsahuje celý význam vstupného textu. Ďalšie používané modely priamo produkujú embeddingy vo vhodnej forme, preto nebolo potrebné žiadne dodatočné spracovanie výstupov.
V nasledujúcej časti s výsledkami analyzujeme výkon všetkých vybraných embedding modelov a porovnávame ich schopnosti zachytiť kontext.
Výsledky
Pred uskutočnením kvantitatívnych testov prešli všetky embeddingové indexy predbežným hodnotením, aby sa zistila úroveň porozumenia slovenského jazyka a špecifickej náboženskej terminológie evaluovaných modelov. Predbežné hodnotenie zahŕňalo subjektívne posúdenie relevantnosti získaných častí textu.
Tieto testy odhalili, že embeddingy získané pomocou modelu E5 nie sú dostatočne efektívne pre naše dáta. Keď sme pomocou testovacej otázky hľadali informácie v dokumentoch, väčšina získaných blokov textu obsahovala kľúčové slová použité v otázke, ale neobsahovala kontext otázky. Možným vysvetlením by mohlo byť, že tento model uprednostňuje zhody na úrovni slov pred zhodami kontextu v slovenskom jazyku. Ďalším dôvodom môže byť aj to, že tento model bol natrénovaný na dátach, ktoré neobsahovali veľké množstvo textu v slovenčine, resp. výber textov nebol dostatočne rozmanitý, čo môže viesť k nižšiemu výkonu modelu E5 v slovenčine, aj keď v iných jazykoch dosahuje výborné výsledky. Podotýkame, že tieto pozorovania nie sú definitívne závery, ale skôr hypotézy založené na súčasných, obmedzených výsledkoch. Rozhodli sme sa ďalej nevyhodnocovať výkon embeddingových indexov získaných z E5 modelu, keďže je to irelevantné vzhľadom na neschopnosť modelu zachytiť nuansy náboženského textu. Na druhej strane, schopnosti modelu Slovak-BERT, ktorý je založený na architektúre RoBERTa charakteristickej jej relatívne jednoduchou topológiou, prekonali očakávania. Navyše, výkon text-embedding-3-small a BGE M3 embeddingov splnil očakávania, keďže prvý, subjektívne vyhodnotený, test ukázal veľmi dobré porozumenie kontextu a nuáns v textoch s náboženskými témami a taktiež výborné porozumenie slovenského jazyka.
Preto boli kvantitatívne testy vykonané len pre vektorové databázy využívajúce Slovak-BERT, OpenAI text-embedding-3-small a BGE M3 embeddingy.
Vzhľadom na povahu riešeného problému a charakter testovacích anotácií existuje potenciálna obava týkajúca sa ich kvality. Niektoré časti textu mohli byť nesprávne klasifikované, pretože môžu patriť do viacerých tried. Táto skutočnosť, spolu s možnosťou ľudskej chyby, mohla ovplyvniť konzistentnosť a presnosť anotácií.
Berúc do úvahy túto skutočnosť, sme sa rozhodli zamerať výhradne na vyhodnotenie metriky zvanej recall. Hodnotu tejto metriky meriame ako pomer počtu získaných blokov zhodných s anotáciami, k celkovému počtu anotovaných blokov textu (bez ohľadu na podiel falošne pozitívnych blokov). Recall vyhodnocujeme pre každú tému a pre všetky vektorové databázy s rôznymi dĺžkami blokov textu.
Komplexnosť a interpretačná povaha náboženských štúdií sa pravdepodobne prejavuje nielen v kvalite testovacích anotácií, ale aj v samotných testovacích otázkach. Ako príklad môžeme uviesť testovaciu otázku ”Božia vôľa” pre tému Direktívna poslušnosť. Hoci pozorný čitateľ rozumie, ako táto otázka súvisí s danou témou, nemusí to byť očividné pre jazykový model. Preto, okrem vyhodnotenia pomocou dodaných testovacích otázok budeme vyhodnocovať výkon embeddingov aj s použitím ďalších otázok, ktoré boli získané metódou kontextovej augmentácie. Kontextová augmentácia je technika v prompt inžinieringu používaná na zlepšenie kvality textových dát a je dokumentovaná vo viacerých vedeckých článkoch , . Táto technika spočíva v tom, že sa zvolený jazykový model použije na vytvorenie novej otázky (príp. nového textu) na základe pôvodnej otázky (textu) a doplneného kontextu s cieľom formulovania lepšej otázky. Jazykový model použitý na generovanie nových otázok pomocou tejto techniky bol GPT 3.5 a tieto otázky budeme ďalej v texte označovať ako ”GPT otázky”.
Slovak-BERT embeddingové indexy
Vyhodnotenie metriky recall pre embeddingové indexy využívajúce Slovak-BERT embeddingy pre štyri rôzne veľkosti blokov textu s použitím a bez použitia metódy odstraňovania vylúčených slov je zobrazené na Obrázku 1. Toto vyhodnotenie zahŕňa každú z piatich tém špecifikovaných v Časti 2 a pokrýva pôvodné aj GPT otázky.
Je očividné, že GPT otázky produkujú vo všeobecnosti lepšie výsledky než pôvodné otázky, okrem prípadu posledných dvoch tém, pri ktorých obe sady otázok produkujú podobné výsledky. Je tiež zrejmé, že Slovak-BERT embeddingy vo väčšine prípadov profitujú z odstránenia vylúčených slov. Najvyššia hodnota recall bola dosiahnutá pre tému Radikálnosť v prevzatí modelu života, s veľkosťou blokov textu 700 znakov, s odstránenými vylúčenými slovami, dosahujúc viac než 47%. Na druhej strane, najhoršie výsledky boli získané pre tému Divné/čudné/silné, kde ani jedna sada otázok nedokázala úspešne získať relevantné častí textu z dokumentov. Dokonca, v niektorých prípadoch neboli získane absolútne žiadne relevantné bloky textov.
Hodnoty recall pre všetky témy vyhodnotené pomocou pôvodných aj GPT otázok (pre všetky skúmané veľkosti blokov textu) pre embeddingy generované modelom Slovak-BERT. Indexy embeddingov označené ako +SW obsahujú vylúčené slová, zatiaľ čo -NoSW znamená, že vylúčené slová boli odstránené.
Obrázok 1: Hodnoty recall pre všetky témy vyhodnotené pomocou pôvodných aj GPT otázok (pre všetky skúmané veľkosti blokov textu) pre embeddingy generované modelom Slovak-BERT. Indexy embeddingov označené ako +SW obsahujú vylúčené slová, zatiaľ čo -NoSW znamená, že vylúčené slová boli odstránené.
OpenAI text-embedding-3-small embeddingové indexy
Analogicky k vyhodnoteniu Slovak-BERT embeddingových indexov, grafy s výsledkami pre embeddingy získané modelom text-embedding-3-small sú zobrazené na Obrázku 2. Hodnoty metriky recall sú všeobecne vyššie než tie získané so Slovak-BERT embeddingami. Podobne ako v predchádzajúcom prípade, GPT otázky produkujú lepšie výsledky. Pozorovateľný je taktiež istý trend medzi hodnotou metriky recall a veľkosťou textových blokov — dlhšie bloky textu zvyčajne vykazujú vyššie hodnoty recall.
Zaujímavé zistenie sa týka témy Radikálnosť v prevzatí modelu života. S použitím pôvodných otázok sme nezískali takmer žiadne relevantné výsledky. Naopak, pri použití otázok generovaných pomocou GPT modelu, boli hodnoty recall metriky výrazne vyššie a dosahovali takmer 90% pre bloky textu s veľkosťou 700 znakov.
Čo sa týka odstraňovania vyradených slov, vplyv tejto techniky na embeddingy sa líši. Pre témy 4 a 5 sa ukazuje, že odstránenie vyradených slov je prospešné. Avšak, pre ostatné témy tento krok výhody neprináša.
Témy 4 a 5 vykazovali najslabšie výsledky medzi všetkými témami. Môže to byť spôsobené povahou otázok pre tieto dve témy, keďže sú to citáty a celé vety, na rozdiel od otázok pre ostatné témy, ktoré sú frázy, kľúčové slová alebo výrazy. Zdá sa, že model text-embedding-3-small funguje lepšie s frázovitým typom otázok. Ale na druhej strane, keďže otázky pre témy 4 a 5 sú celé vety, zdá sa embeddingy profitujú z odstránenia vyradených slov, keďže v tomto prípade to môže pomôcť pri zachytení kontextu v dlhých otázkach.
Téma 4 je veľmi špecifická a preto možno vyžaduje detailnejšie testovacie otázky, keďže poskytnuté otázky pravdepodobne neobsahujú všetky nuansy danej témy. Naopak, téma 5 je veľmi všeobecná, vďaka čomu je celkom pochopiteľné, prečo je zachytávanie kontextu tejto témy pomocou embeddingov náročné. Všeobecný charakter tejto témy by mohol profitovať z iného analytického prístupu. Napríklad metóda analýzy sentimentu by mohla zachytiť zvláštnu, čudnú a silnú náladu vo vzťahu k študovaným náboženským témam.
Obrázok 2: Hodnoty recall vyhodnotené pre všetky témy pomocou pôvodných aj GPT otázok, pre všetky embeddingové indexy generované modelom text-embedding-3-small. Embeddingové indexy označené +SW obsahujú vylúčené slová, zatiaľ čo indexy označené -NoSW majú vylúčené slová odstránené.
BGE M3 embeddingové indexy
Grafy s vyhodnotenou metrikou recall pre embeddingové indexy využívajúce BGE M3 embeddingy sú zobrazené na Obrázku 3. Tieto hodnoty ukazujú výkon spadajúci medzi Slovak-BERT a OpenAI text-embedding-3-small embeddingy. V niektorých prípadoch sa nepodarilo dosiahnuť také vysoké hodnoty metriky recall ako pri OpenAI embeddingoch, avšak BGE M3 embeddingy stále vykazujú konkurencieschopný výkon, hlavne ak prihliadneme na skutočnosť, že sa jedná o verejne dostupný model, na rozdiel od OpenAI embeddingového modelu, ku ktorému sa dá pristupovať len cez API, čo môže byť niekedy problémom kvôli zdieľaniu súkromných alebo citlivých dát a taktiež kvôli finančným nákladom.
S týmito embeddingami môžeme pozorovať rovnaký fenomén ako s text-embedding-3-small embeddingami: krátke, frázovité otázky sú preferované pred dlhšími otázkami podávanými formou viet a citátov. Preto sú hodnoty recall pre prvé tri témy vyššie, ako sme diskutovali už v predchádzajúcej časti.
Odstránenie vylúčených slov sa zdá byť užitočné, hlavne pre posledné dve témy.
Obrázok 3: Hodnoty metriky recall pre všetky témy získané s použitím pôvodných aj GPT otázok pre embeddingy vytovrené modelom BGE M3. Značky +SW označujú indexy obsahujúce vylúčené slová, zatiaľčo -NoSW indikuje, že vylúčené slová boli v daných indexoch odstránené.
Záver
Štúdia prezentuje prístup pre analýzu textov s náboženskými témami pomocou numerických reprezentácií textu zvaných embeddingy, generovanými troma vybranými predtrénovanými jazykovými modelmi: Slovak-BERT, OpenAI text-embedding-3-small a BGE M3 model. Výberu modelov predchádzalo posúdenie ich schopnosti ”rozumieť slovenčine” a náboženskej terminológii. Pre zvolené tri modely sme konštatovali dostatočnú schopnosť, čo ich predurčilo ako vhodných kandidátov na zvládnutie úlohy získavania informácií z danej sady dokumentov.
Výzvy týkajúce sa kvality testovacích otázok boli adresované pomocou techniky kontextovej augmentácie. Tento prístup pomohol pri formulovaní vhodnejších otázok, čo viedlo k získavaniu relevantnejších častí textu, ktoré zachytávali všetky nuansy tém, ktoré teológovia v texte hľadajú.
Výsledky demonštrujú, že efektívnosť embeddingov generovaných týmito modelmi, hlavne modelom text-embedding-3-small od OpenAI, je dostatočná na hlboké porozumenie kontextu, aj v slovenskom jazyku. Hodnoty metriky recall pre embeddingy tohto modelu sa líšia v závislosti od témy a použitých testovacích otázok, pričom najlepšia hodnota bola dosiahnutá pre tému Radikálnosť v prevzatí modelu života dosahujúc takmer 90%, s použitím GPT otázok a dĺžky textových blokov 700 znakov. Vo všeobecnosti, text-embedding-3-small model mal najlepšie výsledky s najväčšou analyzovanou dĺžkou blokov textu, vykazujúc mierny trend zvyšujúcej sa hodnoty recall so zväčšujúcou sa dĺžkou blokov textu. Téma Divné/čudné/silné mala najnižšiu hodnotu recall, čo môže byť dôsledkom neurčitosti v špecifikácii tejto témy.
Pre Slovak-BERT embeddingové indexy sú hodnoty recall o niečo nižšie, ale stále pomerne pôsobivé vzhľadom na jednoduchosť tohto jazykového modelu. Lepšie výsledky boli získané v použitím GPT otázok, s najlepšou hodnotou 47,1% pre tému Radikálnosť v prevzatí modelu života s dĺžkou blokov 700 znakov, a s embeddingami vytvorenými z textu s odstránenými vylúčenými slovami. Celkovo, tento model najviac ťažil z odstraňovania vylúčených slov.
Čo sa týka BGE M3 embeddingov, výsledky boli taktiež veľmi dobré, dosahujúc vysokú hodnotu recall metriky, aj keď nie až takú vysokú ako v prípade OpenAI embeddingov. Ale vzhľadom na to, že BGE M3 je verejne dostupný model, sú tieto výsledky pozoruhodné.
Tieto zistenia zdôrazňujú potenciál využitia veľkých jazykových modelov pre špecializované oblasti ako analýza textu s náboženskými témami. Výskum by sa ďalej mohol zaoberať zhlukovaním embeddingov za účelom odhalenia asociácií a inšpirácií autorov týchto diel. Pre teológov, budúca práca spočíva v analýze získaných častí textu s cieľom identifikovať odchýlky od oficiálneho učenia Katolíckej cirkvi, čím sa objasnia interpretácie a pohľady hnutia.
Poďakovanie
Výskum bol realizovaný s podporou Národného kompetenčného centra pre HPC, projektu EuroCC 2 a Národného Superpočítačového Centra na základe dohody o grante 101101903-EuroCC 2-DIGITAL-EUROHPC-JU-2022-NCC-01.
Výskum bol realizovaný s využitím výpočtovej infraštruktúry obstaranej v projekte Národné kompetenčné centrum pre vysokovýkonné počítanie (kód projektu: 311070AKF2) financovaného z Európskeho fondu regionálneho rozvoja, Štrukturálnych fondov EU Informatizácia spoločnosti, operačného programu Integrovaná infraštruktúra 2014-2020.
Bibiána Lajčinová – Národné superpočítačové centrum Jozef Žuffa – Teologická fakulta Trnavskej univerzity v Trnave Milan Urbančok – Teologická fakulta Trnavskej univerzity v Trnave
Literatúra
[1] Matúš Pikuliak, Štefan Grivalský, Martin Konôpka, Miroslav Blšťák, Martin Tamajka, Viktor Bachratý, Marián Šimko, Pavol Balážik, Michal Trnka, and Filip Uhlárik. Slovakbert: Slovak masked language model, 2021.
[2] Jianlv Chen, Shitao Xiao, Peitian Zhang, Kun Luo, Defu Lian, and Zheng Liu. Bge m3-embedding: Multi-lingual, multi-functionality, multi-granularity text embeddings through self-knowledge distillation, 2024.
[3] Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, and Furu Wei. Multi-lingual e5 text embeddings: A technical report, 2024.
BeeGFS v praxi — Paralelné súborové systémy pre HPC, AI a dátovo náročné úlohy6 feb-Tento webinár predstaví BeeGFS, popredný paralelný súborový systém navrhnutý na podporu náročných HPC, AI a dátovo intenzívnych pracovných záťaží. Odborníci zo spoločnosti ThinkParQ vysvetlia, ako paralelné súborové systémy fungujú, aká je architektúra BeeGFS a ako sa používa v praxi v akademickom, výskumnom a priemyselnom prostredí.
Keď výrobná linka vie, čo sa stane o 10 minút5 feb-Každý výpadok na výrobnej linke znamená stres. Stroje stoja, ľudia čakajú, výroba sa spomaľuje a rozhodnutia sa robia pod tlakom. V potravinárstve, najmä pri výrobe plnených cestovinových výrobkov, kde proces prebieha v presne nadväzujúcich technologických krokoch, môže jeden nečakaný problém na konci linky zastaviť celý výrobný tok. Čo keby však výrobná linka dokázala vopred upozorniť, že o pár minút nastane problém? Alebo pomôcť rozhodnúť už počas zmeny, či sa ešte dnes oplatí plánovať balenie? Presne tieto otázky stáli na začiatku spolupráce výskumného tímu, ktorý spojil priemyselné dáta, umelú inteligenciu a superpočítačový výkon.
Kto vlastní AI v rámci organizácie? — Operatívna zodpovednosť5 feb-Tento webinár sa zameriava na to, ako môžu organizácie nastaviť jasnú operatívnu zodpovednosť a vlastníctvo AI systémov primeraným a prakticky realizovateľným spôsobom. Na základe praktických skúseností z oblasti ochrany osobných údajov, AI governance a compliance sa Petra Fernandes bude venovať modelom riadenia, ktoré fungujú v praxi — pre malé a stredné podniky aj pre väčšie organizácie. Pozornosť bude venovaná interným procesom, ktoré organizáciám pomáhajú udržať kontrolu nad AI systémami v čase, bez zbytočnej administratívnej záťaže.
Mapovanie polohy a výšky stromov v PointCloud dátach získaných pomocou LiDAR technológie
Cieľom spolupráce medzi Národným superpočítačovým centrom (NSCC) a firmou SKYMOVE, v rámci projektu Národného kompetenčného centra pre HPC, bol návrh a implementácia pilotného softvérového riešenia pre spracovanie dát získaných technológiou LiDAR (Light Detection and Ranging) umiestnených na dronoch.
Zber dát
LiDAR je inovatívna metóda diaľkového merania vzdialenosti, ktorá funguje na princípe výpočtu doby šírenia impulzu laserového lúča odrazeného od objektov. LiDAR vysiela svetelné impulzy, ktoré zasiahnu zem, alebo daný objekt, a vrátia sa späť, kde sú zachytené senzormi. Meraním času návratu svetla LiDAR určí vzdialenosť bodu, v ktorom sa laserový lúč odrazil.
LiDAR dokáže vysielať 100- až 300 000 impulzov za sekundu, pričom z každého metra štvorcového povrchu zachytí niekoľko desiatok až stoviek impulzov, v závislosti od konkrétneho nastavenia a vzdialenosti snímaného objektu. Týmto spôsobom sa vytvára tzv. mračno bodov (PointCloud) pozostávajúce, potenciálne, z miliónov bodov. Moderným využitím LiDAR-u je zber dát zo vzduchu, kde sa zariadenie umiestňuje na drony, čím sa zvyšuje efektivita a presnosť zberu dát. Na zber dát v tomto projekte boli použité drony od spoločnosti DJI, hlavne dron DJI M300 a Mavic 3 Enterprise (obr. 1). Dron DJI M300 je profesionálny dron navrhnutý pre rôzne priemyselné aplikácie a jeho parametre umožňujú, aby bol vhodným nosičom pre LiDAR.
Dron DJI M300 bol využitý ako nosič pre LiDAR značky Geosun (obr. 1). Ide o strednorozsahový, kompaktný systém s integrovaným laserovým skenerom a systémom na určovanie polohy a natočenia. Vzhľadom na pomer medzi rýchlosťou zberu a kvalitou dát boli dáta snímané z výšky 100 m nad povrchom, čím je možné zosnímať za pomerne krátky čas aj väčšie územia v postačujúcej kvalite.
Zozbierané dáta boli geolokalizované v súradnicovom systéme S-JTSK (EPSG:5514) a Baltskom výškovom systéme po vyrovnaní (Bpv), pričom súradnice sú udávané v metroch alebo metroch nad morom. Okrem lidarových dát bola súčasne vykonaná aj letecká fotogrametria, ktorá umožňuje tvorbu tzv. ortofotomozaiky. Ortofotomozaiky poskytujú fotografický záznam skúmanej oblasti vo vysokom rozlíšení (3 cm/pixel) a s polohovou presnosťou do 5 cm. Ortofotomozaika bola použitá ako podklad pre vizuálne overenie polôh jednotlivých stromov.
Obrázok 1. Dron DJI M300 (vľavo) a LiDAR značky Geosun (vpravo).
Klasifikácia dát
Nosným datasetom, ktorý vstupoval do automatickej identifikácie stromov, bolo lidarové mračno bodov vo formáte LAS/LAZ (nekomprimovaná a komprimovaná forma). LAS súbory sú štandardizovaným formátom pre ukladanie lidarových dát navrhnutý tak, aby zabezpečil efektívne ukladanie veľkého množstva bodových dát s presnými 3D súradnicami. LAS súbory obsahujú informácie o polohe (x, y, z), intenzite odrazu, klasifikácii bodov a ďalšie atribúty, ktoré sú nevyhnutné pre analýzu a spracovanie lidarových dát. Vďaka svojej štandardizácii a kompaktnosti sa LAS súbory často používajú v geodézii, kartografii, lesníctve, urbanistickom plánovaní a mnohých ďalších oblastiach, kde je potrebná detailná a presná 3D reprezentácia terénu a objektov.
Mračno bodov bolo potrebné najskôr spracovať do takej podoby, aby na ňom bolo možné čo najjednoduchšie identifikovať body jednotlivých stromov alebo vegetácie. Ide o proces, pri ktorom sa každému bodu v mračne bodov priradí určitá trieda, čiže hovoríme o klasifikácii.
Na klasifikáciu mračna bodov je možné použiť viacero nástrojov. V našom prípade sme sa, vzhľadom na dobré skúsenosti, rozhodli použiť softvér Lidar360 od spoločnosti GreenValley International [1]. V rámci klasifikácie mračna bodov boli jednotlivé body mračna klasifikované do nasledovných tried: neklasifikované (1), povrch (2), stredná vegetácia (4), vysoká vegetácia (5), budovy (6). Na klasifikáciu bola využitá metóda strojového učenia, ktorá po natrénovaní na reprezentatívnej trénovacej vzorke dokáže automaticky klasifikovať body ľubovoľného vstupného datasetu (obr. 2).
Trénovacia vzorka je vytvorená manuálnym klasifikovaním bodov mračna do jednotlivých tried. Na účely automatizovanej identifikácie stromov sú pre tento projekt podstatné hlavne triedy povrch a vysoká vegetácia. Avšak, pre čo najlepší výsledok klasifikácie vysokej vegetácie je vhodné zaradiť aj ostatné klasifikačné triedy. Trénovacia vzorka bola tvorená súborom viacerých menších oblastí z celého územia a zahŕňala všetky typy vegetácie, či už listnaté alebo ihličnaté, a taktiež rôzne typy budov. Na základe vytvorenej trénovacej vzorky boli následne automaticky klasifikované zvyšné body mračna. Kvalita trénovacej množiny má preto podstatný vplyv na výslednú klasifikáciu celého územia.
Obrázok 2. Ukážka mračna bodov oblasti zafarbeného pomocou ortofotomozaiky (vľavo) a pomocou príslušnej klasifikácie (vpravo) v programe CloudCompare.
Segmentácia dát
Klasifikované mračno bodov bolo následne segmentované pomocou softvéru CloudCompare [2]. Segmentácia vo všeobecnosti znamená rozdelenie klasifikovaných dát na menšie celky – segmenty, ktoré spĺňajú spoločné charakteristické vlastnosti. Pri segmentácii vysokej vegetácie bolo cieľom priradiť jednotlivé body ku konkrétnemu stromu.
Na účely segmentácie stromov bol použitý plugin TreeIso v softvérovom balíku CloudCompare, ktorý automaticky rozpoznáva stromy na základe rôznych výškových a polohových kritérií (obr. 3). Celková segmentácia sa skladá z troch krokov:
Spájanie bodov, ktoré sú blízko seba, do segmentov a odstraňovanie šumu.
Spájanie susedných segmentov bodov do väčších celkov.
Zloženie jednotlivých segmentov do celku, ktorý tvorí jeden strom.
Výsledkom je kompletná segmentácia vysokej vegetácie. Tieto segmenty sa následne uložia do jednotlivých LAS súborov a použijú sa na následné spracovanie pre určenie polohy jednotlivých stromov. Veľkým nedostatkom tohto nástroja je, že pracuje len v sériovom režime, čiže dokáže využiť len jedno CPU jadro, čo značne limituje jeho použitie v HPC prostredí.
Obrázok 3. Segmentované mračno bodov v programe CloudCompare použitím plugin modulu TreeIso.
Ako alternatívnu metódu na segmentovanie sme skúmali aj využitie ortofotomozaiky daných oblastí. Pomocou metód strojového učenia sme sa pokúsili identifikovať jednotlivé koruny stromov na snímkach a na základe takto určených geolokalizačných súradníc identifikovať príslušné segmenty v LAS súbore. Na detekciu korún stromov z ortofotomozaiky bol použitý model YOLOv5 [3] s predtrénovanými váhami z databázy COCO128 [4]. Tréningové dáta pozostávali z 230 snímok, ktoré boli manuálne anotované pomocou nástroja LabelImg [5]. Trénovacia jednotka pozostávala z 300 epoch, snímky boli rozdelené do sád po 16 vzoriek a ich veľkosť bola nastavená na 1000×1000 pixelov, čo sa ukázalo ako vhodný kompromis medzi výpočtovou náročnosťou a počtom stromov na daný výsek. Nedostatočná kvalita tohto prístupu bola obzvlášť markantná pre oblasti s hustou vegetáciou (zalesnených oblastí), ako je znázornené na obrázku 4. Domnievame sa, že to bolo spôsobené nedostatočnou robustnosťou zvolenej trénovacej sady, ktorá nedokázala dostatočne pokryť rôznorodosť obrazových dát (obzvlášť pre rôzne vegetatívne obdobia). Z týchto dôvodov sme segmentáciu z fotografický dát ďalej nerozvíjali a sústredili sme sa už iba na segmentáciu v mračne bodov.
Obrázok 4. Segmentovanie stromov v ortofotomozaike pomocou nástroja YOLOv5. Obrázok ilustruje problém detekcie jednotlivých stromov v prípade hustej vegetácie (súvislého porastu).
Aby sme naplno využili možnosti superpočítača Devana, nasadili sme v jeho prostredí knižnicu lidR [6]. Táto knižnica, napísaná v jazyku R, je špecializovaný nástroj určený na spracovanie a analýzu lidarových dát, poskytuje rozsiahly súbor funkcií a nástrojov pre čítanie, manipuláciu, vizualizáciu a analýzu LAS súborov. S knižnicou lidR je možné efektívne vykonávať úlohy ako filtrovanie, klasifikácia, segmentácia a extrakcia objektov priamo z mračien bodov. Knižnica tiež umožňuje interpoláciu povrchov, vytváranie digitálnych modelov terénu (DTM) a digitálnych modelov povrchu (DSM) a výpočet rôznych metrických parametrov vegetácie a štruktúry krajiny. Vďaka svojej flexibilite a výkonnosti je lidR populárnym nástrojom v oblasti geoinformatiky a je zároveň vhodným nástrojom pre prácu v HPC prostredí, keďže väčšina funkcií a algoritmov je plne paralelizovaná v rámci jedného výpočtového uzla, čo umožňuje naplno využívať dostupný hardvér. V prípade spracovania veľkých datasetov, keď výkon alebo kapacita jedného výpočtového uzla už nie je postačujúca, môže byť rozdelenie datasetu na menšie časti, a ich nezávislé spracovanie, cesta k využitiu viacerých výpočtových HPC uzlov súčasne.
V knižnici lidR je dostupná funkcia locate_trees(), ktorá dokáže pomerne spoľahlivo identifikovať polohu stromov. Na základe zvolených parametrov a algoritmu funkcia analyzuje mračno bodov a identifikuje polohu stromov. V našom prípade bol použitý algoritmus lmf pre lokalizáciu založenú na maximálnej výške [7]. Algoritmus je plne paralelizovaný, takže dokáže efektívne spracovať relatívne veľké zvolené oblasti v krátkom čase.
Takto určené polohy stromov sa dajú následne použiť v algoritme silva2016 na segmentáciu vo funkcii segment_trees() [8]. Táto funkcia segmentuje príslušné nájdené stromy do osobitných LAS súborov (obr. 5), podobne ako plugin modul TreeIso v programe CloudCompare. Následne sa takto segmentované stromy v LAS súboroch použijú na ďalšie spracovanie, konkrétne na určenie polohy jednotlivých stromov, napríklad pomocou klastrovacieho algoritmu DBSCAN [9].
Obrázok 5. Polohy stromov zistené pomocou algoritmu “lmf” (vľavo, červené body) a príslušne segmenty stromov určené algoritmom silva2016 (vpravo), pomocou knižnice lidR.
Detekcia kmeňov stromov pomocou klastrovacieho algoritmu DBSCAN
Na určenie polohy a výšky stromov v jednotlivých LAS súboroch získaných segmentáciou sme použili rôzne prístupy. Výška jednotlivých stromov bola získaná na základe z-ových súradníc pre jednotlivé LAS súbory ako rozdiel minimálnej a maximálnej súradnice mračien bodov. Keďže jednotlivé výseky z mračna bodov obsahovali v niektorých prípadoch aj viac ako jeden strom, bolo potrebné identifikovať počet kmeňov stromov v rámci týchto výsekov.
Kmene stromov boli identifikované na základe klastrovacieho algoritmu DBSCAN, pracujúceho s nasledovnými nastaveniami: maximálna vzdialenosť dvoch bodov v rámci jedného klastra (= 1 meter) a minimálny počet bodov v jednom klastri (= 10). Poloha každého identifikovaného kmeňa bola následne získaná na základe x-ových a y-ových súradníc geometrických stredov (centroidov) klastrov. Identifikácia klastrov pomocou DBSCAN algoritmu je ilustrovaná na obrázku 6.
Obrázok 6. Výseky z mračna bodov, PointCloud-u (stĺpec vľavo) a príslušné detegované klastre vo výške 1-5 metrov (stĺpec vpravo).
Zistenie výšky stromov pomocou interpolácie povrchov
Ako alternatívnu metódu na určenie výšok stromov sme použili tzv. Canopy Height Model (CHM). CHM je digitálny model, ktorý predstavuje výšku stromovej obálky nad terénom. Tento model sa používa na výpočet výšky stromov v lese alebo inom vegetačnom poraste. CHM sa vytvára odčítaním digitálneho modelu terénu (DTM) od digitálneho modelu povrchu (DSM). Výsledkom je mračno bodov alebo raster, ktorý zobrazuje výšku stromov nad povrchom terénu (obr. 7).
Ak teda poznáme súradnice polohy stromu, pomocou tohto modelu môžeme jednoducho zistiť príslušnú výšku objektu (stromu) v danom bode. Výpočet tohto modelu je možné jednoducho uskutočniť použitím knižnice lidR pomocou funkcií grid_terrain(), ktorá vytvára DTM, a grid_canopy(), ktorá počíta DSM.
Obrázok 7. Canopy Height Model (CHM) pre skúmanú oblasť (na osiach X a Y sú uvedené súradnice v metroch), výška každého bodu v metroch je reprezentovaná pomocou farebnej škály.
Porovnanie výsledkov
Pre porovnanie dosiahnutých výsledkov vyššie popísanými prístupmi sme sa zameriavali na oblasť Petržalky v Bratislave, kde už boli vykonané manuálne merania polôh a výšok stromov. Z celej oblasti (približne 3500×3500 m) sme vybrali reprezentatívnu menšiu oblasť o rozmeroch 300×300 m (obr. 2). Získali sme tak výsledky pre plugin modul TreeIso v programe CloudCompare (CC), pričom sme pracovali na PC v prostredí Windows, a výsledky pre algoritmy vo funkciách locate_trees() a segment_trees() pomocou knižnice lidR v HPC prostredí superpočítača Devana. Polohy stromov sme následne kvalitatívne a kvantitatívne vyhodnotili pomocou algoritmu Munkres (Hungarian Algorithm) [10] na optimálne párovanie. Algoritmus Munkres, tiež známy ako Maďarský algoritmus, je efektívny algoritmus na nájdenie optimálneho párovania v bipartitných grafoch. Jeho použitie pri párovaní stromov s manuálne určenými polohami stromov znamená nájdenie najlepšej zhody medzi identifikovanými stromami z lidarových dát a ich známymi polohami. Následne pri určení vhodnej hranice vzdialenosti v metroch (napríklad 5 m) potom vieme kvalitatívne zistiť počet presne určených polôh stromov. Výsledky sú spracované pomocou histogramov a percentuálne určujú správne polohy stromov v závislosti od zvolenej hranice presnosti (obr. 8). Zistili sme, že obe metódy dosahujú pri hranici vzdialenosti 5 metrov takmer rovnaký výsledok, približne 70% správne určených polôh stromov. Metóda použitá v programe CloudCompare vykazuje lepšie výsledky, resp. vyššie percento pri nižších prahových hodnotách, čo odzrkadľujú aj príslušné histogramy (obr. 8). Pri porovnaní oboch metód navzájom dosahujeme až približne 85% zhody pri prahovej hodnote do 5 metrov, čo poukazuje na kvalitatívnu vyrovnanosť oboch použitých prístupov. Kvalitu dosiahnutých výsledkov ovplyvňuje hlavne presnosť klasifikácie vegetácie v bodových mračnách, pretože prítomnosť rôznych artefaktov, ktoré sú nesprávne klasifikované ako vegetácia, skresľuje finálne výsledky. Algoritmy na segmentáciu stromov nedokážu vplyv týchto artefaktov eliminovať.
Obrázok 8. Histogramy vľavo zobrazujú počet správne identifikovaných stromov v závislosti od zvolenej prahovej hodnoty vzdialenosti v metroch (hore CC metóda a dole lidR metóda). Grafy vpravo ukazujú percentuálnu úspešnosť správne identifikovaných polôh stromov v závislosti od použitej metódy a od zvolenej prahovej hodnoty vzdialenosti v metroch.
Analýza paralelnej efektivity algoritmu locate_trees() v knižnici lidR
Na zistenie efektivity paralelizácie hľadania vrcholov stromov v knižnici lidR, pomocou funkcie locate_trees(), sme daný algoritmus aplikovali na rovnaké študované územie s rôznym počtom CPU jadier – 1, 2, 4 až po 64 (maximum HPC uzla). Aby sme zistili, či je daný algoritmus citlivý aj na veľkosť problému, otestovali sme ho na troch územiach s rôznou veľkosťou – 300×300, 1000×1000 a 3500×3500 metrov. Dosiahnuté časy sú zobrazené v Tabuľke 1 a škálovateľnosť algoritmu je znázornená na obrázku 9. Výsledky ukazujú, že škálovateľnosť algoritmu nie je ideálna. Pri použití približne 20 jadier CPU klesá efektivita algoritmu na približne 50%, pri použití 64 jadier CPU je efektivita algoritmu už len na úrovni 15-20%. Efektivitu algoritmu ovplyvňuje aj veľkosť problému – čím väčšie územie, tým menšia efektivita, aj keď tento efekt nie je až tak výrazný. Na záver môžeme konštatovať, že na efektívne využitie daného algoritmu je vhodné použiť 16-32 CPU jadier a vhodným rozdelením daného skúmaného územia na menšie časti dosiahnuť maximálne efektívne využitie dostupného hardvéru. Použitie viac ako 32 CPU jadier síce už nie je efektívne, ale umožňuje ďalšie urýchlenie výpočtu.
Obrázok 9. Zrýchlenie (SpeedUp) algoritmu lmf vo funkcii locate_trees() knižnice lidR v závislosti od počtu CPU jadier (NCPU) a veľkosti študovaného územia (v metroch).
Záverečné zhodnotenie
Zistili sme, že pre dosiahnutie dobrých výsledkov je extrémne dôležité správne nastavenie parametrov použitých algoritmov, keďže počet a kvalita výsledných polôh stromov sú od nich veľmi závislé. Na získanie čo najpresnejších výsledkov je vhodné vybrať reprezentatívnu časť skúmanej oblasti, manuálne zistiť polohy stromov a následne nastaviť parametre príslušných algoritmov. Takto optimalizované nastavenia môžu následne byť použité na analýzu celej skúmané oblasti.
Kvalitu výsledkov ovplyvňuje taktiež množstvo iných faktorov, ako napríklad ročné obdobie, ktoré má vplyv na hustotu vegetácie, alebo hustota stromov v danej oblasti a druhová variabilita vegetácie. Kvalitu výsledkov ovplyvňuje aj kvalita klasifikácie vegetácie v mračne bodov, pretože prítomnosť rôznych artefaktov, ako sú časti budov, cesty, dopravné prostriedky a iné objekty, môže následne negatívne skresliť výsledky, keďže použité algoritmy na segmentáciu stromov nedokážu tieto artefakty vždy spoľahlivo odfiltrovať.
Z hľadiska efektivity výpočtov môžeme konštatovať, že použitie HPC prostredia poskytuje zaujímavú možnosť násobného urýchlenia vyhodnocovacieho procesu. Na ilustráciu môžeme uviesť, že spracovanie, napríklad, celej skúmanej oblasti Petržalky (3500×3500 m) trvalo na jednom výpočtovom uzle HPC systému Devana približne 820 sekúnd, pri využití všetkých (t.j. 64) CPU jadier. Spracovanie danej oblasti v programe CloudCompare na výkonnom PC, pri použití jedného CPU jadra, trvalo približne 6200 sekúnd, čo je asi 8-krát pomalšie.
Autori Marián Gall – Národné superpočítačové centrum Michal Malček – Národné superpočítačové centrum Lucia Demovičová – Centrum spoločných činností SAV v. v. i., organizačná zložka Výpočtové stredisko Dávid Murín – SKYMOVE s. r. o. Robert Straka – SKYMOVE s. r. o.
[6] Roussel J., Auty D. (2024). Airborne LiDAR Data Manipulation and Visualization for Forestry Applications.
[7] Popescu, Sorin & Wynne, Randolph. (2004). Seeing the Trees in the Forest: Using Lidar and Multispectral Data Fusion with Local Filtering and Variable Window Size for Estimating Tree Height. Photogrammetric Engineering and Remote Sensing. 70. 589-604. 10.14358/PERS.70.5.589.
[8] Silva C. A., Hudak A. T., Vierling L. A., Loudermilk E. L., Brien J. J., Hiers J. K., Khosravipour A. (2016). Imputation of Individual Longleaf Pine (Pinus palustris Mill.) Tree Attributes from Field and LiDAR Data. Canadian Journal of Remote Sensing, 42(5).
[9] Ester M., Kriegel H. P., Sander J., Xu X.. KDD-96 Proceedings (1996) pp. 226–231
[10] Kuhn H. W., “The Hungarian Method for the assignment problem”, Naval Research Logistics Quarterly, 2: 83–97, 1955
BeeGFS v praxi — Paralelné súborové systémy pre HPC, AI a dátovo náročné úlohy6 feb-Tento webinár predstaví BeeGFS, popredný paralelný súborový systém navrhnutý na podporu náročných HPC, AI a dátovo intenzívnych pracovných záťaží. Odborníci zo spoločnosti ThinkParQ vysvetlia, ako paralelné súborové systémy fungujú, aká je architektúra BeeGFS a ako sa používa v praxi v akademickom, výskumnom a priemyselnom prostredí.
Keď výrobná linka vie, čo sa stane o 10 minút5 feb-Každý výpadok na výrobnej linke znamená stres. Stroje stoja, ľudia čakajú, výroba sa spomaľuje a rozhodnutia sa robia pod tlakom. V potravinárstve, najmä pri výrobe plnených cestovinových výrobkov, kde proces prebieha v presne nadväzujúcich technologických krokoch, môže jeden nečakaný problém na konci linky zastaviť celý výrobný tok. Čo keby však výrobná linka dokázala vopred upozorniť, že o pár minút nastane problém? Alebo pomôcť rozhodnúť už počas zmeny, či sa ešte dnes oplatí plánovať balenie? Presne tieto otázky stáli na začiatku spolupráce výskumného tímu, ktorý spojil priemyselné dáta, umelú inteligenciu a superpočítačový výkon.
Kto vlastní AI v rámci organizácie? — Operatívna zodpovednosť5 feb-Tento webinár sa zameriava na to, ako môžu organizácie nastaviť jasnú operatívnu zodpovednosť a vlastníctvo AI systémov primeraným a prakticky realizovateľným spôsobom. Na základe praktických skúseností z oblasti ochrany osobných údajov, AI governance a compliance sa Petra Fernandes bude venovať modelom riadenia, ktoré fungujú v praxi — pre malé a stredné podniky aj pre väčšie organizácie. Pozornosť bude venovaná interným procesom, ktoré organizáciám pomáhajú udržať kontrolu nad AI systémami v čase, bez zbytočnej administratívnej záťaže.