Villámgyors magyar nyelvű érvelő modellt fejlesztettek az ELTE IK kutatói

Az ELTE Informatikai Kar Mesterséges Intelligencia Tanszékének kutatói a Digitális Örökség Nemzeti Laboratóriummal együttműködésben először tanítottak magyarra nagy érvelő nyelvi modellt.

 

A mesterséges intelligencia mérnökökből és nyelvtechnológusokból álló kilencfős csapat a költséghatékony tanítás során körülbelül 200 millió oldalnak megfelelő szöveget dolgozott fel a magyar akadémiai közösség számára elérhető Komondor HPC infrastruktúrán – hazánk legnagyobb szuperszámítógépén.

 

Munkájuk eredményeként a Racka-4B modell teljesítménye a magyar nyelvi feladatokban a kétszer akkora (8 milliárd paraméteres) modellek teljesítményével is összemérhetővé vált, sebessége pedig jócskán meghaladta azokét.

 

A szerzők tanulmányukért és bemutatott prezentációjukért megkapták a legjobb publikációnak járó díjat az idei, XXII. Magyar Számítógépes Nyelvészeti Konferencián (MSZNY).

 

Miért van szükség saját, magyar fejlesztésű nyelvi modellekre?

 

A globális technológiai óriások által fejlesztett nyelvi modellek, bár hatalmasak, a magyar nyelvvel és kultúrával még gyakran meggyűlik a bajuk. Ennek egyik oka, hogy a magyar morfológiailag egy rendkívül gazdag nyelv: szavaink sok ragot, jelet, képzőt hordoznak, így egyetlen szóalakban rengeteg információ sűrűsödhet össze. Ráadásul nincs olyan, a magyarhoz közeli rokon nagy világnyelv, amelynek digitális jelenléte – technológiai értelemben – magával húzná a magyart. Ha viszont ezek a rendszerek nem értik és beszélik elég jól a nyelvünket, nem integrálják a régió kultúráját és történeti tudását, vagy akár a hazai jogszabályokat, a jogi szaknyelvet, akkor Magyarország több téren is hátrányba kerülhet. Ahhoz, hogy a régió megőrizze digitális szuverenitását, elengedhetetlen a saját adatokon tanított technológia.

 

Erre a kihívásra válaszul született meg korábban a Puli modellcsalád, a technológia gyors fejlődésével azonban megjelent az igény az összetettebb, úgynevezett érvelő (reasoning) képességgel rendelkező rendszerek fejlesztésére is.

 

Ezt az űrt tölti be most a Racka. A modell egy nyílt forráskódú, Qwen3-4B alapokon nyugvó, úgynevezett paraméterhatékony (LoRA) eljárással magyarított rendszer, amely a korábbi modellekkel szemben logikai és érvelő képességekkel is rendelkezik.

 

Kihívások és technológiai válaszok a magyarítás során

 

A modell magyarítása több párhuzamos technológiai lépésben történt, melyek közül az egyik legfontosabb a mesterséges intelligencia „szótárának” optimalizálása volt. A nyelvi modellek a szövegeket feldolgozáskor apró egységekre, úgynevezett tokenekre bontják. A döntő arányban világnyelveken tanított nemzetközi modellek szótára azonban alapvetően az angol nyelvre van optimalizálva, ami azt eredményezi, hogy a magyar szavakat túl sok, apró, logikátlan darabra vágják szét.

 

A kutatócsoport azzal a mérnöki megoldással élt, hogy az eredeti modell mintegy 150 ezer elemből álló szótárából eltávolítottak nagyjából 32 ezer olyan ritka tokent (például bizonyos távol-keleti karaktereket), amelyek a projekt szempontjából lényegtelenek voltak. Ezek helyére pedig kifejezetten a magyar nyelvre optimalizált tokeneket illesztettek be, és úgy hangolták át a rendszert, hogy előnyben részesítse ezek használatát. Ennek a bravúrnak köszönhetően a modell 47%-kal kevesebb tokenből tudja felépíteni ugyanazt a magyar szöveget, ami a gyakorlatban azt jelenti, hogy drasztikusan felgyorsult a szöveggenerálás, ráadásul a nyelvtani és ragozási hibák is jelentősen ritkultak. A modellt összesen 160 milliárd tokennyi adaton tanították tovább.

 

 

Bár a fókusz a magyar nyelven volt, az adathalmaznak csak a 44%-át tette ki a hazai szöveg, a maradék angol (24%), német (21%), illetve programkód (11%) volt. Az idegen nyelvű tanítóadatok használatának oka, hogy ha a modellt kizárólag magyar adattal bombázzák, felléphet az úgynevezett katasztrofális felejtés (catastrophic forgetting) jelensége, vagyis a rendszer elveszítheti a korábban már megtanult, értékes általános képességeit. Az angol és német nyelv – amelyek a statisztikák szerint a leggyakoribb idegen nyelvek hazánkban – biztosították a széles körű tudás megmaradását. A programkódok betáplálása pedig az alapmodell logikai és érvelési (reasoning) képességeinek megtartása miatt volt kulcsfontosságú.

 

Jövőbeli tervek egy teljes modellcsaláddal

 

A kutatócsoport célja a hazai tudományos szféra támogatása, így a Racka modell kutatási és fejlesztési célokra szabadon, nyíltan elérhető. Sikerét és hiánypótló mivoltát jól mutatja, hogy csak az elmúlt hónapban több mint 600 alkalommal töltötték le a projekt Hugging Face oldaláról.

 

Az akadémiai kutatás nélkülözhetetlen, de az ilyen költséges és erőforrás-igényes fejlesztések esetén kiemelten fontos, hogy a projekt valós felhasználási igényekhez kapcsolódjon. A Racka fejlesztésén dolgozó kutatócsoport azonban nem egyetlen modellben, hanem egy egész modellcsaládban gondolkodik, azt tervezve, hogy kilép a kelet-közép-európai regionális piacra is. Bár adatbiztonsági és elérhetőségi szempontból szükség van kifejezetten kis méretű, helyi szervereken (vagy akár mobiltelefonokon) biztonságosan futtatható modellekre is, ugyanakkor vannak olyan komplex feladatok – mint például a hosszú dokumentumok értelmezése vagy a bonyolult következtetések levonása –, amelyekhez egy sokkal nagyobb, általános tudással rendelkező rendszer kell. Ennek a nagyobb léptékű, regionális tudást is integráló modellnek az előkészítése és fejlesztése már zajlik, szoros együttműködésben a Mynds.ai piacorientált céggel. A projektet az újonnan kiépülő európai MI-infrastruktúrán és a barcelonai MareNostrum 5 szuperszámítógépen tervezik megvalósítani.

 

 

English Summary

Researchers from the Department of Artificial Intelligence at Eötvös Loránd University (ELTE), in collaboration with the National Laboratory for Digital Heritage, have developed the first Hungarian large reasoning language model, called Racka-4B. Using the Komondor supercomputer, the team processed data equivalent to around 200 million pages of text and created a model whose performance on Hungarian tasks rivals much larger 8-billion-parameter models while running significantly faster. The project addresses the limitations of global AI systems, which often struggle with the complex morphology, culture, and legal language of Hungarian. To improve efficiency, the researchers redesigned the model’s vocabulary by adding Hungarian-specific tokens, reducing the number of tokens needed to represent Hungarian text by 47% and improving both speed and accuracy. The model was trained on a multilingual dataset that included Hungarian, English, German, and programming code to preserve its general reasoning abilities. Racka is freely available for research purposes, and the team is already working on a larger family of regional AI models in cooperation with Mynds.ai and European AI infrastructure projects.

 

 
 
 

Kapcsolódó cikkek

 

Belépés

 

 

Regisztráció