VillĂĄmgyors magyar nyelvĹą ĂŠrvelĹ modellt fejlesztettek az ELTE IK kutatĂłi

2026. jĂşnius 1.

Az ELTE Informatikai Kar Mesterséges Intelligencia Tanszékének kutatói a Digitális Örökség Nemzeti Laboratóriummal együttmĹąködésben elĹször tanítottak magyarra nagy érvelĹ nyelvi modellt.

A mesterséges intelligencia mérnökökbĹl és nyelvtechnológusokból álló kilencfĹs csapat a költséghatékony tanítás során körülbelül 200 millió oldalnak megfelelĹ szöveget dolgozott fel a magyar akadémiai közösség számára elérhetĹ Komondor HPC infrastruktúrán – hazánk legnagyobb szuperszámítógépén.

Munkájuk eredményeként a Racka-4B modell teljesítménye a magyar nyelvi feladatokban a kétszer akkora (8 milliárd paraméteres) modellek teljesítményével is összemérhetĹvé vált, sebessége pedig jócskán meghaladta azokét.

A szerzĹk tanulmányukért és bemutatott prezentációjukért megkapták a legjobb publikációnak járó díjat az idei, XXII. Magyar Számítógépes Nyelvészeti Konferencián (MSZNY).

Miért van szükség saját, magyar fejlesztésĹą nyelvi modellekre?

A globális technológiai óriások által fejlesztett nyelvi modellek, bár hatalmasak, a magyar nyelvvel és kultúrával még gyakran meggyĹąlik a bajuk. Ennek egyik oka, hogy a magyar morfológiailag egy rendkívül gazdag nyelv: szavaink sok ragot, jelet, képzĹt hordoznak, így egyetlen szóalakban rengeteg információ sĹąrĹąsödhet össze. Ráadásul nincs olyan, a magyarhoz közeli rokon nagy világnyelv, amelynek digitális jelenléte – technológiai értelemben – magával húzná a magyart. Ha viszont ezek a rendszerek nem értik és beszélik elég jól a nyelvünket, nem integrálják a régió kultúráját és történeti tudását, vagy akár a hazai jogszabályokat, a jogi szaknyelvet, akkor Magyarország több téren is hátrányba kerülhet. Ahhoz, hogy a régió megĹrizze digitális szuverenitását, elengedhetetlen a saját adatokon tanított technológia.

Erre a kihívásra válaszul született meg korábban a Puli modellcsalád, a technológia gyors fejlĹdésével azonban megjelent az igény az összetettebb, úgynevezett érvelĹ (reasoning) képességgel rendelkezĹ rendszerek fejlesztésére is.

Ezt az Ĺąrt tölti be most a Racka. A modell egy nyílt forráskódú, Qwen3-4B alapokon nyugvó, úgynevezett paraméterhatékony (LoRA) eljárással magyarított rendszer, amely a korábbi modellekkel szemben logikai és érvelĹ képességekkel is rendelkezik.

Kihívások és technológiai válaszok a magyarítás során

A modell magyarítása több párhuzamos technológiai lépésben történt, melyek közül az egyik legfontosabb a mesterséges intelligencia „szótárának” optimalizálása volt. A nyelvi modellek a szövegeket feldolgozáskor apró egységekre, úgynevezett tokenekre bontják. A döntĹ arányban világnyelveken tanított nemzetközi modellek szótára azonban alapvetĹen az angol nyelvre van optimalizálva, ami azt eredményezi, hogy a magyar szavakat túl sok, apró, logikátlan darabra vágják szét.

A kutatócsoport azzal a mérnöki megoldással élt, hogy az eredeti modell mintegy 150 ezer elembĹl álló szótárából eltávolítottak nagyjából 32 ezer olyan ritka tokent (például bizonyos távol-keleti karaktereket), amelyek a projekt szempontjából lényegtelenek voltak. Ezek helyére pedig kifejezetten a magyar nyelvre optimalizált tokeneket illesztettek be, és úgy hangolták át a rendszert, hogy elĹnyben részesítse ezek használatát. Ennek a bravúrnak köszönhetĹen a modell 47%-kal kevesebb tokenbĹl tudja felépíteni ugyanazt a magyar szöveget, ami a gyakorlatban azt jelenti, hogy drasztikusan felgyorsult a szöveggenerálás, ráadásul a nyelvtani és ragozási hibák is jelentĹsen ritkultak. A modellt összesen 160 milliárd tokennyi adaton tanították tovább.

Bár a fókusz a magyar nyelven volt, az adathalmaznak csak a 44%-át tette ki a hazai szöveg, a maradék angol (24%), német (21%), illetve programkód (11%) volt. Az idegen nyelvĹą tanítóadatok használatának oka, hogy ha a modellt kizárólag magyar adattal bombázzák, felléphet az úgynevezett katasztrofális felejtés (catastrophic forgetting) jelensége, vagyis a rendszer elveszítheti a korábban már megtanult, értékes általános képességeit. Az angol és német nyelv – amelyek a statisztikák szerint a leggyakoribb idegen nyelvek hazánkban – biztosították a széles körĹą tudás megmaradását. A programkódok betáplálása pedig az alapmodell logikai és érvelési (reasoning) képességeinek megtartása miatt volt kulcsfontosságú.

JövĹbeli tervek egy teljes modellcsaláddal

A kutatócsoport célja a hazai tudományos szféra támogatása, így a Racka modell kutatási és fejlesztési célokra szabadon, nyíltan elérhetĹ. Sikerét és hiánypótló mivoltát jól mutatja, hogy csak az elmúlt hónapban több mint 600 alkalommal töltötték le a projekt Hugging Face oldaláról.

Az akadémiai kutatás nélkülözhetetlen, de az ilyen költséges és erĹforrás-igényes fejlesztések esetén kiemelten fontos, hogy a projekt valós felhasználási igényekhez kapcsolódjon. A Racka fejlesztésén dolgozó kutatócsoport azonban nem egyetlen modellben, hanem egy egész modellcsaládban gondolkodik, azt tervezve, hogy kilép a kelet-közép-európai regionális piacra is. Bár adatbiztonsági és elérhetĹségi szempontból szükség van kifejezetten kis méretĹą, helyi szervereken (vagy akár mobiltelefonokon) biztonságosan futtatható modellekre is, ugyanakkor vannak olyan komplex feladatok – mint például a hosszú dokumentumok értelmezése vagy a bonyolult következtetések levonása –, amelyekhez egy sokkal nagyobb, általános tudással rendelkezĹ rendszer kell. Ennek a nagyobb léptékĹą, regionális tudást is integráló modellnek az elĹkészítése és fejlesztése már zajlik, szoros együttmĹąködésben a Mynds.ai piacorientált céggel. A projektet az újonnan kiépülĹ európai MI-infrastruktúrán és a barcelonai MareNostrum 5 szuperszámítógépen tervezik megvalósítani.

English Summary

Researchers from the Department of Artificial Intelligence at Eötvös Loránd University (ELTE), in collaboration with the National Laboratory for Digital Heritage, have developed the first Hungarian large reasoning language model, called Racka-4B. Using the Komondor supercomputer, the team processed data equivalent to around 200 million pages of text and created a model whose performance on Hungarian tasks rivals much larger 8-billion-parameter models while running significantly faster. The project addresses the limitations of global AI systems, which often struggle with the complex morphology, culture, and legal language of Hungarian. To improve efficiency, the researchers redesigned the model’s vocabulary by adding Hungarian-specific tokens, reducing the number of tokens needed to represent Hungarian text by 47% and improving both speed and accuracy. The model was trained on a multilingual dataset that included Hungarian, English, German, and programming code to preserve its general reasoning abilities. Racka is freely available for research purposes, and the team is already working on a larger family of regional AI models in cooperation with Mynds.ai and European AI infrastructure projects.

Business Online

VillĂĄmgyors magyar nyelvĹą ĂŠrvelĹ modellt fejlesztettek az ELTE IK kutatĂłi

2026. jĂşnius 1.

KapcsolĂłdĂł cikkek

BelĂŠpĂŠs

Business Online

VillĂĄmgyors magyar nyelvĹą ĂŠrvelĹ modellt fejlesztettek az ELTE IK kutatĂłi

level('hirek', 'prim.hu', 'forrĂĄs: PrĂ­m Online');

2026. jĂşnius 1.

KapcsolĂłdĂł cikkek

BelĂŠpĂŠs

VillĂĄmgyors magyar nyelvĹą ĂŠrvelĹ modellt fejlesztettek az ELTE IK kutatĂłi