BeszĂŠlt ĂŠs Ărott magyar szĂśveg feldolgozĂĄsĂĄt lehetĹvĂŠ tevĹ modellt ĂŠpĂtettek a PĂŠcsi TudomĂĄnyegyetemen

2021. augusztus 27.

Mindenki szívesebben használja az anyanyelvét chat és más automatizált alkalmazásokban. Mivel azonban a magyar nyelvet mindössze 15 millióan beszélik világszerte, a cégek számára gyakran nem éri meg kifejleszteni a feldolgozásához szükséges szoftvereket. A Pécsi Tudományegyetem (PTE) Alkalmazott Adattudományi és Mesterséges Intelligencia-csapata felismerve ezt a problémát a Microsoft Azure mesterséges intelligencia és az ONNX Runtime megoldások alkalmazásával megépítette és betanította saját BERT-large modelljét magyar nyelven, méghozzá kevesebb, mint 200 munkaóra és 1000 euró befektetésével.

A Pécsi Tudományegyetem számára kulcsfontosságú terület lett a mesterséges intelligencia és a felhĹalapú oktatás, amióta partnerkapcsolatot építettek ki a Microsoft Mesterséges Intelligencia Tudásközpont program keretein belül 2019-ben.

A nagy mennyiségĹą magyar nyelvĹą adat kezelését megkönnyítendĹ a PTE természetes nyelvfeldolgozási (NLP) módszerek kutatásába fogott. A megoldást egy magyar nyelvĹą BERT-large modell (HILBERT) létrehozása jelentette, ami egy nyílt forráskódú gépi tanulás keretrendszer. A modell célja, hogy segítse a számítógépet a többféleképpen értelmezhetĹ szövegrészek megértésében oly módon, hogy a szövegkörnyezetbĹl kontextust épít.

A csapat az Azure mesterséges intelligencia használata mellett döntött a saját, magyar nyelvĹą BERT-large modelljük megalkotásához.

“A Microsoft piacvezetĹ a nyelvi modellek betanításának területén. Természetes, hogy a legjobb technológiát akartuk használni” – mondta el Hajdu Róbert, az Alkalmazott Adattudományi és Mesterséges Intelligencia Központ volt tervezĹmérnöke. Ráadásul a csapat már ismerte az Azure szolgáltatást, ez is egy érv volt mellette.

Ahelyett, hogy gyenge minĹségĹą adatokat gyĹąjtöttek volna az internetrĹl, a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elĹ az alapokat. Az Azure pedig mindent megkönnyített és felgyorsított.

A modell betanítására szintén gyors és költséghatékony megoldást kerestek: a Microsoft ONNX Runtime DeepSpeed könyvtárát választották a feladathoz, amit az Azure Machine Learning (AML) platformon futtattak. E platform segítségével hatékonyan tudtak haladni a mesterséges intelligencia modellek építésével, munkába állításával, menedzsmentjével és nyomonkövetésével. Így a csapat közben olyan más feladatokra koncentrálhatott, mint például az adatkezelés.

A modell mĹąködéséhez egyébként legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges, ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevĹje többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhetĹ filmfelirat-adatbázis magyar nyelvĹą anyagai közül gyĹąjtötte a csapat.

Habár a pandémia alatt mindannyian otthonról dolgoztak, a BERT-large betanítási folyamata az Azure-on semmilyen problémát nem okozott.

“200 munkaóra alatt végeztünk. Ez a világon az eddigi legolcsóbb BERT-large. Kevesebb, mint 1000 euróba került” – mesélte büszkén Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetĹje. “Az ONNX Runtime nélkül a HILBERT-large modellünk betanítása 1500 órát, vagyis megközelítĹleg két hónapot vett volna igénybe” – hívja fel a figyelmet.

A Pécsi Tudományegyetem BERT-large modellje jelentĹs lehetĹségeket rejt magában az írott és beszélt szöveg feldolgozása, az intelligens keresés, az entitásérzékelés, a dokumentációs klasszifikáció terén. A HILBERT közremĹąködhet újabb, jobb teljesítményĹą chatbotok létrehozásában is.

Mindez pedig segítheti a magyarokat a könnyen érthetĹ, releváns információkhoz való hozzáférésben, különösen a Covid-19 körüli félretájékoztatás elleni küzdelemben. Számos egészségügyi és kormányzati szereplĹ is érdeklĹdött már a HILBERT-large modell iránt.

A projekt teljes ismertetĹje ezen a linken olvasható.

Business Online

BeszĂŠlt ĂŠs Ărott magyar szĂśveg feldolgozĂĄsĂĄt lehetĹvĂŠ tevĹ modellt ĂŠpĂtettek a PĂŠcsi TudomĂĄnyegyetemen

2021. augusztus 27.

KapcsolĂłdĂł cikkek

BelĂŠpĂŠs

Business Online

BeszĂŠlt ĂŠs Ă­rott magyar szĂśveg feldolgozĂĄsĂĄt lehetĹvĂŠ tevĹ modellt ĂŠpĂ­tettek a PĂŠcsi TudomĂĄnyegyetemen

level('hirek', 'prim.hu', 'forrĂĄs: PrĂ­m Online');

2021. augusztus 27.

KapcsolĂłdĂł cikkek

BelĂŠpĂŠs

BeszĂŠlt ĂŠs Ărott magyar szĂśveg feldolgozĂĄsĂĄt lehetĹvĂŠ tevĹ modellt ĂŠpĂtettek a PĂŠcsi TudomĂĄnyegyetemen