Tisztogatási hadművelet

Sikertelen BI-projektek, használatlan és kihasználatlan üzletiintelligencia-rendszerek után úgy tűnik, a vállalatok, intézmények végre kellő figyelmet fordítanak az adatminőségre. Lassan egy évtizede, az üzletiintelligencia-rendszerek iránti pislákoló érdeklődés időszakában ezen „apró” hiányosság felett elsiklottak a cégek, még több tízmilliós projektek esetén is sajnáltak erre költeni.
De a szállítók helyzete sem voltak könnyű, hiszen nem a nemzetközi viszonylatban kuriózumnak számító magyar nyelv sokszínűségét és szabályait figyelembe vevő megoldások uralták a piacot. Néhány hazai vállalkozás ugyan megpróbált saját fejlesztésű programmal betörni a piacra, de a hazai piac, ha már értette is a CRM különböző fajtáinak üzleti hasznát, „minőségi” alkalmazásukra – az adattisztítást is beleértve – nem volt még érett. Ám ha lassan is, de fordult a kocka. Ma már nemzetközi BI-cégek is kínálnak adattisztításhoz regionális kiegészítéseket, és az ügyfelek megszerzése mellett a megtartásukért is küzdő, éles versenyhelyzetben lévő szolgáltatók szintén megtanulták tisztelni az adatminőséget.

A tavaly novemberi SAS Klubon is szép számmal vettek részt az említett szolgáltatók érintettjei, pedig akkor a témák között csak egy volt az adatminőség. Az idei SAS Adatminőség Konferencia viszont kizárólag az adatminőség, az adattisztítás témájával foglalkozott. Apropóját a SAS adattisztító alkalmazásához készült magyar nyelvű kiegészítés piacra dobása adta. Ma már az adatminőségben leginkább érdekelt nagyvállalatok, szolgáltatók szinte kivétel nélkül, de a kkv-k közül is egyre többen támaszkodnak működésükben ERP-, CRM-, pénzügyi rendszerekre, alkalmaznak adattárház-megoldásokat. Így a megbízható, minőségi adatok iránti igényüket belső kényszer, üzleti érdek szítja.

Veszteségek

A szaporodó adatforrásoknak, a növekvő ügyfélállománynak, az ügyfelekről, partnerekről, beszállítókról, versenytársakról rendelkezésre álló adatok sokszínűségének köszönhetően exponenciálisan nő a rendelkezésre álló adatállomány. Rendezetlensége, pontatlansága, következetlensége költségnövekedést, hitelképesség-csökkenést, elveszített üzleteket generálva a korábbinál jóval nagyobb károkat okoz, kiemelten a már említett szolgáltatóknál, ahol a bizalom, a cég hitele nélkül nincs üzlet. Ám ahogy Ambran József, a SAS tanácsadója említette, az adatminőség fontosságának felismerését az akvizíciós hullám is segítette. A bekebelezettek tényleges ügyfélszámla a nyilvántartásokban szereplőknél esetenként 50 százalékkal is kevesebb volt. És akkor még a szintén adatminőség-problémákra visszavezethető, azonos címre több példányban kézbesített DM-ekről még nem is szóltunk. A gyártóknál a beszállítók azonosíthatósági problémája – s ezért pl. a kedvezmények kicsikarása –, a bankoknál a már meglévő szolgáltatások újbóli felajánlása okoz az adatminőség hiánya miatt erkölcsi és anyagi kárt, ahogy a sikertelen CRM-projektek felének is ez lehetett a legfőbb oka. De helytelen címzés következtében 500 millió dollárt vesztett optikaikábel-szállítóról is szól a fáma.

SAS-alapon

Gyakorlatilag minden üzletiintelligencia-gyártó, -szállító portfóliójában található adatminőség javítását célzó megoldás, hazai fejlesztésűek is akadnak, és legtöbbjük jellemzője, hogy önállóan, a gyártó termékeitől függetlenül, de azokkal összhangban is alkalmazhatók. A jelenlegi hazai helyzetet tekintve nem a különbségek hangsúlyozására vagy bármelyik favorizálására van szükség, hanem az adattisztítás pozitív hatásának bemutatására. A már említett apropó, vagyis a magyar változat megjelenése kapcsán mi most a SAS adatminőség-megoldásán keresztül kínálunk betekintést az adattisztítás folyamatába, de időről időre más gyártók megoldásairól is beszámolunk.

A 2006 novemberében tartott SAS Klubon a SAS EMEA-tól érkezett Paul Padley mutatta be a Data Quality Solution eredeti változatát. Kiemelte, hogy az információk pontosságát növelve a működési költségek csökkenésén túl a stratégiai irányelvek értéke is növelhető. A megoldás alkalmazásából a megtisztított adatok vállalati szabványoknak való megfelelőségét, egységességét biztosító technikai dolgozók mellett az üzleti felhasználók is profitálnak. Az akkor látott megoldás azonban még nem vette figyelembe a magyar nyelvi, nyelvtani sajátosságokat. A most bemutatott, erre már alkalmas, a beépített szabályok mellett új adatminőségi szabályok alkotását is engedő változat a magyar szokásoknak és formátumoknak (kilenc számjegyű mobiltelefonszám, városnév-rövidítések, nemekre következtetés a keresztnevekből stb.) megfelelő adatkezeléssel segíti a rá támaszkodó vállalatok, intézmények munkáját. Alapja a SAS-technológiába integrálódó, de más megoldásokkal – kiemelten az SAP-vel – is együttműködő DataFlux Data Quality Integration termék, amelynek azonos nevű, adattisztításra, adatminőség-biztosításra specializálódott gyártóját (DataFlux) nyolc éve vásárolta fel a SAS.

Szemetelés


A céljainkat támogató, egyértelmű, biztonságos (csak biztonsági előírásoknak megfelelően változtatható), auditálható, újra előállítható és naprakész adatok felelnek meg az adatminőség követelményeinek. Megfelelőségükért nem egy-egy vállalati, intézményi részleg, hanem azok egésze felel, mint ahogy hiányuk is az egész vállalatot érinti, hiszen ennek hatása a marketingkampánytól a menedzsmentriportokig, az ERP-projektektől az üzleti elemzésekig mindenre kiterjed. Folyamatos, megfelelő infrastruktúrák telepítésével karbantartásuk leegyszerűsíthető.
Ahhoz, hogy legyen mit karbantartani, előbb el kell érni a kívánt adatminőséget. Rövid áttekintést adva a tipikus, az ügyfélszámot virtuálisan növelő adatrögzítési „hibákról”, sajátosságokról, jobban érthetővé válnak az adattisztítás lépései.
A leggyakoribb hiba a „közös nyelv” hiánya. Az adatrögzítés nem írásban rögzített, minden területtől elvárt követelmények szerint történik, az ügyféladatok rögzítésén túl pl. az egységes termékadatbázis hiányát is ideértve. Ebbe a hiányzó értékektől a különböző rövidítéseken és telefonszám-tagolásokon keresztül az alaprendszerben eleve létező formátumkülönbözőségekig sok minden beletartozik. A SAS ehhez szabályokat tartalmazó, minőségi adatbázis-fejlesztéshez alkalmas megoldást, majd az abban előállt adatok „végállomáshoz” (adattárház stb.) szállítását is elvégző alkalmazást kínál.

Takarítás

A SAS-megoldással végzett ötfázisú adattisztítási folyamat első lépése a profilírozás, vagyis az adatok alapvető jellemzőinek meghatározása, pl. az értékkészlet vagy az adatok minimum- és maximumértékének definiálása. A meglévő adatok erősségeiről és gyengeségeiről informáló folyamatot, pl. az adatok pontos és félreérthetetlen voltáról, az egyes oszlopokban szereplő adatok közti kapcsolatról feltett kérdések segíthetik.

A második fázisban, a soronkénti tisztítás során a meglévő adatok formátumának egységesítése, illetve minőségének növelése a cél, s ehhez már szükség lehet a mezők nyelvtani elemzéséhez, ami csak a lokalizált változattal lehetséges. Ebben a szakaszban történik a változatos formában rögzített telefonszámok felismerése és egységesítése vagy az irányítószámok és városnevek egyeztetése is, ami más módon tízezres nagyságrend felett időigényes és embert próbáló feladat lenne.

A harmadik fázis kiemelten akvizíciók esetén lehet fontos, de bármilyen, nagyméretű nyilvántartások egyesítésével kínlódó szervezeteknél is, mert a felsoroltak esetében legritkább, hogy azonos formátumban szerepelnének az adatok. Ebben a folyamatban szűrődnek ki a dupli- és multiplikációk, s kap a cég az összehangolt adatbázis következtében egységes képet pl. az ügyfélkörről, amelyre alapozva mondjuk eredményes marketingakciók kezdeményezhetők. De a hasonló adatsorokat tartalmazó adatbázisok egységesítése is kedvező eredménnyel járhat. Kiemelten igaz ez a pontos(abb) címeket tartalmazó számlázási és a frissebb e-mail címekkel és telefonszámokkal feltöltött marketing-adatbázisok egységesítésére.
A kibővítés a meglévő adatsoroknak a „rejtőzködő” – pl. nem megfelelő mezőkben szereplő vagy a névből, helységnévből kikövetkeztethető (pl. férfi–nő, város–falu) – információkkal való „gazdagítása”.

Ez utóbbival a tisztítás mint olyan le is zárul. A kiválasztott paraméterek nyomon követése alapján végrehajtott felügyelet (monitoring) már a megfelelő adatminőség fenntartását célozza, amiről még az adattisztításra egyébként gondot fordító cégek is előszeretettel megfeledkeznek. Ilyenkor a bevezető adattisztítás során formát öltött paraméterek alapján szűrik ki többek között az érvénytelen formájú adatokat.
A folyamatosan változó és fejlődő vállalati (intézményi) adatvagyon miatt persze arról is gondoskodni kell, hogy az újabb adatok csak az adatminőségi szabványok folyamatos betartását biztosító csatornákon kerüljenek a rendszerbe.

Integráció

Az adattisztító eljárás a SAS Data Integration Server segítségével illeszthető a SAS világába. Az adatintegráció a szervezet különböző területeiről (számlázás, ügyfélszolgálat, beszállítók, partnerek, karbantartás stb.) történő folyamatos adatgyűjtést jelent. Az integrált adatkezelést biztosító SAS-megoldás az adatminőségnek az adategységesítési folyamatba való gördülékeny integrálásához kínál megfelelő környezetet. Azon túl, hogy felismeri a különböző platformok összes adatformátumát, eszközöket is rendelkezésre bocsát az adatok kezeléséhez, az adatminőség biztosításához és elemzéséhez. Segítségével átalakíthatók és kombinálhatók a különböző adatok, elemezhetők és megtisztíthatók, s pontatlanságaik is kiküszöbölhetők. Mindez elsősorban a nagyméretű ügyfél-, termék- stb. adatbázissal dolgozó vállalatoknak, intézményeknek jelent segítséget a következetes és megbízható információhoz jutáshoz. Nem kizárólag SAS-technológián futó – a jövőben elemző folyamatoptimalizálást, kapacitástervezést és képi adatmegjelenítést lehetővé tevő képességekkel bővülő – termékként minden főbb operációs rendszerrel és minden adatforráshoz (adattárházak, mainframe-ek, alkalmazáscsomagok stb.) alkalmazható.

 
 
 

Kapcsolódó cikkek

 

Belépés

 

 

Regisztráció