FelĂĄldozzĂĄk a pontossĂĄgot a gyorsasĂĄg oltĂĄrĂĄn - Gyakran hibĂĄznak a keresĹmotorok (1. rĂŠsz)

2012. mĂĄrcius 15.

Voltaképpen a személyes népszerĹąség mérésének kézenfekvĹ módja lehet, hogy valaki begépeli a saját nevét egy keresĹbe: a kapott találatok száma sok mindenrĹl árulkodhat. A BBC újságírója azonban inkább egy közismert embert választott, próbaképpen Tim Harford - közgazdász, a The Financial Times újságírója, a Világbank tanácsadója, a BBC More or Less címĹą mĹąsorának vezetĹje, akinek magyarul A leleplezett gazdaság címmel jelent meg kötete - nevét írta a Google-be, és 835 000 találatot könyvelhetett el. Illetve 325 000-et. Vagy 285 000-et. Az eltérĹ eredményekért elég volt pár métert megtennie a szomszédos számítógépekig a BBC szerkesztĹségi irodájában…

    Hogy mi az oka ennek a hatalmas eltérésnek? Viszonylag egyszerĹą a magyarázat: a keresĹmotor pontossága - a kiadott eredmények száma - alapvetĹen attól függ, hogy milyen számítógéprĹl indítják a keresést, és azon milyen Google-verzió fut. A Google-nak egy idĹben több tükörszerveren is üzemel egy-egy példánya, és a találatok száma azon is múlik, hogy ezek közül éppen melyik a legkevésbé leterhelt.

Két gyakori keresztnév: 68 millió találat

    Az eredmények ráadásul perszonalizáltak: igazodnak a korábban indított keresésekhez és a keresést indító személy földrajzi elhelyezkedéséhez is.
    A BBC cikkét jegyzĹ Ruth Alexander még egy meghökkentĹ adattal szolgált: amikor a saját nevére keresett rá, 68 millió (!) találatot könyvelhetett el. Pedig nem írt könyveket, filmekben sem játszott fĹszerepet, és nagyon sokan valószínĹąleg sohasem hallottak róla. Annak, hogy mégis ilyen webes "hatalmassággá", a keresĹmotorok kedvencévé vált, meglehetĹsen prózai oka van: neve két népszerĹą keresztnévbĹl tevĹdik össze.
    A keresĹk adta eredmények tehát félrevezetĹek lehetnek, és a találatok száma mit sem jelent, ha valaki nem gépeli be az aposztrof (') jeleket a keresett név vagy kifejezés elejére és végére, vagy ha túlzottan tág értelmĹą fogalmakat használ. Vagyis: ostoba kérdésre csak ostoba válasz születhet.

Ahány találat, annyi oldal?

    Ráadásul egy Google-bajnokhoz méltó módon, mérnöki pontossággal megfogalmazott keresĹkérdés esetén sem szabad vakon elfogadni a találatok számát. Azt hihetnénk ugyanis, hogy amikor 68 millió találatot jelez a Google számlálója, akkor elvileg 68 millió olyan oldal létezik, amelyeken megtalálható a beírt kifejezés. De szó sincs róla.
    Egy tanulmány készítĹi három keresĹmotor eredményeit vetették össze, mégpedig olyan kérdések alapján, amelyek 1000-nél kevesebb találatot eredményeztek. Megállapították, hogy még a legjobban teljesítĹ keresĹmotor is hajlamos arra, hogy csak úgy összecsapja a számításokat, és a három közül egyik sem szolgált egzakt információval arról, hogy valójában hány dokumentum szerepel a találatok között - megelégedtek az egyszerĹą becsléssel.
    A kutatók azt tapasztalták, hogy a számok akkor még elég pontosak voltak, amikor egyetlen szó alapján kellett keresni, de valahányszor hozzáadtak egy új szót a kereséshez, annál pontatlanabbá váltak a mennyiségi adatok.
    "Nyolcvan százaléknyi idĹt használva fel a becslések megbízhatóan alakultak, csupán 10 százalék volt a hibák aránya - meséli Ahmet Uyar, a törökországi Mersin Egyetem számítástechnikai részlegének vezetĹje. - Viszont ha kétszavas kérdéseket tettünk fel, a találatok pontossága majdnem a felére csökkent."

FelezĹdik a pontosság

    Amikor pedig a kutatók ötre növelték a keresendĹ szavak számát, a pontos találatok száma ismét a felére csökkent. A legjobban teljesítĹ keresĹmotor becslése ugyanakkor csupán 10 százalékkal tért el a valóságos dokumentumok mennyiségétĹl, a rendelkezésre álló idĹ kevesebb mint 20 százalékát használva fel.
    A BBC munkatársa is tett egy próbát egy ötsoros limerick - kötött formájú, abszurd vagy obszcén elemekkel teletĹązdelt - versike elsĹ részével (a 11 szóból álló sor egy dardzsilingi fiatalember buszra szállásának történetét örökíti meg). A keresés 15 találatot eredményezett, majd a kihagyott eredményeket is listázva 29-re nĹtt a szám, de ezek közül a keresĹ csak 21-et mutatott.
    A szakértĹk azzal magyarázzák a jelenséget, hogy a sebesség érdekében kell tolerálni a pontosság hiányosságait. A színfalak mögött üzemelĹ szuperszámítógépeknek ugyanis nagyon gyorsan kell mĹąködniük, miközben rengeteg dokumentumot azonosítanak, kirostálva közülük a reklámcélú "szemetet" és az olyan oldalakat, ahol a keresett szó környezetét ugyanazok a kifejezések alkotják - mindezt kevesebb, mint egy-két másodperc alatt.
    És gondoljunk csak bele, hogy mekkora a világháló, amelyen keresniük kell! A keresĹmotorok valószínĹąleg ennek csak egy töredékét térképezik fel.

Reménytelen mindent megtalálni

    1999-ben a kutatók megpróbálták megbecsülni, hogy a világháló mekkora hányada is szerepel a fĹbb keresĹk indexeiben - az akkor a Nature-ben publikált tanulmány szerint mindössze 16 százalékát dolgozták fel az összes oldalnak.
    És bár azóta a keresĹmotorok hatalmasat fejlĹdtek, maga az internet is nagyon gyorsan bĹvült, és valószínĹą, hogy a keresĹmotorok ma is csak az információ egy viszonylag kis részét lehetnek képesek lefedni. És ez vélhetĹen örökre így is marad.
    Az angliai Wolverhampton Egyetemen dolgozó és a web mérésével foglalkozó professzor, Mike Thelwall szerint a keresĹmotorok sohasem fogják megtalálni a weben található valamennyi oldalt. Ennek oka, hogy egyszerĹąen nem létezik egyetlen olyan hatalmas lista sem, amelyen valamennyi weboldal szerepelne. (folyt.)

Business Online

FelĂĄldozzĂĄk a pontossĂĄgot a gyorsasĂĄg oltĂĄrĂĄn - Gyakran hibĂĄznak a keresĹmotorok (1. rĂŠsz)

2012. mĂĄrcius 15.

KapcsolĂłdĂł cikkek

BelĂŠpĂŠs

Business Online

FelĂĄldozzĂĄk a pontossĂĄgot a gyorsasĂĄg oltĂĄrĂĄn - Gyakran hibĂĄznak a keresĹmotorok (1. rĂŠsz)

level('mtinet', 'mti.hu', 'MTI SajtĂładatbank');

2012. mĂĄrcius 15.

KapcsolĂłdĂł cikkek

BelĂŠpĂŠs

FelĂĄldozzĂĄk a pontossĂĄgot a gyorsasĂĄg oltĂĄrĂĄn - Gyakran hibĂĄznak a keresĹmotorok (1. rĂŠsz)