INTERNETES KERESRENDSZEREK MK ÖDÉSE · nek, azokat mindenképpen érdemes a gyakorlatban is megtekintenie. A példák mellett a hallgatónak szükséges az új, a jegyzetben nem

INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE

Bóta László

MÉDIAINFORMATIKAI KIADVÁNYOK

INTERNETES KERESŐRENDSZEREK

MŰKÖDÉSE

Bóta László

Eger, 2011

Lektorálta:

CleverBoard Interaktív Eszközöket és Megoldásokat Forgalmazó és Szolgáltató Kft.

A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával

valósul meg.

Felelős kiadó: dr. Kis-Tóth Lajos

Készült: az Eszterházy Károly Főiskola nyomdájában, Egerben

Vezető: Kérészy László

Műszaki szerkesztő: Nagy Sándorné

Kurzusmegosztás elvén (OCW) alapuló informatikai curriculum és SCORM kompatibilis

tananyagfejlesztés Informatikus könyvtáros BA, MA lineáris képzésszerkezetben

TÁMOP-4.1.2-08/1/A-2009-0005


5

Tartalom

1. Bevezetés ..................................................................................................................... 11

1.1 Célkitűzés ........................................................................................................ 11 1.2 A kurzus tartalma ............................................................................................ 11 1.3 A kurzus tömör kifejtése ................................................................................. 11 1.4 Kompetenciák és követelmények .................................................................... 11 1.5 Tanulási tanácsok, tudnivalók ......................................................................... 12

2. Információ szolgáltató eszközök fejlődése a könyvtáros szakmában .................... 13

2.1 Célkitűzés ........................................................................................................ 13 2.2 Tartalom .......................................................................................................... 13 2.3 A tananyag kifejtése ........................................................................................ 13

2.3.1 Az információfeltáró eszközök története ............................................ 13 2.3.2 A könyvtári adatbázisok típusai .......................................................... 18 2.3.3 Az információfeltárás intellektuális eszközei ..................................... 19 2.3.4 Az információfeltárás informatikai háttere ......................................... 21 2.3.5 Az online tájékoztatás jellemzői ......................................................... 22 2.3.6 Az információfeltárás új eszközei ....................................................... 23

2.4 Összefoglalás................................................................................................... 26 2.5 Önellenőrző kérdések ...................................................................................... 26

3. A keresőszolgáltatásokkal kapcsolatos alapismeretek ............................................ 27


3.3.1 A webes adatelérés története ............................................................... 27 3.3.2 Keresőrendszer fogalma ...................................................................... 28 3.3.3 Webes keresőszolgáltatások ................................................................ 29 3.3.4 Webes keresőszolgáltatások osztályozása ........................................... 31 3.3.5 Rejtett web .......................................................................................... 34 3.3.6 Az online hálózati keresés közvetített módszertana ............................ 34 3.3.7 A keresés önkiszolgálás modellje ....................................................... 35 3.3.8 Napjaink népszerű keresőrendszerei ................................................... 35 3.3.9 Keresés a jövőben ............................................................................... 36


4. Keresőrobotok ............................................................................................................ 37


4.3.1 A keresőrobotok története ................................................................... 37 4.3.2 A keresőrobotok fogalma .................................................................... 38 4.3.3 A keresőrobotok működése ................................................................. 39


6

4.3.4 Miért a Google a vezető indexelt kereső? ........................................... 41 4.3.5 PageRank algoritmus .......................................................................... 42 4.3.6 A PageRank képlete ............................................................................ 43 4.3.7 A keresőoptimalizálás ......................................................................... 45


5. A kulcsszavas keresés technikái ................................................................................ 47


5.3.1 Az online keresés jelentősége ............................................................. 47 5.3.2 Kulcsszavas keresés ............................................................................ 48 5.3.3 Online keresés lépései ......................................................................... 48 5.3.4 Az 1. lépés: a keresőkérdés értelmezése ............................................. 48 5.3.5 A 2. lépés: a keresőfelület kiválasztása ............................................... 49 5.3.6 A 3. lépés: A keresőkérdés összeállítása ............................................. 52 5.3.7 A 4-5. lépés: Stratégia és válasz .......................................................... 53 5.3.8 Keresés és szimbólikus logika ............................................................ 53 5.3.9 Online keresési stratégiák ................................................................... 59


6. Google, mint kereső eszköz ........................................................................................ 64


6.3.1 A Google keresőrobot háttértörténete ................................................. 64 6.3.2 A Google indexelő része ..................................................................... 66 6.3.3 Kucsszavas keresési alapok................................................................. 68 6.3.4 Összetett kulcszsvas keresés ............................................................... 70 6.3.5 Vertikális Google keresők ................................................................... 75 6.3.6 Legyőzni a Google-t ............................................................................ 77 6.3.7 Google, mint a jövő ............................................................................. 78


7. Metakeresők ................................................................................................................ 80


7.3.1 Metakeresők bemutatása ..................................................................... 80 7.3.2 Metakeresők csoportosítása ................................................................ 81 7.3.3 Idegen nyelvű metakeresők ................................................................. 82 7.3.4 Az Ariadnet bemutatása ...................................................................... 83 7.3.5 Az Ariadnet használata ....................................................................... 84 7.3.6 Az Ariadnet keresőmotor .................................................................... 85


7

7.3.7 A PolyMeta bemutatása ...................................................................... 86 7.3.8 A PolyMeta keresőmotor .................................................................... 86 7.3.9 A Miner bemutatása ............................................................................ 88 7.3.10 A Miner keresőmotor .......................................................................... 89 7.3.11 Egyéb magyar metakeresők ................................................................ 90


8. Speciális keresők ......................................................................................................... 91


8.3.1 A speciális keresők előnyei a könyvtáros számára ............................. 91 8.3.2 Vertikális magyar indexelt keresők ..................................................... 91 8.3.3 Tudományos keresők .......................................................................... 92 8.3.4 Termékkeresők .................................................................................... 94 8.3.5 Felhasználói vélemények keresése ...................................................... 95 8.3.6 Kép- és mozgókép keresők ................................................................. 95 8.3.7 Személykeresők, cégkeresők, településkeresők .................................. 96 8.3.8 Tudástárak ........................................................................................... 97 8.3.9 Humán alapú keresők .......................................................................... 98

8.4 Összefoglalás................................................................................................. 100 8.5 Önellenőrző kérdések .................................................................................... 100

9. Katalógusok .............................................................................................................. 101

9.1 Célkitűzés ...................................................................................................... 101 9.2 Tartalom ........................................................................................................ 101 9.3 A tananyag kifejtése ...................................................................................... 101

9.3.1 Az internetkatalógus fogalma ........................................................... 101 9.3.2 Horizontális katalógusok ................................................................... 102 9.3.3 Vertikális katalógusok ....................................................................... 103 9.3.4 Digitális könyvtárak .......................................................................... 103 9.3.5 Magyar Elektronikus Könyvtár (MEK) ............................................ 104 9.3.6 Neumann ház és a Webcat ................................................................ 104


10. Szemantikus web ...................................................................................................... 106


10.3.1 Tudásmenedzsment, tudásprezentáció .............................................. 106 10.3.2 A szemantikus web ........................................................................... 108 10.3.3 A szemantikus web üzleti oldalról .................................................... 111 10.3.4 Ontológia ........................................................................................... 112 10.3.5 Az RDF ontológia fogalma ............................................................... 114 10.3.6 Webszolgáltatások ............................................................................ 114


8

10.3.7 Tématérképek és RDF ....................................................................... 115 10.3.8 Az RDF ontológia ............................................................................. 116 10.3.9 Az RDFS ontológia ........................................................................... 117 10.3.10 OWL (Web Ontology Language)...................................................... 118


11. Intelligens rendszerek .............................................................................................. 124


11.3.1 Üzleti intelligencia ............................................................................ 124 11.3.2 Üzleti intelligencia az információellátás folyamatában .................... 125 11.3.3 Az üzleti intelligencia és a könyvtár ................................................. 126 11.3.4 Az üzleti intelligencia jövője ............................................................ 126 11.3.5 Adatbányászat ................................................................................... 126 11.3.6 Az adatbányászat irányzatai .............................................................. 128 11.3.7 Az iteratív folyamat .......................................................................... 128 11.3.8 Webbányászat ................................................................................... 129 11.3.9 Szövegbányászat ............................................................................... 131


12. Összefoglalás ............................................................................................................. 133

12.1 A kurzusban kitűzött célok összefoglalása .................................................... 133 12.2 Tartalmi összefoglalás ................................................................................... 133 12.3 A tananyagban tanultak részletes összefoglalása .......................................... 133

12.3.1 Információ szolgáltató eszközök fejlődése a könyvtáros

szakmában ................................................................................................. 133 12.3.2 A keresőszolgáltatások alapismeretei ............................................... 133 12.3.3 A kulcsszavas keresés technikái ........................................................ 134 12.3.4 Google, mint kereső eszköz .............................................................. 134 12.3.5 Keresőrobotok ................................................................................... 134 12.3.6 Metakeresők ...................................................................................... 134 12.3.7 Speciális keresők ............................................................................... 134 12.3.8 Katalógusok ...................................................................................... 134 12.3.9 Szemantikus web ............................................................................... 135 12.3.10 Intelligens rendszerek ....................................................................... 135

13. Kiegészítések ............................................................................................................. 136

13.1 Irodalomjegyzék ............................................................................................ 136 13.1.1 Hivatkozások ..................................................................................... 136 13.1.2 Külső URL hivatkozások .................................................................. 139

14. Ábrajegyzék .............................................................................................................. 141

15. Médiaelemek ............................................................................................................. 143


9

16. Tesztek ....................................................................................................................... 144

16.1 Próbateszt ...................................................................................................... 144 16.2 Záróteszt A. ................................................................................................... 148 16.3 Záróteszt B. ................................................................................................... 152 16.4 Záróteszt C. ................................................................................................... 156


11

1. BEVEZETÉS

1.1 CÉLKITŰZÉS

A kurzus célja, hogy megismertesse a hallgatókat az interneten fellelhető adatok kere-

sésének lehetőségeivel, az online keresés alapvető fogalmaival, a webes keresőszolgáltatá-

sok, azon belül a webes keresőrendszerek működési mechanizmusával, a felhasználói felü-

let felépítésével.

A tantárgy kiemelten kezeli az online keresés adekvát eszközének kiválasztását, rámu-

tatva arra milyen esetben, és miként érdemes igénybe venni az internetes keresést. Kiemelt

figyelmet kap a keresés korszerű, a könyvtáros szakemberek számára nélkülözhetetlen

ismeretet jelentő, tudásalapú internet tárgyalása az online keresés vonatkozásában.

A jelenlegi és a jövő technológiáit egy bizonyos határig szükséges megmutatni, ugyan-

akkor nem szerepelnek a tananyagban mély informatikai ismeretek. Cél továbbá a techno-

lógiák várható hatásainak ismertetése, hiszen a folyamatos és gyors változás miatt a hallga-

tóknak néhány év után már egy egészen más közegben kell kiszolgálniuk a könyvtár

látogatóit.

1.2 A KURZUS TARTALMA

2. Információ szolgáltató eszközök fejlődése a könyvtáros szakmában

3. A keresőszolgáltatásokkal kapcsolatos alapismeretek

4. A kulcsszavas keresés technikái

5. Google, mint kereső eszköz

6. Keresőrobotok

7. Metakeresők

8. Speciális keresők

9. Katalógusok

10. Szemantikus web

11. Intelligens rendszerek

1.3 A KURZUS TÖMÖR KIFEJTÉSE

A jegyzet gerincét az internetes keresőrendszerek széles közösség által használt részé-

nek leírása alkotja. A jegyzetben a hallgató megismeri a keresőrendszerek kapcsolatát a

könyvtári tájékoztatással, a mai keresők fajtáit, azok használatát, működési mechanizmusa-

it, valamint kitekintést nyújt a következő évtizedek várható technológiai változásaira.

1.4 KOMPETENCIÁK ÉS KÖVETELMÉNYEK

Megérti a hallgató a könyvtári információ feltárás eddigi szakaszait, nehézségeit, fejlő-

dését, tisztában lesz a keresés új tendenciáival, valamint eszközeivel.

A hallgató képes lesz a kurzus elsajátítása után a webes keresőrendszerek előnyeinek

figyelembe vételével a keresőkérdéshez a megfelelő keresési stratégiát kidolgozni, az on-

line kereső szolgáltatásokat kiválasztani. A konkrét keresők használatával tisztában lesz,

képes lesz azok kezelésére, valamint az összetett keresőkérdés kialakítására.


12

A hallgató megtanulja a jövő évtized várható változásait a keresési technológiában, ké-

pessé válik a későbbiekben bekövetkező változások nyomon követésére.

1.5 TANULÁSI TANÁCSOK, TUDNIVALÓK

A leckék teszőleges sorrendben dolgozhatók fel, bár az első két lecke alapozó jellegű,

de az előzetes ismeretek birtokában bármelyik lecke feldolgozható a többi nélkül is. A

leckék legtöbbjénél a hallgató próbáljon meg a példákhoz újabbakat keresni, mivel így lesz

képes a keresőrendszerek összehasonlítására, ugyanakkor a példák önmagukban értéktele-

nek, azokat mindenképpen érdemes a gyakorlatban is megtekintenie.

A példák mellett a hallgatónak szükséges az új, a jegyzetben nem szereplő keresési le-

hetőségeket is megnéznie, erre azért kell képesnek lennie, mert az itt leírtak csak 2010-ben

maradéktalanul aktuálisak. Az utolsó két lecke jövőbe mutató, azok témakörein el kell

gondolkodnia, bár hozzá kell tenni a szemlélet kialakításának kedvéért, hogy a hallgató

tanulmányai alatt nem, de munkája során valószínűleg találkozik azokkal.


13

2. INFORMÁCIÓ SZOLGÁLTATÓ ESZKÖZÖK FEJLŐDÉSE A

KÖNYVTÁROS SZAKMÁBAN

2.1 CÉLKITŰZÉS

A könyvtáros szakma információszolgáltató eszközeinek megismerése, átalakulásának

nyomon követése. A hallgató megtanulja, hogy az információkeresés és -szolgáltatás esz-

köze, lehetősége, tárgya, módszere állandóan változik, ugyanakkor a korábbi, hagyomá-

nyos apparátus egyes elemei részben megmaradnak, és a korszerű rendszerek kisebb-

nagyobb mértékben azokra építenek.

2.2 TARTALOM

Az információfeltáró eszközök története

Könyvtári adatbázisok típusai

Az információfeltárás intellektuális eszközei

Az információfeltárás informatikai háttere

Az online tájékoztatás jellemzői

Az információfeltárás új eszközei

2.3 A TANANYAG KIFEJTÉSE

2.3.1 Az információfeltáró eszközök története

A feltárás hagyományos eszközei

A régi korok emberéhez ugyan a mainál jeletősen kevesebb információ jutott el, ennek

ellenére már az ókortól beszélhetünk azinformáció rendszerezésének igényéről, nyilvánva-

lóan a későbbi hozzáférés megkönnyítése érdekében.

Az ókorból teljes egészében egyetlen könyvtári szakrendszer sem maradt fenn, de kata-

lógustöredékek alapján mégis nyerünk némi betekintést. A sumér fővárosnak, Ur város-

ának romjai között találták meg a legrégebbi ékírásos emléket. A sumérok égetett agyag-

táblákból készítették „könyveiket”.

A világ első könyvtári katalógusát Ninivében találtak meg. Az első rekonstruálható

ókori könyvtár az asszír birodalom uralkodójának, Asszurbanipálnak agyagtábla-gyűjte-

ménye volt. A könyvtár katalógusa két részből állhatott, az egyik a szerzői, míg a másik a

szakrendi felsorolást tartalmazta, az agyagtáblákat témakörök szerinti csoportosították.

Az ókori görög filozófusok nemcsak könyvgyűjtéssel foglalkoztak, hanem jelentős sze-

repük van az osztályozással kapcsolatos alapelvek kialakításában. Példaként említhető

Platón „hármas tudományfelosztása”, melyet a lelki képességekre alapozva vázolt fel: dia-

lektika-értelem, fizika-érzékelés, etika-érzelem és akarat. Ez a hármas felosztás nagy ha-

tással volt a tudományok osztályozására. Arisztotelész tudományfelosztása Platón gondola-

tain alapszik, de azt részletesebben tagolja, csoportosítja. Osztályozása alapjául a

tudomány célját emelve ki, elméleti és gyakorlati tudományokat különböztetett meg.

Az alexandriai könyvgyűjtemény megteremtését az ókori könyvtártörténet legjelentő-

sebb eseményének tekinthetjük a rendszerezés szempontjából is. A gyűjtemény kb.


14

700 000 papirusztekercset tartalmazhatott. Az alexandriai gyűjtemény vezetését a tudo-

mány fő embereire bízták, elsőként a grammatikus-filológusra, az epheszoszi Zenodo-

toszra, ő kezdte meg a könyvállomány rendezését.

A történelem első, név szerint ismert könyvtárosa Kallimakhosz volt (i.e. 310–240), aki

Pinaches (táblácskák) címmel katalógust készített. Anyagát két fő csoportra osztotta: köl-

tőkre és prózaírókra. Ezeken belül hat-hat alcsoportot állapított meg aszerint, hogy az adott

szerző mely műfajban jeleskedett (pl. elégikusok, szatírikusok, epikusok, illetve történet-

írók, filozófusok, orvosok stb.). A leíró katalogizálás módszereinek kialakulása szempont-

jából is kiemelkedő jelentőségű Kallimakhosz műve: felvette a könyvek szerzőjének nevét,

címét, megadta a terjedelmet. Az egyes szerzőkről életrajzi adatokat is közölt. A Pinaches

hosszú ideig az ókor későbbi bibliográfiáinak alapjául szolgált.

A történeti vonatkozásokat az évszázadokon keresztül hosszasan lehetne még sorolni,

lépjünk előre az időben, és következzen egy jelentős mérföldkő, a papír alapú katalógusok

széles kürű elterjedése. A papír alapú katalógusok közül elsőként kötetkatalógust használ-

tak, majd ezt követte a cédulakatalógus. Azóta ugyan mindkettő penetrációja, így szerepe

is folyamatosan csökkent, de még 2000 után találunk példát az alkalmazásukra. A cédula-

katalógus az 19. század végén vált a könyvtárakban a másodlagos információk feltárásának

és keresésének fő eszközévé, és ezt a szerepet az 1990-es évekig töltötte be, de egyes kis-

könyvtárak a mai napig ezt használják. A cédulakatalógus egy-egy könyvtár állományát

tükröző szurrogátumok rendszerezésére, azon keresztül az állomány rendszerezett áttekin-

tésére szolgálnak, szerkesztésének szabványai 1980–86 között jelentek meg.

A katalógusok használatának szabályaival sokan, többek között elsőként az ókori görö-

gök is foglalkoztak. Példaként tekintsük át Cutter (1876) megfogalmazásában a katalógu-

sok alapján történő keresés elveit:

− tegye lehetővé, hogy az olvasó megtaláljon egy könyvet, amelynek a szerzője, a

címe, a tárgya ismert,

− mutassa meg a felhasználónak, hogy a könyvtár milyen dokumentummal rendelke-

zik: adott szerzőtől, meghatározott témában, és egy bizonyos irodalomban,

− segítsen az olvasónak egy könyv kiválasztásában annak bibliográfiai, tartalmi jel-

lemzői szerint.

Ma az online keresés alapelvei hasonlóak, ugyanis ma is keresünk konkrét elektronikus

dokumentumot, objektumot ismert adatok alapján, valamint keressük a dokumentumok,

objektumok listáját egy témakörrel kapcsolatban. Az információkresés formai szempontjai-

ról a Bibliográfiai adatfeldolgozás tanegységen belül, míg a tartalmi szempontjairól az

Információkereső nyelvek (IKNY) tanegység keretében tanultak részletesebben.

Feltárás mágnesszalagon tárolt adatbázisból

A mai adatbázisok történeti előzményei az egy-egy szakterület primér irodalmát feldol-

gozó, bibliográfiai-referáló folyóiratokra épülő adatbázisok, amelyek a kezdetektől fogva

kereskedelmi vállalkozásokként indultak az 1960-as években.

Az adatbázis a számítógépes adatfeldolgozó rendszer működé-

séhez szükséges, egymással logikai kapcsolatban levő adatok szer-

vezett halmaza. Segítségével összetett szerkezetű adatmodellt való-

síthatunk meg.


15

A mágnesszalagos bibliográfiai adatcsereformátum szabványa (ISO 2709) 1973-ban,

míg az ezen alapuló magyar szabvány 1983-ban jelent meg. Az adatbázisok egyedi nevet

kaptak, ami egyértelművé tette a keresés lehetőségeit.

Példa:

Chemical Abstracts – CAS, ERIC. A referáló lapok többségét már számítógéppel állí-

tották elő, és innen már csak egy lépés volt, hogy egy-egy referátum adataiból és a hoz-

zá kapcsolódó információkeresést segítő keresőnyelvi eszközökből kialakuljanak a re-

kordok, a referáló lapok számítógépes változataiból az adatbázisok. Elsőként az

American Chemical Society referálólapja, a Chemical Abstracts (1961-től) és a Natio-

nal Library of Medicine (Bethesda, Wa.) Index Medicusa (1963-tól) éltek az új techni-

kai lehetőséggel.

Adatbázisokat a könyvtári munka könnyítése érdekében készítettek, és az adatbázisok

neve volt kiemelt jelentőségű. Ejtsünk néhány szót végre magáról a keresésről is. Az adat-

bázisokban való keresés jellemzői a mai szemmel nézve igen sajátosak a kezdeti mágnes-

szalagos adattárak közvetített kereséséhez képest. A felhasználó ugyanis a keresésben köz-

vetlenül nem vett részt. A keresést a professzionális kereső szakemberek végezték el, ők

fogalmazták meg a keresőkérdést.

A keresőkérdés a felhasználó eredeti, feltett kérdésének a számí-

tógépes keresőrendszer szintaktikája szerint átírt karakterlánca. A

keresőkérdés lehet egyszerű vagy összetett.

Kezdetben a keresőprogram számára kezelhető formában át-

alakított, természetes nyelvű keresőkérdést a keresőprofil jelentet-

te, de napjainkban a keresőkérdéshez társítjuk ezt a jelentést. Ösz-

szetett keresőkérdés beírásakor általában több szót adunk meg, és

Boole-operátorokkal (logikai operátorokkal) kapcsoljuk össze a ke-

resőkérdés szavait. Az összetett keresés számos könyvtári rend-

szerben parancsszavas formában történik (például CCL nyelven).

A keresőprofil használatát az adatbázisok specifikus, bonyolult, elágazó, paranccsal

vagy menüvel vezérelt keresőrendszerei indokolták, illetve az, hogy a gépidő és a hálózati

kapcsolódás igen drága volt. A keresőprofil szerkesztése a felhasználó által megadott

szempontok alapján, a megfelelő segédeszközök (tárgyszójegyzékek, tezauruszok stb.),

parancsnyelv és kereséstechnikai eszközök (Boole-operátorok, csonkolás stb.) segítségével

történt. Ezt a keresőprofilt hasonlította össze a gép az adatbázisban levő dokumentumok

profiljával. A gyakorlatias olvasók számára íme egy konkrét segédlet a keresőprofil össze-

állításához: http://gep.dialog.com/instruction/workbook/2005_labwb_bluesheets.pdf.

Az offline mágnesszalagos adatszolgáltatások a szelektív információterjesztés (SDI)

leggyakribb példáinak minősültek. A beszerzett mágnesszalagok alapján a szelektív infor-

mációterjesztési rendszer munkafolyamatai a következők voltak: a szolgáltatás szervezése,

infrastruktúraépítés, az információk számítógépes szelektálása, a felhasználók kiértesítése,

a találatok értékelése, a felhasználókkal való folyamatos kapcsolattartás, és igény esetében

dokumentumok, másolatok szolgáltatása.

E szolgáltatási formának alapvető szerepe volt a nemzetközi információcsere szabvá-

nyosításában, az egységes szabványos rekordszerkezetek használatában, a szolgáltatási


16

rendszerkoncepció elterjesztésében. Az 1970-es években Magyarországon 25 mágnessza-

lagos szolgáltatás honosodott meg (pl. Veszprémi Vegyipari Egyetem Központi Könyvtá-

ra, OMIKK).

A matematikai logikai alapokon nyugvó, adatbázisban történő keresés az adatbázis-

kezelő rendszerek része volt, magát a keresést különösebben nem írták körül, hiszen maga

az adatbázis csak a keresővel együtt használható, vagyis az adott adatbázishoz egy kereső

volt, és az általában csak egy adatbázisban tudott keresni.

1. kép Az információfeltárás eszközeinek fejlődése

Feltárás mágneslemezen és optikai tárolón rögzített adatbázisból

Az 1980-as évek második felében hazánkban is megjelentek a CD-ROM-os adatbázis-

ok, volt olyan, amelyet például témafigyelésre alkalmaztak (lásd MTA). A témafigyelséhez

kapcsolódó példa a PRESSDOK, ami az Országgyűlési Könyvtár hazai politikai, gazdasági

és részben jogi témájú sajtófigyelése. Másik példa a HUNDOK, ahol az Országgyűlési

Könyvtár állományában megtalálható, hozzávetőleg 50 mértékadó külföldi sajtóorgánum

Magyarországról szóló cikkeinek gyűjteménye.

Az 1990-es években bontakozott ki a helyi hálózaton keresztül történő keresés, és meg-

jelentek a weben az online könyvtári katalógusok (OPAC).

Az online szolgáltatások az ezredfordulóra erőteljes fejlődésnek indultak. Online háló-

zati szolgáltatóközpontok jöttek létre, amelyek biztosították az online adatbázisok hálózati

használatát. A szolgáltatók (pl.: Dialog, DataStar, STN) a szolgáltató-központokban ret-

rospektív adatbázis építés folytattak, ezekben az adatbázisokban parancsnyelv alapján ke-

restek. Az interneten erősödik az önkiszolgálás, és a keresés technikai eszközei a felhasz-

náló oldalán egyszerűsödnek. Az ezredfordulón a láthatatlan vagy mélységi web keresési


17

lehetőségeit tárták fel, ami az altalános, automatikus keresőszolgáltatás által nem indexelt

tartalmakra terjed ki, tehát a weben keresztül lekérdezhető adatbázisok adatainak feltérké-

pezését jelenti. A jövőben az intelligens webes keresés fejlődése várható, melynek elősze-

lei már most is megmutatkoznak. Az utóbbi témákról a későbbiekben részletesen is szó-

lunk.

A fenti gondolatmenet vázlatosan az 1. ábrán látható. Az alsó szaggatott vonal alatt a

papír alapú keresést segítő eszközöket, míg a felső szaggatott vonal felett a keresés ható-

körének, illetve a használók körének érdemi változását láthatjuk. A keresés hatóköre a

formai adatokról áthelyeződik a tartalmi jellemzőkre. A használók köre pedig egy szűk

szakmai réteg (könyvtáros, kutató stb.) helyett egyre inkább hazánk és a világ teljes lakos-

ságának a digitális írástudással rendelkező hányadát jelenti.

A felhasználó szempontjából az adatelérés fokozatosan vált nyitottabbá. A felhasználó

kezdetben csak a keresőkérdést tehette fel, később maga is használhatta az adatbázishoz

kapcsolódó keresőrendszereket. Az internetnek köszönhetően ez kiteljesedett, hiszen az

adatok elképesztően nagy tömegéből az egyes kutatóműhelyek, illetve később a cégek egy

adatbázist készítettek, amelyben lehetett keresni, és ezekre épültek az online keresőrend-

szerek, majd ezek egy része később nyitott keresőszolgáltatássá vált. Az említetteken túl,

az utóbbi évtizedben váltak jelentőssé az automatikus indexelőmotorra épülő általános

keresőszolgáltatások, például a Google, Yahoo, Bing.

Az interneten tárolt információk elérése

Valaha a könyvtárosok a keresőkérdésre informatikusok nélkül nem kaptak volna vá-

laszt, mivel a választ általában csak az adatbázishoz tartozó keresővel kaphatták meg. Az

informatikusok szerepe a későbbikeben háttérbe szorult, és a könytáros közvetlenül keres-

hetett az adatbázisokban. Az interneten fellelhető számos keresőrendszer azonban már nem

egységesen, nem azonos céllal, és időben is eltérő módon használható. Ennek következ-

ménye, hogy az ezredforduló után a könyvtárosok szaktájékoztató eszközei évről évre je-

lentős változáson mennek keresztül, emiatt a hatékony keresés érdekében érdemes elsajátí-

tani, majd állandóan frissíteni a használatukhoz szükséges ismereteket.

Az adatbázisban tárolt és kereshető adatok aktualizálása, frissítése az adatbázisok típu-

sától, illetve a szakterülettől függően változik. Az adatbázisokban először megjelentek a

korábban is használt deszkriptorok, tárgyszavak, de később az ún. szabad keresőszavak

vagy más néven kulcsszavak is rendelkezésre álltak. A keresés igénybe vehető módszerei,

és egyben eszközei az adatbázis keresőfelületén a következők:

− két fokozat: egyszerű keresés, haladó (összetett) keresés,

− böngészés,

− tezaurusz-üzemmód (az adatbázisok számottevő részében).

A jelenlegi webes technológia az állandó átalakulás következtében öt–tíz év távlatában

jelentős mértékben változik, lehetőségei kibővülnek. A hagyományos és számítógépes

technológiák lehetőségeinek kiaknázásával a korszerű könyvtárosi feladatkör kiegészül a

tudásfeltárással. Az átláthatatlanul nagy adattömegben a könyvtárosnak nem csupán egy

releváns információt kell megtalálnia, hanem a lehető legalaposabb információt kell átad-

nia a kívánt mélységig. Ehhez elengedhetetlen az új webes technológiák megismerése, a

web átalakulásának, fejlődésének megértése, és lehetőségeinek gyakorlati készség szintű

elsajátítása.


18

2.3.2 A könyvtári adatbázisok típusai

A könyvtárakban az adatelérés szemszögéből a legnagyobb változást elsőként az adat-

bázisok jelentették. Adatbázisok nélkül nem beszélhetünk elektronikus keresésről sem. Az

adatbázisokat a szolgáltatott információk szempontjából a Carlos A. Cuadra által kialakí-

tott taxonómia alapján csoportosítjuk. Ez a csoportosítás azért is fontos, mivel az itt felso-

rolt adatbázis-típusok kezdetben meghatározták a keresés tárgyát. Az adatbázisoknak két

jelentős ága ismert: a referensz (másképpen bibliográfiai vagy forrástájékoztató) adatbá-

zisok, valamint a forrás adatbázisok.

Referensz adatbázisok

Jellemző rájuk, hogy az eredeti, elsődleges forrásokra vonatkozó ún. másodlagos in-

formációkat tartalmaznak. A referensz adatbázisoknak két fajtája van: a bibliográfiai adat-

bázisok és a forrástájékoztató adatbázisok.

A bibliográfiai adatbázisok elsődleges forrásai a kiadott vagy meg nem jelentetett do-

kumentumok (könyvek, időszaki kiadványok, folyóiratcikkek, szabadalmak, térképek,

zeneművek stb.). A másodlagos információk a rájuk vonatkozó leírások (bibliográfiai téte-

lek, referátumok, annotációk, tömörítvények stb.).

Példa a bibliográfiai adatbázisokra:

− könyvtári online katalógusok,

− online módon elérhető bibliográfiák (pl.: MNB),

− cikkadatbázisok (pl.: MANCI, PRESSDOK),

− online szakterületi adatbázisok (pl.: ERIC, MEDLINE).

A forrástájékoztató adatbázisok (referral-databases) személyek, szervezetek, szolgálta-

tások, folyó kutatások adatait tartalmazzák és teszik kereshetővé. A bennük található má-

sodlagos információk a forrásokra vonatkozó rekordok (leírások), amelyek alapján azok

elérhetők.

Példa forrástájékoztató adatbázisokra:

− cím- és céginformációs adatok (név- és címtárak, cégkatalógusok), például a KSH

cégnyilvántartása

− telefonkönyvek, pl.: „Arany Oldalak” szakmai telefonkönyv a weben

− termékinformációs adatbázisok, wapon (mobiltelefonon) és CD-ROM-on elérhető

adatbázisok.

Megjegyzés: a könyvtári adatbázisok leírásához használt forrással ellentétben a forrás-

tájékoztató adatbázis fogalma azonos a referensz (bibliográfiai) adatbázissal és tovább nem

bontható. Ez a három kifejezés: referensz-, bibliográfiai-, forrástájékoztató adatbázis

ugyanazt jelenti: csak bibliográfiai adatokat tartalmaz. Forrástájékoztató ugyanis az az

adatbázis, azaz bibliográfiai (referensz) adatbázis, amelyekben csak bibliográfiai adatokat

lehet keresni. Így a címtárak, telefonkönyvek stb. nem tekinthetők referensz adatbázisnak.

Forrás adatbázisok

A forrásadatbázisok elsődleges adat- vagy információforrások, amelyek önmagukban

tartalmazzák a keresett információt (számszerű, szöveges adat, vagy teljes szöveg formájá-

ban). Közvetlen választ adhatnak kérdéseinkre, ezért nevezik forrás típusú adatbázisoknak

is. Fajtái: numerikus, szöveges-numerikus, teljes szövegű adatbázisok.


19

A numerikus adatbázisok eredeti statisztikai vagy más numerikus adatokat (például

termelési, ipari, fogyasztási, költségvetési, pénzügyi, választási, demográfiai adatokat)

tartalmaznak a legkülönfélébb (például idősoros, területi) rendezettségben. Adatbankoknak

is nevezzük őket, melyeknek egy része nem nyilvános. Kérdéseinkre közvetlen választ

adhatnak. Példák a numerikus adatbázisokra: a statisztikai hivatalok adatbázisai, a demo-

gráfiai adatbankok, a lakossági címnyilvántartás, az igazgatási (miniszteriális és önkor-

mányzati) adatbázisok (például a Defense Data Bank). Az ipari termelés és szolgáltatás

adatait tartalmazó adatbankok (például az USA mezőgazdasági adatait heti, havi és ne-

gyedéves idősorokban szolgáltató National Agricultural Statistical Service, a termelési,

fogyasztási és népességi adatokat tartalmazó PTS Time Series).

A szöveges-numerikus adatbázisok eredeti szöveges és számszerű adatokat felváltva

tartalmaznak. Életrajzi, vállalati, politikai stb. adatbázisok, olykor kézikönyvként nyomta-

tott formában is léteznek. llyen adatbázisok, például a Pályázatfigyelő, a CompAlmanach

Kft. Ki mit gyárt? vállalati katalógusa, a vegyi anyagokról szóló információkat szolgáltató

CHEMSEARCH.

A teljes szövegű adatbázisok eredeti szöveges dokumentumokat tartalmaznak, továbbá

kiegészülnek keresőnyelvi eszközökkel. A teljes szövegű adatbázisok esetében a dokumen-

tum teljes tartalma, s nem a róla szóló híradás, leírás kerül az adatbázisba, ezután annak

minden elemét visszakereshetővé teszik. Példák a teljes szövegű adatbázisokra: jogi adat-

bázisok (LEXIS), gyógyszerészeti, orvosi (Drug Information Fulltext stb.), gazdasági és

műszaki adatbázisok, elektronikus-digitális könyvtárak (például a Magyar Elektronikus

Könyvtár), a digitalizált enciklopédiák (például azEncyclopedia Britannica), az elektroni-

kus folyóiratok és lapok cikkeinek adatbázisai (például a Népszabadság, a Figyelő, a La-

káskultúra, a Times archívumai). A multimédiás adatbázisok a teljes szövegű körébe tar-

toznak, természetesen a „szöveg” fogalmát tágabban értelmezik.

2.3.3 Az információfeltárás intellektuális eszközei

A könyvtári adatbázisok alkalmazásainak kezdeteitől (1960-as évek) azok élen jártak

mind az információkereső nyelvek (aspeciális osztályozási rendszerek, tárgyszó rendsze-

rek, tezauruszok) fejlesztésében, mind pedig az igénybe vehető keresési lehetőségek bőví-

tésében (Boole-operátorok, helyzeti operátorok, csonkolás, felhasználói preferencia szerint

keresés, mezők szerinti keresés és szűkítés, böngészés lehetősége). A keresés elősegítésére

szavas, kifejezéses, kijelöléses, összetett és speciális (programozható) indexelési típusokat

fejlesztettek ki. Az indexgenerálásnak köszönhetően sokféle adattípus (szerzők neve,

tárgykörök, földrajzi helyek, intézmények neve, nyelv stb.) szerinti keresést tesznek lehe-

tővé, elősegítve a nagyobb pontosság elérését.

Az adatbázisok jellegzetessége, hogy többféle kereső nyelv használatát teszik lehetővé,

melyek az alábbi alapeseteket jelentik vagy ezekre épülnek:

− szabadszavas (kulcsszavas, szövegszavas) keresés,

− kötöttszavas (tárgyszavas) keresés,

− deszkriptor (tárgyszavak hiearchiájának leírása) szerinti keresés.

A szabadszavas keresés természetes nyelven alapuló, nem szab-

ványosított, azaz bármilyen szó szerepelhet a keresőkérdésben, sőt

annak a ragozott vagy csonkolt alakjai is.


20

Az online keresőrendszerek a szabadszavas keresést biztosítják, melyek a keresés

kulcsszavai, ezért a kulcsszvas kereső elnevés is igen gyakori.

A kötöttszavas keresés szabványosított, így csak a szerkesztési

szabályoknak megfelelő (például csak alany esetben álló, egyes

számban lévő főnév) szavak szerepelhetnek a keresőkérdésben,

esetleg azok szinonimái.

A deszkriptor szerinti keresésnél csak a megfelelő jelzetek szerepelhetnek a keresésben.

Az online könyvtári rendszerek mindhárom keresést, és azok kombinációját is használják,

de a tananyagunkban csak a szabadszavas vagy a gyakrabban emlegetett kulcsszavas kere-

sés jelenik meg. A kulcsszavas keresésről, a tárgyszavazásról, a deszkriptorszerkesztés

szabályairól tanultakat érdemes felidézni az Információkereső nyelvek (IKNY) tanegység

tananyaga alapján.

Kereséstechnikai eszközök

A bibliográfiai és referáló adatbázisoknál a kereséstechnikai eszközök széles palettája

áll rendelkezésre, természetesen a felsoroltak mindegyike nem vonatkozik minden adatbá-

zisra:

− a keresőkérdésben fogalmi csoportok (fogalomkörök) kialakítása, megfelelő se-

gédletek alapján (tezauruszok, tárgyszójegyzékek, osztályozási táblázatok),

− ezek egymáshoz kapcsolása a Boole-operátorok segítségével (a teljesség növelésé-

re szolgál az OR, a pontosság növelésére az AND és NOT operátor),

− a keresőkérdésben helyzeti operátorok használata a keresőszavak egymáshoz vi-

szonyított előfordulásának meghatározására, a pontosság növelésére

− a keresőkérdésben a szó csonkolásának különféle változatai (szóvégi egy vagy

több karakter, szóközi, szókezdeti stb.) a teljesség növelésére,

− a keresés körének, helyének, tárgyának korlátozása stb. a pontosság növelésére

(például nyelvi korlátozás).

A felsoroltak mindegyike jellemző az online keresésre is, bár az első eszköz még na-

gyon kevés online kulcsszavas kereső sajátja.

Keresési segédeszközök

A korábban offline elérhető segédeszközök a keresőrendszer dokumentumai, például

parancsnyelv kézikönyve, adatbázisok dokumentumai, az adatbázis információkereső

nyelvének dokumentumai napjainkra online hozzáférhetővé váltak. Az online szolgáltatók

által a rendszerekhez biztosított „help” üzenetek; weblapjukról lekérhető információk;

kezdetekben hirdetőtáblák (BBS) stb. Az adatbázisokhoz megbízható, gyakorlatias tájé-

koztató felületek (súgó, GYIK – Gyakran Ismételt Kérdések). A tájékoztató felületek jó

példa az ERIC adatbázis (http://www.eric.ed.gov/), amelyhez a „blue sheet” segédlet kap-

csolódik, amelyek segítséget nyújtanak a felületéről elérhető, de éltérő keresési stratégiák-

ról.

http://www.eric.ed.gov/


21

2. kép Online segédeszköz a Polymeta keresőrendszernél

2.3.4 Az információfeltárás informatikai háttere

Az adatmodell megvalósítása, az adatbáziselemek és kapcsolatok adatbázisba szervezé-

se adatbázis-kezelő rendszerrel történik. Ez biztosítja alkalmazói szinten az adatbevitellel,

karbantartással, kereséssel, kivitellel stb. kapcsolatos műveleteket.

Az első adatbázis-kezelők hierarchikus szerkezetűek voltak, ezután a hálós szerkezetű

adatbázisok következtek, míg az 1970-es évek közepétől a relációs adatbázis-kezelő rend-

szerek működtek, és részben ilyen alapon működnek napjainkban is (1980-as évek közepé-

től: ORACLE, TINLIB), de az utóbbi évtizedben egyre jelentősebb szerepet kapnak az ún.

objektumorientált rendszerek.

A relációs adatbázis-kezelő rendszerekre (MS Access) jellemző rájuk az adatelem-

rekord-fájl szerkezet és a mezők közötti, rekordok közötti és fájlok közötti kapcsolat, va-

lamint az adatelemek és rekordok azonosított kezelése (az adatelemet például az adat-

elemnév/mezőnév, a rekordot a rekordazonosító adatelem azonosítja), valamint az invertált

fájlok és a Boole-algebrai műveletek kitüntetett szerepe. Az adatok kezelésére (lekérdezé-

sére, frissítésére, törlésére, hozzáadására) adatkezelő nyelveket dolgoztak ki. Ezek közül a

legismertebb, szabványosként elfogadott formátumú az SQL (Structured Query Language).

Az SQL-nyelv logikai alapját a Boole-algebra adja.

A relációs adatbázisok kiválóan alkalmasak bibliográfiai adatok tárolásra a nem szöve-

ges szurrogátumok szintjéig, ugyanakkor a szöveges információkeresés szempontjainak

kevésbé felelnek meg.


22

Ezért is jelentek meg az objektumorientált adatbáziskezelő rendszerek, melyek képesek

a dinamikus változás követésére, s ily módon jól alkalmazhatók az automatikus indexelés-

re, ahol újabb szöveg bevitele esetén automatikusan aktualizálni kell az indexkifejezések

listáját is. Az objektumorientált adatmodellel teljes dokumentum, sőt akár a teljes gyűjte-

mény is ábrázolható, de a dokumentumon belüli kognitívumok is, mégpedig az eredeti

logikai és szemantikai struktúra megtartásával. jövő

2.3.5 Az online tájékoztatás jellemzői

Az értékelés kérdései

Az adatbázisok tekintettel differenciált feltáró rendszerükre, egyaránt lehetőséget adnak

a nagyobb teljesség, illetve a nagyobb pontosság elérésére, arra, hogy a keresés minél több

relevánsabb találatot eredményezzen.

Releváns találat: A keresőkérdésekre adott választ tartalmazó

pontos találat.

A találatok között a témakörhöz nem kapcsolódó, vagy a témakörhöz kapcsolódó, de

pontos választ nem szolgáltató rekordok szerepe a keresés szempontjából értéktelen.

Teljesség: A kereső rendszer hatékonyságának jellemzésére

szolgáló, a releváns találatok kihozatalára jellemző mutató.

Az adatbázisok esetében az OR Boole-operátor, a csonkolás fontos eszközei a teljesség

biztosításának.

Pontosság: megtalált releváns találatok arányára jellemző muta-

tó (releváns találat/összes találat).

Nagyobb pontosságot biztosító eszközök: AND Boole-operátor, a különféle indexek

generálásának termékei, korlátozási módszerek, valamint az infromáció kereső nyelvek

célirányos használata.

A fentiek az online kulcsszavas keresés jellemzői is. Kiemelendő azonban, hogy a zaj, a

zsákutcás, halott, ismétlődő hivatkozások lehetősége sokkal kisebb az adatbázisok eseté-

ben, mint például a csaknem kizárólag szabad szavakat alkalmazó keresőrendszerek eseté-

ben.

Fejlesztési feladatok

Az internetes adatprezentációban egyre fokozott szerepet kap a verseny, a (könyvtári)

adatbázisoknak alkalmazkodni kell az internet fejlődéséhez. Az internet megjelenésével

fokozatosan megnőtt az igény jó minőségű, ingyenes vagy olcsó, a weben hozzáférhető

adatbázisok iránt, ami nagy kihívást jelentett a hagyományos, kereskedelmi online adatbá-

zisok számára.

A legtöbb adatbázis alkalmazkodni igyekszik a megváltozott körülményekhez. Egyes

adatbázistípusok erősen veszélyeztetettek ebben az új környezetben, de vannak olyanok is,

amelyek megerősödhetnek. Az utóbbira jó péla a hivatkozások feltárására épülő Science

Citation Index, amelynek jelentősége valószínűleg hosszú időn át megmarad, hiszen hasz-

nálata a tudományos teljesítmények mérésekor nélkülözhetetlen. A szöveges adatbázisok

közül a leginkább veszélyeztettek az alacsony feldolgozási fokúak, így jelentőségük hát-


23

térbe szorulhat. Ezek például a csupán bibliográfiai hivatkozásokat és indexelő szakkifeje-

zéseket tartalmazó adatbázisok.

A változásokhoz azok az adatbázisok igazodhatnak a legjobban, melyek jelentős számú

rekorddal rendelkeznek, figyelési körük – akár egy szűk szakterületen belül is – széles, és

anyagukat gyakran, akár naponta frissítik. Ezek közül is csak a felhasználót legjobb minő-

ségben kiszolgáló (például lapozható könyvet kínáló), széles körű keresési sajátságokkal

rendelkező kereskedelmi változatok képesek a túlélésre. Az elmondottak igazak a nagy-

számú folyóiratot feldolgozó, és a folyóiratcikkek teljes szövegét elérhetővé tevő indexek-

re, ilyen például a Scopus.

Az elektronikus, különösen internetes hálózati környezet jellemző lett az adatbázisokra.

Ez segíti és ösztönzi a szellemi és technikai segédeszközök fejlesztését, a nyelvtechnológi-

ai módszerek és az automatizálás integrált alkalmazását.

Az online szolgáltatásként általában térítés ellenében lehetett és lehet igénybe venni,

ugyanakkor egyre több változat férhető hozzá ingyenesen a világhálón. A feltárás időigé-

nye, költségigénye a láthatatlan weben erősödő automatizálási eljárásoknak köszönhetően

jelentősen csökkent, minek következtében növekedhetett az ingyenesség, illetve csökken-

hetnek az árak.

Az archiválás kérdései

Az internetes találatok szakmai hitelessége egyes források esetén megkérdőjelezhető, a

találat valósághű voltáról több, akár papírlapú dokumentumból is érdemes meggyőződni.

A találatok, és a könyvtári állomány archiválása kiemelt jelentőségű a papíralapú és más

hagyományos, nem elektronikus dokumentumokkal szemben, ugyanis a mágneses adattá-

rolókat is beleértve azok biztos tárolóképessége már 4-5 év után megszűnhet, igaz ez csak

a rosszabb minőségű és párás, nagy hőmérsékletváltozások között tárolt optikai (CD,

DVD, BlueRay) tárolókra igaz.

A találatok elektronikus és hagyományos kezelése, archiválása ugyanakkor más akadá-

lyokba is ütközhet. A szerzői jog a szellemi alkotások jogának fő részterülete az iparjogvé-

delem mellett. A szerzői jog az irodalmi, tudományos és művészeti művek (a továbbiakban

együtt: szerzői alkotások) oltalmára hivatott. Emellett bizonyos szomszédos jogok oltalmát

is biztosítja. A könyvtárosnak tisztában kell lennie, hogy a webes keresőrendszerekkel

jogvédett tudományos és művészeti munkák sokaságát érheti el. A mindenki által, könnyen

megtalálható adat nem jelenti azt, hogy azt szabad minden esetben másoknak továbbkül-

deni, tárolni, kinyomtatni, esetleg sokszorosítani, legyen az szöveges-, állókép-, hang-

anyag-, mozgókép- vagy egyéb más tartalom. A törvények betartása akkor is kötelessége

egy állami alkalmazottnak, ha azokat nem írják ezen könnyen elérhető objektumok mellé.

2.3.6 Az információfeltárás új eszközei

Biztosan más eszközök és más fogyasztói réteg között végzi majd 10–20 év múlva

könyvtárosok többsége a feladatát. Az információs társadalom polgárai egyre nagyobb

mértékben szembesülnek a feléjük áramló információval. Az információ pontos mennyisé-

gét az University of California kutatói mérték meg egy médiafogyasztással kapcsolatos

vizsgálat során. 2008-ban összesen 3,6 zettabájt (3,6×1020

) adat jutott el az amerikai lako-

sokhoz, ami nyomtatott változatban majdnem két méter magasan terítené be az USA terü-

letét. Az amerikaiak átlagosan naponta 34 gigabájt adathoz jutnak (leginkább televízióból


24

és számítógépes játékokból). A 30 évvel ezelőtti állapothoz képest kétszer annyi szó kerül

az amerikai átlagpolgár elé, ami napi 100 ezer mondott, halott vagy olvasott szót jelent,

míg például Lev Toljsztoj Háború és béke című regényének angol fordítása úgy 460 ezer

szót tartalmaz.

A fent vázolt mennyiségű adat azt is jelenti, hogy a fogyasztók egyre inkább a számuk-

ra szükséges adatokat tekintik csak relevánsnak, így a tájékoztatás kiemelt szolgáltatás

lehet a jövőben. A jövő könyvtárosa a tájékoztatás számos útját járhatja majd. Bizonyára

lesznek, akik kizárólag a hagyományos, nem elektronikus dokumentumokra alapoznak, de

számuk egyre csökken. Vannak olyan kérdések, melyek csak ilyen módon kutathatók, de

az igény megvan arra, hogy a régi, többnyire papíralapú dokumentumokat is digitalizálják,

így azok keresése is online történhet.

Példa:

A Magyar Országos Levéltár honlapján (www.mol.arcanum.hu) 2010 tavaszától már

108 000 középkori irat érhető el. Ehhez csatlakozott a Heves Megyei Levéltár, a tároló-

iban őrzött, csak a Mohács előtti időkből fennmaradt 996 darab középkori iratot (okle-

velek, okmányok, dokumentumok) digitalizálják, és nyilvánossá teszik. A digitalizálás

és az internetes hozzáférés önmagában nem elég az iratok dokumentálásához, sőt még

az alapos latintudás sem elégséges, ugyanis az oklevelek sajátos, középkori szaklatin

nyelvében járatos személyek száma csekély. A Megyei Levéltár szakemberei ezért le-

fordítják magyarra, hogy tanulmányozható legyen.

A könyvtárosok tájékoztató munkájának egy másik részében hétköznapi emberek kü-

lönféle igényeit elégíthetik ki, melyek lehetnek tudományos, de teljesen átlagos kérések is,

de közös bennük, hogy a webes keresők kiemelt szerepet kapnak ebben a munkában.

A tájékoztatás harmadik útja pedig a cégek különféle igényeit kielégítő tájékoztatás le-

het, mint információbróker dolgozik, így a könyvtár kiemelt bevételhez juthat.

Rejtett web

A könyvtáros keresési tere jelentősen kitágult, de az internet adathalmaza sokszorosa

annak, mint amit a keresőrendszerekkel el lehet érni, így az interneten található dokumen-

tumok egy jelentős része egyáltalán nem vagy csak speciális tudással érhető el. A mélységi

réteg a jelenlegi keresőrendszerek számára láthatatlan kereshető adatbázisok hatalmas bi-

rodalma.

A felületi és rejtett vagy mély web globális integrációja elkezdődött. Az interneten, a

„mélységi weben” hozzáférhető adatbázisok feltárásában, keresésében új automatizált

technológiák érvényesülnek.

A kereső (böngésző) szolgáltatások új minősége valósul meg: új keresési formák kifej-

lesztése, illetve a hagyományos keresési formák és lehetőségek továbbfejlesztése folyik.

Ezek eredményeképpen a szöveges állományokban, a strukturált szövegekben, adatbázis-

okban és az audiovizuális tartalmakban közös fogalmi térben terjednek az egységesen ki-

terjesztett kereső alkalmazások (1. ábra).

Példa:

A könyvtárosok feladata például a magyarság eredetének, vagy egy családfa felkutatá-

sának kapcsán már nem csupán egy régi levéltári dokumentum megkeresése lesz, ha-

nem a történelmi releváns videotartalmak, állóképek, blogok, hírek stb. felkutatása is.


25

Szemantikus web és a Könyvtár2.0

Az adatbázisokban, mint más internetes szolgáltatásokban egyre nagyobb hangsúlyt he-

lyeznek arra, hogy a visszajelzést kérjenek a felhasználótól, mennyire elégedett a kapott

találatokkal. A Web2.0-val jelölt technológiák egyik alapvető jellemezője a címkézés, a

vélemények kifejtése például hozzászólások, blogok, vlogok formájában. A könyvtárosok

a Web2.0 technikát saját munkájukhoz kötődő weboldalak esetén összefoglaló néven

Könyvtár2.0-nak nevezik.

Az említett adatok vagy a Könyvtár2.0-hoz kapcsolódó, speciális keresőkkel, vagy pe-

dig a jelenleg még drága és nehezen elérhető intelligens kereséssel érhetők el, melyek az

operatív könyvtári munkát az adott korszak technológiája mellett segíthetik. A következő

évtizedben a Könyvtár2.0-val jelzett technológia keresési lehetőségei lehetnek relevánsak.

Példák:

- egy magánszmély személyes, az élete webes tevékenységet összefoglaló weboldaláról

(portfóliójáról) feltett kérdésre a könyvtárosok válaszolnak, bloghoz kommentárt fűz-

nek, a Wikipediát ellenőrzik, kiegészítik fontos adatokkal stb.

- ugyanakkor a felhasználó cimkézese során részt vehet a katalógusszerkesztésben is,

erre kiváló példa az amerikai Darienlibrary

- személykeresés közösségi hálókon (osztálytársak, tanárok megkeresése osztálytalál-

kozóhoz)

- vizsgára szabad hozzáférésű online forrásokból adatgyűjtés

- válaszolhatnak egyszerűnek tűnő, de intelligens kereséssel megoldható kérdésekre:

a) Egy adott termékről mit mondanak az emberek?

b) Egy adott termékösszetevő hasznos vagy káros anyagokból áll?

c) Egy gyereknevelési problémára milyen megoldások találhatók a weben a cik-

kek, és a hozzászólások alapján? stb.

A Web2.0-hoz hasonlóan szintén az interneten található adatok megjelölésével próbál-

ják az adatokat szemantikailag is kezelhetőbbé tenni, melynek végeredménye az emberi

keresőkérdésre adott egzakt találat. A témakört egy későbbi leckében szemantikus web

címmel tárgyaljuk.

Intelligens webes keresés

A fejlődés egyik kulcsa az emberi gondolkodáshoz közelítő keresés (1. kép), amitől

ugyan még évtizedekre vagyunk, de a kezdeti szakasz már látható. A keresés eddig tárgyalt

eseteiben kizárólag a rögzített adatok prezentálására szorítkoztunk, ritkább esetben azok

számított értékeire (például valutaárfolyam, városok távolsága stb.). A nagy mennyiségű

adat azonban sajátos jellemzőkkel bír, ami további, a felhasználó elől rejtett információkat

is jelent. A nyelvi elemek összehasonlításával például a nyelvcsaládok rokoni szálainak

feltárása ma még elképzelhetetlen feladatnak tűnik, de kisebb elemzésekre már most is

képesek vagyunk.

A könyvtár, mint intézmény bizonyára tisztában szeretne lenni az olvasói szokásaival, a

honlapot használók viselkedésével. Az ehhez kapcsolódó adatokat a számítógépes rendsze-

rek rögzítik (mit kölcsönzött, mennyi ideig, milyen szolgáltatást használt, mit nézett a

weboldalon stb.), de azok alapján olykor még az egyszerű statisztikai mutatók sem készül-


26

nek el, pedig az adatok sokkal több információt hordoznak. Az intelligens rendszerekről

később egy külön leckében lesz szó.

Üzleti információ

A könyvtárak egy része, vagy egyes munkatársai szolgáltathatnak üzleti információt is.

Az üzleti információ gyűjtőfogalom, olyan információk halmaza, amely szükséges egy

földrajzi területen a vállalkozások sikeres gazdasági szerepléséhez. A cégalapítástól kezdve

a stratégiai és az operatív döntések meghozatala a vállalkozás teljes életciklusa során ilyen

információk alapján történik. Ide tartoznak a gazdasági szabályozások, a jogi keretek, a

pénzügyi-, piaci-, termék-, (konkurens) cég- és műszaki ínformációk (szabványok, szaba-

dalmak).

Az üzleti (business) információ sajátos jellemzője, hogy a megrendelő első sorban nem

bibliográfiai, szakirodalmi forrásadatokat, hanem meghatározó mértékben tényadatokat,

ún. faktografikus információkat, tanácsadást, vagy esetenként elemzést igényel. További

lényeges eltérés, hogy az ilyen típusú szükségletek többnyire egyedi válaszokra tartanak

igényt, tehát itt nem lehet tömegszolgáltatást nyújtani. A céginformációhoz jutás piaci

előnyt jelent az információt birtokló vállalkozás számára.

Példa:

Céginformáció lehet: a konkurencia dolgozóinak végzettsége, szaktudása, a gyártott

termékek köre, a beszállítói lánc tagjai, az értékesítési lánc tagjai (nagykereskedők).

2.4 ÖSSZEFOGLALÁS

A könyvtáros szakma és a szaktájékoztatás eszközének átalakulása, megváltozása az

adatbázisok alkalmazásától az online információ-szolgáltató eszközökig. A online keresés

modellje. Az internetes találatok szakmai hitelessége. A találati listák elektronikus és ha-

gyományos kezelése, archiválása. A közeljövő operatív könyvtári munka kiegészülhet a

Web2.0-val jelzett technológiához köthető szolgáltatások keresési lehetőségeivel és az

üzleti információ szolgáltatásával.

2.5 ÖNELLENŐRZŐ KÉRDÉSEK

1. Mely korábbi kereskedelmi online adatbázisok veszélyeztettek az internetes

korszakban és miért?

2. Mutassa be a könyvtári adatbázisok szerepét az információ elérése szempont-

jából?


27

3. A KERESŐSZOLGÁLTATÁSOKKAL KAPCSOLATOS

ALAPISMERETEK

3.1 CÉLKITŰZÉS

A lecke célja, hogy egy kellően általános keretrendszeren belül leírja a hálózati keresés

tevékenységét. A keresés általános modelljének felvázolása után olyan kérdésekre próbál

meg válaszolni, hogy milyen típusú információkat, milyen információs tartományokban

lehet keresni, milyen felhasználói felületeken keresztül, milyen módon, milyen nyelvi

rendszerre támaszkodva lehet kielégíteni a különböző típusú információs szükségleteket. A

láthatalan web fogalma, valamint keresési lehetőségeinek megismerése.

3.2 TARTALOM

A webes adatelérés története.

Keresőrendszer fogalma.

Webes keresőszolgáltatások

Webes keresőszolgáltatások osztályozása

Rejtett web.

Az online hálózati keresés közvetített módszertana

A keresés önkiszolgálás modellje

Napjaink népszerű keresőrendszerei.

Keresés a jövőben.


3.3.1 A webes adatelérés története

Az internetes keresés az 1940-es, 1950-es évekre, a digitális számítógépek kezdeti ide-

jére vezethető vissza. Amint a számítógépek kezdtek átvenni olyan irodai háttérmunkákat,

mint a leltárnyilvántartás, bérszámfejtés, pénzügyi kalkulációk és tudományos adatkutatás,

az intézetek nagy mennyiségű adatot gyűjtöttek, és ebben az adatbázisban, az adatok digi-

tális jellegének megfelelően, vissza lehetett keresni az adatokat.

Enter Gerald Saltont, a Harward és a Cornell egyetemeken oktató matematikust, gyak-

ran emlegetik a digitális adatkeresés atyjának is. Saltont nagyon izgatta a digitális informá-

ció-visszakeresés; így az 1960-as évek végén kidolgozta a SMART – Saltons Magical

Automatic Retriever of Text (Salton Mágikus Automatikus Szöveg-visszakeresője) rend-

szert, ami az első digitális keresőgépnek tekinthető. Salton több olyan, jelentékeny fejlő-

dést elindító elvet vezetett be, amit ma is elerjedten használnak a keresőprogramok, köztük

azt is, hogy a keresési szándékot a kulcsszavak feldolgozásából képzett statisztikai, súlyo-

zás és relevanciaalgoritmusok alapján azonosítják.

Az első internetes keresőrendszer szinte az internettel együtt született. Az első interne-

tes kereső megalkotásának Alan Emtage egyetemistát, a McGill University hallgatóját

illeti, aki 1990-ben létrehozta az Archie-t, az első internetes kereső alkalmazást. Az Archie

az internet-fájlátviteli prorokoll (fájl-transfer protocol, FTP) szabványán alapult, ebben


28

hasonlított a legtöbb modern webkeresőhöz: végigpásztázta a forrásokat, indexe táblát

épített, és volt keresőfelülete, de az a web előtti korszak nem volt felhasználóbarát.

Azután kezdtek megjelenni a webes keresők. 1994-ben három, sokáig ismert kereső je-

lent meg: WebCrawler, Infoseek, Lycos. Az első és az utolsó érdemel az internetes keresés

fejlődése szempontjából kiemelt figyelmet. A WebCrawler mivel elsőként tette lehetővé

(indexelte) az interneten tárolt dokumentumok teljes szövegét. A Lycos pedig elsőként

vette figyelembe az oldalak relevanciájának meghatározásánál azt, hogy hány hivatkozás

mutat egy weboldalra. A Lycos lett egyébként 1999-ben a vilg legnépszerűbb online célhe-

lye. Egy évet (1995) kellett várni az első igazán jó keresőrendszerre, a neve AltaVista, ami

abban a korban a mai Google szerepét töltötte be.

Hivatkozásról hivatkozásra járta be a keresőmotor a honlapokat, és azok teljes tartalmát

kereshetővé tette, mindezt egy felhasználóbarát keresőfelülettel. Ehhez a munkához több

ezer crawlert alkalmazott, ami keresőmotor azon része, amelyik összegyűjti a webes ada-

tokat. Akkor a legteljesebb index állt elő 10 millió dokumentummal és több milliárd szó-

val, de 1995. december 15-én már 16 millió dokumentumot talált meg és indexelt. 1997-re

naponta több mint 25 millió kulcsszó érkezett, a világháló egyik legfontosabb célhelyévé

vált, és szponzori bevételekből 50 millió dollár bevételt könyvelhetett el. Az akkori

internetkatalógus Yahoo! és az AOL mellett az internet legkeresettebb helyévé vált.

A Lycos és az Altavista is a cégfelvásárlások és eladások süllyesztőjében fokozatosan

elvesztette vezető szerepét. Ebben az időben azonban még sokan nem hittek a keresőrend-

szerek elterjedésében, leginkább az internetkatalógusok szerepe volt jelentős. Közben

1998-ban elindult két egyetemista fiatal révén a Google keresőrendszer. A Google-t akkor

még nem tekintették nagy vetélytársnak. Történetéről még több helyen szólunk, előzetes-

ként annyit: több éve a világ vezető keresőrendszere, innovációi révén szinte megelőzhe-

tetlennek tűnik, ma a keresések három negyede a Google segítségével zajlik a világban. Az

5-10 éves távlatok szerint aligha fogj ezt a szerepét elveszíteni.

A tisztesség kedvéért említsük meg a mai vetélytársakat is, akik még versenyben van-

nak. 2004-ben vált a Yahoo! keresőrendszerré a Yahoo! Search révén, a Microsoft cég

keresője az MSN Search 2005-ben indult, majd 2009-ben nevet változtattak, így lett Bing

keresőrendszer belőle. Az Ask.com 2006-ban indult, és jelenleg még ezt a keresőt is jelen-

tős számú internetező használja.

3.3.2 Keresőrendszer fogalma

A keresőrendszer fogalmát tisztázzuk elsőként, ami a teljes tananyag címének kulcsfo-

galma.

A keresőrendszer a felhasználó szemszögéből egy online vagy

offline szolgáltatás. Az informatika szemszögéből megközelítve a

keresőrendszer olyan lokális offline vagy online (általában webes

felületű) szoftver, ami képes különböző, de meghatározott típusú

adatok találati listáját megjeleníteni a felhasználók számára, akik

egy szélesebb nyilvánosságot vagy egy szűk csoportot takarnak.

A háttérben az alábbi műveletek lehetnek szükségesek: dokumentumok rendszeres (au-

tomatizált) vagy kérésre történő gyűjtése, rendezése és esetleges tárolása, a változások

nyomon követése, az adatbázis kivonatolása, illetve a kivonatok megjelenítése (2. kép).


29

Keresőrendszer

Webes keresőrendszer

(webes keresőmotor

indexelt webes kereső

webes kulcsszavas kereső)

Nem webes programok

keresőrendszerei

keresés

Találati lista

(SERP)

indexeléswebpásztázás

indexweboldalak,

dokumentumok

3. kép A webes keresőrendszer szerepe, kiemelve az alapvető részeit

A megjelenítendő tartalomhoz keresőszóval jut el a felhasználó.

A keresőszó vagy kulcsszó a keresőkérdés alapvető eleme.

A keresőkérdést a felhasználó a keresőmezőbe írja be a kereső felhasználói felületén.

A keresőkérdés a kereső személy által megadott karakterekből

álló, összetett nyelvi kifejezés, amelynek részei: egy vagy több kere-

sőszó, logikai operátorok, egyéb attribútumok.

A keresőkérdés és a keresőszó fogalmát gyakran szinoníként használják.

A webes keresők mellett a keresőrendszerek legfontosabb példái az adatbázis-kezelő

programok keresőrendszerei, melyekkel már az olvasó is találkozhatott. A keresőrendszer

egy szolgáltatás, amely fizikai valójában egy program, amit keresőmotornak neveznek. A

keresőmotor szerepét, fogalmát a későbbikeben részletezzük, előljáróban leszögezzük: az

informatikában a felhasználó szempontjából egy olyan program, ami egy adott rendszer-

környezetben képes adatot keresni a megadott feltételek alapján.

A keresőmotor kifejezést a keresőrendszerek szinonímájaként használják. A webes ke-

resőmotorokról, azok részeiről még több leckében lesz szó. A webtől független kereső-

rendszerek az első leckében már szerepeltek, amikor a az adatbázisok szerepét emeltük ki.

A továbbiakban kizárólag a webes keresőrendszereket tárgyaljuk.

3.3.3 Webes keresőszolgáltatások

A weben fellelhető adatok elérésének kiváltképp időigényes módja a website-ok felüle-

tein található hiperhivatkozások (linkek mentén történő) böngészése, azaz a web pásztázá-

sa. Az online szolgáltatás említett lehetőségét naponta milliók űzik, az agyunk működésé-

hez ugyanis ez az elektronikus információtároló rendszer igazodott eddig a legjobban.


30

Az internetes szolgáltatások alatt azon szolgáltatások együttesét

értjük, melyek az internet struktúráját használva, az adatátvitel

szabványait betartva (TCP/IP) nyilvánosan vagy zártan működnek.

Internetes szolgáltatásokra példa: ftp, gopher, e-mail, csevegés (chat), (video)tele-

fonálás, webböngészés stb. Az internetes szolgáltatások körének a legnépszerűbb eleme a

webböngészés. A weben fellelhető adatok a legtöbb esetben ma már egy böngészőprogram

ablakában kerülnek a felhasználó elé.

A webes szolgáltatások alatt azokat a szolgáltatásokat érjük,

melyek az internet webböngészés szolgáltatása segítségével vehetők

igénybe.

Tartalomszolgáltatók (online újság, tudástár…)

Online áruházak

Közösségi oldalak

…

Webes adatkeresés - keresőszolgáltatások

Keresőrendszerek

Katalógusok

Internetes szolgáltatások

Telnet

FTP

Elektronikus levelezés (e-mail)

Online szöveges (csevegés)

Online (video)telefonálás

…

Webes szolgáltatások

4. kép A webes keresőszolgáltatások és az internetes szolgáltatások kap-

csolata

A webes szolgáltatások köre meglehetősen nagy, ide tartozik online könyvtárak, online

képzések- és iskolák, online áruházak, online közigazgatás, de ide tartoznak a webes kere-

sés, az online sajtó, a blogok, és a közösségi oldalak is. stb.

A webes keresőrendszer (keresőmotor, indexelt kereső, szabad-

szavas kereső, címszavas kereső) a felhasználó keresőkérdése alap-

ján a weben keresztül elérhető adatok dinamikus halmazának egy

szűk részhalmazán képes automatikusan keresni, és a találati listát

egy algoritmus vagy szempont szerint rendezetten a keresőrendszer

felhasználói felületén megjeleníteni.

A webes keresőrendszert nevezik a keresőkérdés kialakítása alapján kulcsszavas webes

keresőnek, informatikai értelemben a programot tekintve webes keresőmotornak, illetve az

adatbázis kialakítása alapján indexelt webes keresőnek (3. kép). Az esetek többségében az

idő szűkössége folytán a keresőrendszerekhez fordulunk. A webes keresőrendszerek leg-


31

népszerűbb szolgáltatóit a tananyagunk részletesen tárgyalja. Működnek már ún. kérdés-

válasz rendszerek, ezeket a Speciális keresőknél még megemlítjük. Léteznek továbbá teza-

uruszok, amelyek az ügyfeleket egy fogalmi térben barangoltatva segítik az eligazodásban.

A webes keresőrendszer mellett érdemes egy másik webes keresőszolgáltatást is bemu-

tatni, ez az ún. tematikus webes keresőszolgáltatás vagy más néven, az adatok prezentálása

alapján a webes internetkatalógus. A későbbiekben már csak a webes szolgáltatásokon

belüli keresési lehetőségeket fejtjük ki, ezért a „webes jelzőt” az elnevezésekből mellőz-

zük.

Az internetkatalógusok (katalógus, directories, browsing

services) hierarchikus osztályozási rendszert alkalmazó keresőszol-

gáltatások. Adatbázisaik többnyire intellektuálisan feldolgozott

HTML-dokumentumok rekordjait tartalmazzák, valamint kapcso-

latokat más adatbázisokhoz.

A tananyag szempontjából az internetkatalógusoknak annyi a szerepe, hogy éteznek

olyan internetkatalógusok is, melyek indexelőszolgáltatásként is működnek. (ilyen például

a Startlap), bár a Google keresőrendszert veszi igénybe. Van olyan oldal is ami

internetkatalógusként indult, majd keresőrendszer lett belőle (Yahoo!, Altaviszla).

1. Startlap: startlap.hu

2. Google: google.hu

3. Yahoo!: yahoo.com

4. Altavizsla: altavizsla.hu (jelenleg működése bizonytalan)

A két keresőszolgáltatásra építve a webes adatok elérése számos más módon megvaló-

sítható, ezeket a tananyagban összefoglaló néven speciális keresőknek nevezzük. Ezen

speciális adatelérési lehetőségek felsorolása hosszú listát eredményezne, ezért csak az álta-

lunk legfontosabbakra térünk ki két külön leckében, mind közül kiemelve a metakeresőket,

egy teljes lecke a metakeresők bemutatását célozza meg.

Az újabb lehetőségek, technikák iránt érdeklődők többek között a Startlap tematikus ke-

resőn, az egyes keresőrendszerek saját oldalain lévő tájékoztatók, valamint magyarul a

Kereső Világ blogon kaphatnak bővebb tájékoztatást, illetve az online is elérhető Könyvtá-

ri információkeresés című könyvből.

5. Ungváry Rudolf-Vajda Erik: Könyvtári információkeresés:

http://www.tankonyvtar.hu/konyvtartudomany/konyvtari-080905-13

6. Startlapon: keresogepek.lap.hu

7. Startlapon: kereso.lap.hu

8. Kereső Világ blogon: kereses.blog.hu

3.3.4 Webes keresőszolgáltatások osztályozása

A webes keresőszolgáltatások több szempontból is érdemes csoportosítani. Elsőként a

keresőszolgáltatások hatókör vagy lefedettség szerinti csoportosítását nézzük át:

− horizontális

http://keresogepek.lap.hu/

http://kereso.lap.hu/

http://kereses.blog.hu/


32

– teljes web

– adott nyelv szerinti

− vertikális

– szakterület (például orvosi)

– témakör (például csengőhang)

Horizontális keresők a weben azokat az általános célú kereső-

rendszereket, amelyek a weben tárolt összes témakör nyilvános

adatából álló halmazon képesek találatokat megjeleníteni.

Vertikális keresőknek nevezik a weben azokat a keresőrendsze-

reket, amelyek csak adott területre (például képek, blog) speciali-

zált keresőmotorral rendelkeznek.

Példa:

A magyar Miner vertikális kereső blogok bejegyzéseiben, videomegosztó oldalak vide-

óiban keres és egyéb tartalmak keresését.

9. Miner vertikális kereső: http://miner.hu

A csoportosítást alkalmazzák a honlapokra, de ott nem egészen ebben az értelemben. A

félreértéseket elkerülendő érdemes áttekinteni a horizontális és a vertikális portál kifejezé-

seket.

Horizontális portál, angolul Horizontal Enterprise Portal (HEP): általános célú felhasz-

nálói portál, mely számos témájú és funkciójú elemet tömörít egyetlen weboldalon (példá-

ul www.index.hu, www.origo.hu ). Egyes szakértők szerint a következő minimumköve-

telményeket szükséges egy horizontális portálnak teljesíteni: hírek, internetes vásárlás, e-

mail, chat, időjárás jelentés, sport, térképek).

Vertikális portál, angolul Vertical Enterprise Portal (VEP vagy VORTAL): témakör kö-

ré csoportosított portálszerű szolgáltatások összessége egyetlen honlapon (például

www.eco.hu).

A keresőszolgátatásokat alapvetően működési mechanizmusuk szempontjából különítik

el. A webes keresőszolgáltatások két legnépszerűbb lehetőségét a tananyagunk részletesen

tárgyalja, konkrétan az általános célú, kulcsszavas keresőt (indexelt kereső, keresőmotor),

valamint a tematikus keresőszolgáltatás (internet-katalógus). A webes adatok elérése azon-

ban számos más módon megvalósítható, ezeket a tananyagban összefoglaló néven speciális

keresésnek nevezzük.

− indexelt (keresőrendszerek)

– egy keresőmotorhoz tartozó horizontális (pl.: Google)

– egy keresőmotorhoz tartozó vertikális (pl.: egy OPAC)

– több keresőmotorhoz tartozó (pl.: metakeresők)

(az adott keresőmotorok kiválasztók vagy sem)

– humán alapú (pl. Iglue)

− tematikus (katalógusok)

– nyilvános fejlesztésű (pl. Startlap)

– szakmai fejlesztésű

− speciális vagy sajátos működésű keresők

http://miner.hu/


33

– vegyes működésűek (keresőrendszerek és katalógusok)

– nem saját keresőket használó kulcsszavas keresők (metakeresők, portálok ke-

resői)

– vertikális kulcsszavas keresők, ahol a keresés tárgya speciális (blog, kép, vi-

deó stb.)

– vertikális kulcsszavas keresők, ahol a keresés helye speciális, ugyanis képesek

egy speciális objektumon szöveget keresni (kép, videó, hang stb.)

– nem szöveg alapú keresők, melyeknél a keresés tárgya nem szöveges, de az

eredmény tetszőleges, példák:

a) fénykép alapján személyeket, azok nevét, adatait, telefonszámát, közösségi

hálózati oldalait, blogjait megkeresni

b) egy rajzról megmondani, hogy mit ábrázol, ki készítette, ha múzeumban

örzik, akkor melyikben pontosan

c) hang alapján egy videón megkeresni adott személyt, élőlényt

d) videorészlet alapján keresni filmet, konferenciaelőadást stb.

A keresett objektum, azon belül a találati lista (SERP) objektumai szerinti csoportosí-

tás:

− szöveg

– rekordlista (DBMS: database management system), pl. OPAC

– a dokumentum elérésnek találati rekordlistája (SE: search engine)

– dokumentumrész vagy dokumentumrész-lista (QAS: question answer system

– válasz vagy válaszlisták (QAS), pl. időjárás, statisztikai számítások stb.

− állókép vagy képlista (IBR: image based retrieval)

– kulcsszó szerint (az állomány nevében vagy a weboldalon)

– állóképen lévő objektum szerint (szöveg, személy, épület, jel stb.)

− hanganyag vagy hanganyag-lista (SBR: sound based retrieval )

– kulcsszó szerint (az állomány nevében vagy a weboldalon)

– hangállományban megadott szövegrészlet (pl. Budapest)

– hangállomány részlete alapján (pl. egy lejátszott zeneszám szerzője, címe)

− mozgókép

– kulcszsó szerint (az állomány nevében vagy a weboldalon)

– állóképen megadott objektum szerint (szöveg, személy, épület, jel stb.)

– mozgókép részlete alapján (pl. a film rendezője, címe, szereplői)

A keresőszolgáltatásokat csoportosíthatjuk a találati lista vizuális megjelenítése szerint:

− rangsor szerinti szöveges rekord lista (pl. Google)

− kulcsszó szerinti grafikus (pl. Google Varázskerék)

− kulcsszó szerinti idősíkban megjelenő rekord lista (pl. Google Timeline)

− témakör szerinti szöveges link (pl. Startlap)

− lista és katalógus alapú (pl. Yahoo!)

− Web 2.0-ás, multimédiás felület (pl. Iglue)


34

A webes keresőrendszereket számos egyéb szempont szerinti csoportosítják, melyről az

adott részeknél esik több-kevesebb szó: találati lista megjelenítésének gyorsasága (keresési

idő), adott, de népszerű kulcsszóra kapott válaszok mérete (találati lista száma), adott idő-

szak alatt a szolgáltatást igénybe vevő felhasználók vagy keresések száma (népszerűségi

toplisták), hol keres pl. blogban

3.3.5 Rejtett web

Az interneten fellelhető adatok jelentősebb részét a felhasználó nem találja meg,

mivel még a kereső szolgáltatások sem képesek a web összes adatát „átlátni”.

A rejtett web az általános célú kereső motorok által nem találha-

tó website-ok halmaza.

Az angol elnevezés nem egyértelmű, több fogalmat használnak, így magyarul is több

fordítása fogadható el: láthatatlan web (invisible web), rejtett web (hidden web), a web

mélye (deep web), a világhálózat mélysége (deep net).

5. kép A rejtett web bemutatása

Egy konkrét felhasználó számára a kereső szolgáltatások alkalmazásának nem kielégítő

ismerete is jelentheti a rejtett adatok bővülését, ugyanis hiába kereshető a kívánt adat, ha

nem ért hozzá a felhasználó, de ezen ismerethiány mögötti adatok nem részei a rejtett web-

nek.

A web többi adata a rejtett web ellentéteként a látható vagy a nyitott web elnevezést

kapta. A nyitott web természetesen az általános célú keresőmotorok számára megtalálható

és indexelhető adatokat jelenti, így a felhasználók számára is elérhetővé válik, ha a kere-

sőmotorok webes felületén megjelenő website-ok tételeit kiválasztja.

3.3.6 Az online hálózati keresés közvetített módszertana

A mágnesszalagos, majd a mágneslemezese adattárak közvetített keresésénél a felhasz-

náló nem vett részt közvetlenül a keresésben. Helyette, nevében a keresést a professzioná-

lis kereső szakember végezte el. Az adatbázisok specifikus, bonyolult, elágazó, paranccsal

vagy menüvel vezérelt keresőrendszerei indokolták, illetve az, hogy a gépidő és a hálózati

kapcsolódás igen drága volt.


35

A keresőprofil szerkesztése a felhasználó által megadott szempontokat alapján, a meg-

felelő segédeszközök (tárgyszójegyzékek, tezauruszok stb.), parancsnyelv és kereséstech-

nikai eszközök (Boole-operátorok, csonkolás stb.) segítségével történt. Ezt a profilt hason-

lította össze a gép az adatbázisban levő dokumentumok profiljával.

Az online hálózati közegben a keresés folyamata interaktívabb lett, már megszokott ke-

resőprofil helyett keresési stratégiáról beszélhetünk, melyről egy külön leckében szólunk.

Az online információkeresés soktényezős folyamata két fő fázisra osztható: előkészítésre

és végrehajtásra.

− Az előkészítés a felhasználói kérdés tisztázásától a keresőprofil megtervezéséig

tart. Az online környezetekben a keresőprofilt helyesebben keresési stratégiának

nevezik.

− A végrehajtás hosszú, több lépcsős folyamat.

Ez az új keresési modell rugalmasabb és hatékonyabb:

− A hálózati kapcsolattal bármely szükséges adatbázishoz hozzá lehetett férni.

− Visszamenőleges, retrospektív keresésre nyílt lehetőség.

− A felhasználói témát leíró keresési stratégiák módosítása könnyebbé vált, a fel-

használó a professzionális közvetítővel együtt részt vehetett a „terminálülésen”.

− Gyorsabb, interaktív és pontosabb keresést tett lehetővé az adatbázisokban.

3.3.7 A keresés önkiszolgálás modellje

A helyi hálózatba kapcsolt személyi számítógépek, és terminálok révén a felhasználók

önkiszolgáló módon, tömegesen férhettek hozzá a központi gépen kezelt helyi adatbázis-

hoz, majd a külső országos adatbázisokhoz. Az adatbázisszolgáltatók fokozatosan egysze-

rűbbé, felhasználóbaráttá tették a kereső felületeket. Ma már a felhasználók az esetek zö-

mében maguk végzik az adatbázisban való keresést, az otthoni, vagy munkahelyi

számítógépről.

A web gyorsabb, ablaktechnikát alkalmazó grafikus felülete megjelent a helyi rendsze-

rek keresőfelületein is. A keresőkérdés értelmezése, a teljesség / pontosság előzetes meg-

határozása, aránya, az adatbázis (ok) és szolgáltató (k) kiválasztása. /ehhez szükséges: az

adatbázisok minőségének ismerete, használatuk ismerete, a használat esetleges költségei-

nek ismerete/. Képesnek kell lennie a keresési stratégia megtervezésére: a teljes-

ség/pontosság előzetesen eldöntött viszonyát tekintve a keresendő fogalomkörök, a kereső-

szavak meghatározására, az operátorok (Boole, helyzeti) alkalmazására, a csonkolásra stb.

3.3.8 Napjaink népszerű keresőrendszerei

A keresőrendszerek népszerűsége több összetevő függvénye. A legfontosabb a kereső-

motor technológiája nyomán gyorsan megjelenő releváns találat, de számít a felhasználói

felület kezelhetősége, a kiegészítő szolgáltatások, adott nyelvnél, szakmánál a konkrét

nyelvi vagy szakmai közeg kiszolgálása. Kezdetben a találati lista nagysága is fontos volt,

de napjainkra ez mellőzött szempont.


36

A legnépszerűbb négy keresőrendszer 2009-ben a web összes keresésének 98 százalé-

kát bonyolítja le. Jelenleg a Google a legnépszerűbb keresőrendszer, angolszász területen

már igeként is használják a webes keresésre. A közösségi szolgáltatásoknak, és nem a talá-

latok relevanciájának köszönhetően kiemelkedő a népszerűsége a Yahoo! és a Bing (MSN

Search) kulcsszavas keresőknek.

A Google már több éve a legelső, amely a 2009. májusi adatok szerint a keresések 74

százalékát, a második helyezett Yahoo! Search a keresések 15,55 százalékát tudhatja ma-

gáénak, harmadik a Bing 5,64 százalékkal, míg negyedik az Ask 3,81 százalékkal. A har-

madik helyen álló Bing a Microsoft cég keresőrendszere, a márkanévváltás előtt MSN Live

Search néven vált ismertté.

Érdemes azonban kiemelni, hogy a Yahoo! és a Bing (MSN Search) kulcsszavas kere-

sők a közösségi szolgáltatások miatt népszerűek, és nem a találatok relevanciájának kö-

szönhetően, ami azt prognosztizálja, hogy a Google népszerűsége évről évre növekszik a

riválisaival szemben.

A népszerű keresők mellett érdemes megemlíteni a legnépszerűbb oldalak keresőit.

Ezek olykor meglepőek, ugyanakkor sok esetben tanulságosak is, hiszen nagyon sokat

lehet tanulni azok meglátogatásából. A népszerű weboldalakról többek között az Alexa és

a MiniRank oldalain tájékozódhatunk, az utóbbi országonként jelenít meg a weboldalak

teljes népszerűségi listáját, sőt akár egy konkrét site-ra rá is kereshetünk.

10. A MiniRank Magyarországi listája: http://www.minirank.com/tld/hu/0

11. Az Alexa listája a világ honlapjait tekintve: http://www.alexa.com/topsites

3.3.9 Keresés a jövőben

A keresési igények könyvtárosi szemszögből nézve is folyamatosan változnak. A tárgy,

téma szerinti keresés jelentősége egyre növekszik. A mélyebb tárgyi feltárás iránti igény

egyszerűen megoldható lehetne, ha a bibliográfiai rekordot kibővítenék, szabványosítanák.

A digitális források számának örvendetes növekedése magával hozza azok integrálásá-

nak, és keresési integrálásának igényét. A keresőrendszerek használatának kényelmével

általában összefüggő igények egyre erősebbek.

3.4 ÖSSZEFOGLALÁS

A keresőrendszerek történetének és fogalmának tárgyalása után annak csoportosítása,

tulajdonságainak leírása, gyakorlati példákkal alátámasztott hasznossága következik a

könyvtártudomány oldaláról. Az internetalapú keresőrendszerek főbb típusának részletes

bemutatása, melyben kitérünk a kulcsszavas keresők vezető szerepére és korlátaira, a tema-

tikus keresők könyvtárosokat segítő lehetőségeire, a kevés találati elemszám esetén ki-

emelten hasznos metakeresőkre, a könyvtári keresők taglalására, a toplisták szerepére a

könyvtári menedzsment szemszögéből.


1. Mutassa be a keresés önkiszolgálás modelljét!

2. Jellemezze a népszerű keresőrendszreket!


37

4. KERESŐROBOTOK

4.1 CÉLKITŰZÉS

A keresőrobotok mechanizmusának megértése a hatékonyabb keresőkérdés összeállítá-

sa érdekében.A PageRank vázlatos bemutatása, szerepének megértése a webes keresésnél.

A keresőoptimalizálás attitüdjeinek elsajátítása.

4.2 TARTALOM

A keresőrobotok története

A keresőrobotok fogalma

A keresőrobotok működése

Miért a Google a vezető indexelt kereső?

Page Rank – a hivatkozási index

A PageRank algoritmusa és kiszámítása

A keresőoptimalizálás

Vertikális magyar indexelt keresők


4.3.1 A keresőrobotok története

A webes keresőmotorok története igen rövid időszakra, csupán 1993-ra nyúlik vissza,

amikor elkészült az első keresőmotor Wandex néven, de ez ma már nem használható. Még

ugyanebben az évben készült el az Aliweb, a nevét az Archie Like Indexing for the Web

(Archie, mint a web indexe) kifejezésből kapta, napjainkban még elérhető

(www.aliweb.com).

Egy évvel később jelent meg a Lycos kereső (www.lycos.com), ami már üzleti vállal-

kozásként működött. A későbbiekben több keresőmotor jelent meg (WebCrawler, Hotbot,

Excite, Infoseek, AltaVista...) mind ekkortájt születtek.

A következő nagy lépés 1996-ban történt. Larry Page és Sergey Brin elindította a

Google-t (google.hu), a Stanford Egyetem két diákjaként. A siker ekkor még távolinak

látszott, de egyre népszerűbb lett, és 2001-re a világ legismertebb és leggyakrabban hasz-

nált keresőmotorjává vált, üzleti vállalkozásként pedig a világ egyik legsikeresebb befekte-

téseként tartották számon. A Google más módon rangsorolta és jelenítette meg a találati

listát, mint a társai, ami valószínűleg a siker alapja.

2002-ben a Yahoo! (www.yahoo.com) megvásárolta az Inktomit, egy évre rá az

AlltheWebet és az AltaVistát, majd 2004-ben megindította saját keresőszolgáltatását. A

keresés technológiáját tekintve megjelentek újabb keresők is, de nem váltak még széles

körben elfogadottá.

A 2000-ben megjelent Teoma keresőmotor a tárgyspecifikus hivatkozási népszerűséget

(ExpertRank technológia) használja, amit az Ask Jeeves (www.ask.com) keresőszolgálta-

tás használ. Ez a technológia eltér a Google PageRank technológiájától.

A klaszterezés a másik újabb technológia, amit a többek között a Clusty (clusty.com) és

a magyar fejlesztésű Polymeta (www.polymeta.hu) metakeresőrendszerek is használnak.

http://google.hu/

http://www.yahoo.com/

http://clusty.com/


38

4.3.2 A keresőrobotok fogalma

A weben a keresőszolgáltatások, így a katalógusok egy része használ keresőmotort, de

napjainkban a keresőmotor kifejezést leginkább csak weben történő kulcsszavas keresés,

azaz a keresőrendszerek szinonímájaként használják. Léteznek azonban más keresőmotor-

ok is, például az intraneten kereső vállalati keresőmotorok, a személyi számítógép állomá-

nyai között kereső személyi keresőmotorok.

A keresőmotor egy olyan program, amely bizonyos feltételeknek

(keresőkérdés) megfelelő információkat keres valamilyen számító-

gépes környezetben. A keresési feltételek egyediek lehetnek, de a

keresőmotorok többségénél a keresőkérdés kulcszsóra épül.

A többnyelvű keresések miatt megadjuk a keresőmotor néhány is-

mert nevét: search engines, web crawler (angol), Suchmaschienen

(német).

A keresőmotorokkal kapcsolatban nagyon sok szakmai kifejezés olvasható a cikkekben

és a könyvekben. Elsőként a fogalmak kapcsolatát tekintjük át. A weben számos keresési

lehetőség áll rendelkezésre, azonban a találatok szempontjából az egyik legjelentősebb

szolgáltatás a kulcsszavas, vagy más néven szabadszavas kereső.

A webes kulcsszavas keresőszolgáltatás keresőmotorra épül, ami a link-alapú pásztá-

zással eléri a weben a tárolt tartalmakat, és indexeli azokat. Nem véletlenül szerepel a

kulcsszavas kereső szinonimájaként sokszor a keresőmotor, illetve az indexelt kereső elne-

vezés. A keresőmortor egy hatalmas gráfnak tekinti a webet, az weben fellelhető dokumen-

tumok jelentik a gráf csomópontjait, míg a linkekkel megvalósított kapcsolatok a gráf éleit.

Ugyanakkor a keresőmotor és a kulcsszavas kereső fogalma nem köthető kizárólag a

webes kereséshez, hiszen már az internet létezése előtti időktől a programok is rendelkez-

nek hasonló lehetőséggel. Az indexelt keresés sem csupán az internet sajátossága, hanem

egy alapvető eljárás az adatbázis-kezelésnél, ami a rögzített adatok gyorsabb visszakeresé-

sét teszi lehetővé.

Ezen túl még használják a keresőrendszer kifejezést is, aminek egy részét fedi le a we-

bes keresés. Napjainkra azonban a webes keresés, mint általános tevékenység jelenik meg,

így leginkább kizárólag a web leggyakrabban használt, a fentiekben taglalt szolgáltatására

használják a keresőmotor, a keresőgép, a kulcsszavas kereső, címszavas kereső és az inde-

xelt kereső kifejezéseket. Ebben a leckében is szinonimaként szerepelnek.

A keresőkérdés meghatározása gyakran egy szó, kifejezés megadását jelenti, de kiegé-

szülhet a keresőmotor által értelmezhető operátorokkal (pl. logikai operátorok), valamint

egyéb jelekkel, attribútumokkal is. Általában kulcsszavas (címszavas) keresés történik,

vagyis a rendszer a weben a bekért kulcsszó ismeretében megjeleníti az általa rögzített

rekordokat, vagy más környezetben esetleg mezőket, aggregát mezőket.

SERP (Search Engine Results Page): a kereső motorok organi-

kus (rendezett, összefüggő) találati oldala, ami találati rekordokat

tartalmaz.

A rekordok azon tartalmi egységek, amelyek a keresőrendszer szerint kapcsolódnak a

kulcsszóhoz, a rekordok halmaza tulajdonképpen a találati lista. A keresőmotorok ezért

kapták a kulcsszavas vagy címszavas kereső nevet is.


39

Találati rekord: azon honlap adatainak tömör megjelenítése,

amelyeket a keresőmotor a felhasználó egy adott keresőkérdése

után megtalált. A találati rekordok alkotják a találati listát vagy

röviden SERP-et.

4.3.3 A keresőrobotok működése

A teljes keresőszolgáltatás működése összetett tevékenység, hozzátartozik a weben ta-

lálható adatok állandó és automatikus gyűjtése, rendszerezése, prezentálása a felhasználók

kérésére, és azok automatikus aktualizálása. Az utóbbira azért van szükség, mivel a webol-

dalak tartalma és weben fellelhető dokumentumok az idő tényezőt tekintve nem állandóak.

Az előbbiek alapján a webes keresőmotorok működése három lényeges részből áll össze:

1. webpásztázás,

2. indexelés és

3. keresés.

A webpásztázás (első rész) során összegyűjti az adatokat a weboldalak tartalmáról vagy

a weben található állományokról. Ez valójában egy automatizált böngészés, hiszen a web-

oldalakon található linkeket követve halad az oldalak között, és letölti a tartalmukat. A

wbepásztázó rész további feladatai: a már nem létező (halott), illetve a linket nem tartal-

mazó (zsákutcás) dokumentumra mutató kapcsolatok feltárása, a tükrözések (site(rész)

másolatok) felismerése, a szerveren alkalmazott relatív címek átírása abszolút címekké.

A webpásztázást az angol kifejezés alapján robot, webrobot, spider (pók), webspider,

crawler, web crawler néven is emlegetik, sőt sokszor helytelenül a keresőmotor egészét, a

teljes tevékenységét értik alatta.

3. keresésTalálati lista

(SERP)

2. indexelés

1. webpásztázás

index

webes keresőrendszer

keresőmotor

indexelt

kereső

kulcsszavas

kereső

automatikus

(program végzi)

felhasználói

kérésre

- (web)robot

- (web)spider (pók)

- (web)crawler

6. kép A webes keresőmotor működésének vázlata


40

Az indexelésnél (második rész) elemzi, rendszerezi a begyűjtött oldalakat tartalmát

(szöveg szavai, állókép, videó) beleértve a metaadatokat, újabb metaadatokat társít hozzá-

juk, végül indextáblát készít, ami egy formális relevancia-ellenőrzést is jelent, így a kere-

sési kritériumok ismeretében gyorsan elkészíthető a hatékony találati lista. A gyorsaság az

indexelés miatt, míg a hatékonyság a relevancia-ellenőrzésnek köszönhetően domborodik

ki. Az indexelés elképzelhető egy speciális tárgymutatóként, hiszen a gyűjtés után az ada-

tokat visszakereshetővé kell tenni. Az index készítése nem más, mint a dokumentum lexi-

kális elemzése után előállt szavak táblázatai a dokumentumbeli elérhetőségükkel, esetleg

egyéb attribútumokkal, kiemelve ezzel a webes dokuementum jellegzetes, fontos kifejezé-

seit. Az indexelésnél az ún. tiltott szavakat (stop words) figyelmen kívül hagyja, meggátol-

va ezzel a csaknem minden dokumentumban megtalálható szavak (kötőszavak, névelők

stb.) indexelését. A tiltott szavaknak tehát nincs szerepe a találatok kialakításánál, ráadásul

még nyelvenként sem teljesen egységesek.

Példa:

magyar nyelven tiltott szavak lehetnek egy keresőrendszerben: egy, az, a, is, ne...

angol nyelven tiltott szavak lehetnek egy keresőrendszerben: the, to, be, and, or...

német nyelven tiltott szavak lehetnek egy keresőrendszerben: der, die, das, und...

A keresés (harmadik rész) természetesen a felhasználó vagy más program kérésére tör-

ténik. A keresőmotor ezen részét angolul runtime systemnek is nevezik. Ekkor az indexlis-

tából kikeresi a felhasználó által beírt, vagy más programtól kapott kulcsszóhoz vagy

keresőkifejezéshez tartozó website-ok rekordjait, amiket a hozzájuk társított metainfor-

mációk alapján állít sorrendbe, amit a jellemzően jelentős számú találati lista megjelenítése

zár le. A találati lista (SERP) első néhány rekordja látható a felhasználó számára.

Relevancia

A keresőszolgáltatást nyújtó weboldalak üzemeltetői számára lehetetlen cél a látható

web akár egy jelentős részének a felhasználó számára hasznos, tartalmi szempontból teljes

bemutatása, ezért a keresőmotorok nem a találatok mennyiségében, hanem a relevanciájá-

ban, azaz informatikai oldlaról a keresőmotorok működésében képesek jobbat nyújtani a

másiknál. A szolgáltatásonként eltérő technológia teszi lehetővé, hogy egy keresőszolgálta-

tás hatékonyabb legyen a másiknál, bár a relevancia a találati listák esetén igen szubjektív.

A relevancia kialakítása több úton is megvalósítható:

− mikroszint módszer: az egyén explicit módon kinyilvánítja saját preferenciáit, de

ez az adatok hatalmas mennyiségére, és a kereső személyek jelentős száma miatt

nem alkalmazható a keresőrendszereknél

− automatizált rendszerfüggő módszer: a keresőrendszertől függő elemzési szem-

pontok alakalmazása, ez társítható a mai (2010) keresőrendszerek többségéhez, a

következőkben erről részletesebben is szólunk.

− mezoszint módszer: a közösségek tagjainak hálózati tevékenységében megnyilvá-

nuló erős vélemények kivetítése a közösségre. A módszer egyfelől a közösség tag-

jai által a weboldalakba beleírt utalásokra, a linkekre, másfelől a közösségi tagjok

cselekvéseinek elemzésére épül.


41

− implicit profilhozzárendelés módszere: napjainkban (2010) még nem automatizál-

ható teljesen, az automatizáltság erősebb szintjeit elérve vélhetően a jövő kereső-

rendszereinek része lesz. Alapelemei: humán osztályozás, gépi klaszterezés, adat-

bányászat. Az egyénhez közreműködése nélkül próbálnak preferenciaítéleteket

kapcsolni.

A relevanciát befolyásoló automotizált, rendszerfüggő módszernél három jelentős tech-

nikát emelhetünk ki:

1. Kleinberg-féle HITS-modell: a hiperlinkeken alapuló téma szerinti keresés

(Hyperlink-Induced Topic Search) egy kapcsolatrendszerből (például weboldalak

közötti linkekből) nyer ki információt az egyes csomópontok fontosságáról. Az al-

goritmust 1998-ban publikálta Jon Kleinberg, eszerint a keresett téma szempontjá-

ból a mértékadó (authoritative) és központi (HUB) oldalakhoz két számot rende-

lünk. A mértékadó oldal lehet például egy szaktekintély weboldala, a központi

oldal lehet például hírportál. Az oldalak kapcsolatának feltérképezési folyamata

rekurzív: a központi oldalak azok, amik sok mértékadó oldalra mutatnak, a mér-

tékadó oldalak pedig azok, amikre sok központi oldal mutat. A közösségen belülre

vagy azon kívülre mutató linkek elemzésével lehet megállapítani az önszerveződő,

egymásra hivatkozó közösségek határait. Eredményként pontos és releváns talála-

tok várhatók, de minden kérdésnél újra kell számolni, így nem hatékony.

2. oldalra mutató hivatkozások számán alapú algoritmus, ami a Google sikerét hozta,

és saját nevet is kapott PageRank. Ezt részletesen tárgyaljuk ebben a leckében.

3. klickstream alapú relevanciakivonatolás. A felhasználók kattintásainak sorozatára

(clickstream) alapozott adatok elemzésével a felhasználók szokásai, valódi visel-

kedése tárható fel, ami a következő keresés találati listájánál már felhasználható.

Egy primitív módja, ha a felhasználó értékeli a találatot, hogy releváns volt számá-

ra vagy sem. A keresőrendszereknél az elemzés makroszintű, azaz a globális háló-

zati társadalom szintjén történik, tehát igen sok felhasználó viselkédése alapján ke-

letkeznek az új, a találati listát befolyásoló információk. Ez nem önálló keresési

módszer, többnyire kiegészítésként alkalmazzák a keresőrendszerek.

4.3.4 Miért a Google a vezető indexelt kereső?

A Google több év óta a legnépszerűbb keresőrendszer, több százmillió keresési kérés

érkezik hozzá és társlapjaihoz naponta. Az okokat nem is kell olyan sokáig keresnünk. A

rendszer legfontosabb eleme az a gyors, szünet nékül hibátlanul működő, az innováció

révén egyre relevánsabb találati listát szolgáltató keresőmotor, amelynek köszönhetően a

Google találati listájának első néhány rekordja – a Google osztályozási módszere révén –

nagyon gyakran tükrözi a kereső személy elvárásait.

Az ún. PageRank osztályozási módszer teljes működési mechanizmusát a cég éppen

ezért titokban tartja, ugyanakkor a módszert jogilag védetté tették. A siker másik oka talán

az oldal hirdetések nélküli, puritán megjelenésének köszönhető, ami a felhasználók több-

ségének igen vonzó.

A Larry Page és Sergey Brin alapította cégre egészen szokatlan, a munkatársak ötleteit

tiszteletben tartó munkamódszer jellemző, ami annak köszönhető, hogy egyetemi hallgató-

ként alapítták a céget. A Google munkahelyein a munkatársak részére különféle termeket

rendeztek be, hogy munka közben kikapcsolódhassanak (játéktermek, relaxációs termek


42

stb.). A belső fejlesztők minden ötletét megvizsgálják, és vannak olyan napok, amikor csak

az új ötleteken kell fáradozniuk. Ezek után nem véletlen, hogy a Stanford Egyetemen vég-

zett két diák olyan cég tulajdonosa, ahol az újítások naponta jelennek meg.

Ma már része a Google-nek például a képkeresés, a videokeresés, a fórumtémák keresé-

se, a beépített számológép, a beépített mértékegység váltó, az árucikkek keresése, a föld-

rajzi hely keresése stb. A weblapok tartalmában végzett kereséseken túl lehetőség van azok

fordítására, vagy a már nem létező eredeti tartalom megtekintésére a Google tárolt adatai-

ból.

A népszerűséget az bizonyítja legjobban, hogy 2003-ban a „google” szóból egy új angol

szó keletkezett, a „to google” ige jelentése: keresni az interneten (a Google segítségével).

Ezzel egyébként azóta is csak a Google büszkélkedhet.

4.3.5 PageRank algoritmus

A page ranking (e.: pédzs renking) tömören egy olyan algoritmus, amely hiperlinkekkel

összekötött dokumentumokhoz számokat rendel azoknak a hiperlink-hálózatban betöltött

szerepe alapján a webes keresőrendszereknél. Jelentése magyarul: oldalak rangsorolása.

A PageRank a Google internetes keresőmotor alapja, amit a Google alapítói, Larry Page

és Sergey Brin fejlesztettek ki 1998-ban a Stanford Egyetemen. A PageRank egy ún. re-

kurzív algoritmus, de magát a weboldalhoz rendelt számot is PageRanknek nevezik. A

PageRank 2001 szeptemberétől a Google bejegyzett védjegye.

A PageRank segítségével a Google – szemben az akkori vetélytársaival, amelyek az ol-

dalak sorrendezését kizárólag azok tartalma alapján határozták meg – elemezni tudja a

különböző oldalak közötti kapcsolatokat, és ennek segítségével sokkal relevánsabb talála-

tokat tud visszaadni, mint más keresők.

A PageRank algoritmus és index. A Google alapítóinak elgondo-

lása szerint a weboldalak készítői a saját lapjukon elhelyezett lin-

kekkel általában a számukra értékes weboldalakra mutatnak, ezál-

tal az összes hiperlink felfogható egy szavazatként a céloldalra.

Minél több szavazatot kap egy oldal, annál fontosabb, de azt is fi-

gyelembe kell venni, hogy a szavazatot leadó oldal mennyire fontos.

Az algoritmus által előállt valós szám a weboldal PageRank indexe.

A definíció rekurzív: az a fontos oldal, amire fontos oldalak mutatnak. Egy adott site

PageRank-je havonta változik, mert ennyi időnként a Google újra indexeli az internetes

oldalakat. A fenti alapötlet szerint kezdetben minden oldalnak egy egységnyi szavazata

van, amit egyenlően szétoszt azok között az oldalak között, amikre hivatkozik, és a más

oldalaktól kapott szavazatokat is ugyanígy továbbosztja. Egy oldal PageRankje megegye-

zik a kapott szavazatok számával, ami sok esetben nem egész szám. A PageRank képletét

később közöljük.

A PageRanket az alkotók szinkronizált PageRank nevezték, különlegessége tehát abban

áll, hogy képes figyelembe venni mind az adott honlapra mutató hivatkozások számát,

mind a hivatkozások forrásoldalára vezető hivatkozások számát. Ez a tudományos cikkek,

közlemények idézeteinek előfordulását számláló algoritmus fordítottja volt, de az ötlet

működött.


43

A PageRank egy demokratikus, nehezen manipulálható rendszer, de a technológiának

vannak hibái, amit egyesek üzleti célból megpróbálnak kiaknázni, hiszen minden linket

működőnek fogad el. A manipulálás egyik kedvelt módszere a tetszőleges felhasználó által

szerkeszthető oldalakon (vendégkönyvekben, blogokban vagy wikikben) való spam (com-

ment spam) elhelyezése, ami jelentősen megnövelheti egy weboldal mutatóját. Néhány

ilyen link elenyésző mértékben növeli meg a kívánt weboldal PageRankjét, de nagy meny-

nyiségben alkalmazva már jelentős növekedést lehet elérni. A Google emiatt a közelmúlt-

ban egy új HTML attribútumot (rel="nofollow") javasolt a weboldalak forrásszövegébe,

ezzel kiszűrve a „comment spam” beírásokat.

A másik jellemző módszer a linkfarmok használata. A linkfarmok olyan weboldalak,

ahol nagyszámú „szolga” oldal van, amelyek egyetlen haszna az, hogy a kezdetben kapott

szavazatukat átadják a főoldalnak. A Google a PageRank érték 0-ra csökkentésével sújtja

azokat a linkfarmokat, amikről tudomást szerez. Vélhetően számos más módosítást is al-

kalmaz a Google, de ezeket jelentős részét vélhetően eltitkolja.

A Google szemszögéből kivédhetetlen probléma, hogy a magas mutatójú címek értéke-

sek lettek, és ezek eladása folyamatosan zajlik. A technológia igazán nagy vesztesei az új

weboldalak, hiszen rájuk biztosan nem mutat egyetlen link sem.

4.3.6 A PageRank képlete

A hibás szavazásos képlet

Az alapötlet szerint kezdetben minden oldalnak egy egységnyi szavazata van, amit

egyenlően szétoszt azok között az oldalak között, amikre hivatkozik, és a más oldalaktól

kapott szavazatokat is ugyanígy továbbosztja. Egy oldal PageRankje megegyezik a kapott

szavazatok számával, ami általában nem egész szám.

Az eljárás működőképessége miatt bevezetett d csillapító tényező (damping factor) sze-

repe: az oldalak a szavazatukból csak d részt osztanak tovább, (1-d)-t pedig megtartanak. A

mástól kapott szavazatokat teljesen továbbosztják. Így a PageRankre a következő képlet

adódik (7. kép).

7. kép A PageRank képelete

A 7-es képen szereplő jelölések:

− PageRank(i): az i. weboldal PageRank indexe

− M(i) az i. oldalra mutató linket tartalmazó weboldalak halmaza

− L(j) pedig a j. oldalról kimenő linkek száma.

− d a csillapító tényező

Normális esetben (a lógó linkek kizárása után), ha a vizsgált hálózat N oldalból áll, ak-

kor az egyes oldalak PageRankjeinek összege N lesz. Így a PageRank szavazás helyett úgy

is elképzelhető, mint a kezdetben a weblapok között egyenletesen elosztott fontosság át-

csoportosítása.


44

Sztochasztikus szörföző

A PageRanket úgy is felfoghatjuk, mint annak a valószínűségét, hogy odatalálunk az

oldalra. A valószínűséget a sztochasztikus szörfözővel modellezzük, aki a weben bolyong,

és minden lépésben véletlenszerűen, egyenletes eloszlás szerint kiválaszt egyet az oldalon

található linkek közül, és azon halad tovább. (Más szóval véletlen bolyongást végez a

hiperlinkek alkotta irányított gráfon.) Hogy ne essen csapdába valamelyik olyan részgráf-

ban, amiből nem vezet kifelé link, a modellt kiegészítjük egy további elemmel: a szörföző

minden lépésben 1-d valószínűséggel elunja magát, és egy (egyenletes eloszlás szerint)

véletlenszerűen választott weblapra ugrik.

8. kép Az oldalakon tartózkodás esélyének számai

Így, ha az n.-ik lépésben az egyes oldalakon tartózkodás esélyét a 7. képen látható szá-

mok adják meg, akkor a következő lépés utáni valószínűségeket a 19-es képen látható kép-

lettel kapjuk.

9. kép A PageRank sztochsztikus képlete (valószínűségek alapján)

Az egyes lépésekben felvett pozíciók mint valószínűségi változók sorozata egy

irreducibilis és aperiodikus Markov-láncot alkot, tehát létezik határeloszlása. (Ehhez szük-

séges a csillapító tényező: ha a gráf nem lenne erősen összefüggő – márpedig egy véletlen

gráf 1 valószínűséggel nem az –, akkor a lánc reducibilis lenne.) Az oldal PageRankjét a

határeloszlásban hozzá tartozó valószínűségként definiáljuk. Ez a következő rekurzív kép-

letet adja a PageRankre:

10. kép A PageRank rekurzív képlete

Ez nem azonos a szavazásos képlettel: az 1-d tényező itt le van osztva az összes oldal

számával, tehát az így definiált PageRank az előzőnek éppen N-edrésze. Brin és Page ere-

detileg a sztochasztikus szörföző modelljéből vezette le a PageRank képletét, de eltévesz-

tették a képletet, és az N nélküli változatot publikálták. Bár a későbbi cikkekben kijavítot-

ták, mégis a „hibás” változat terjedt el, mert a gyakorlatban könnyebben számítható: N-t

nehéz meghatározni, mert a kereső a folyamatosan változó világhálónak egyszerre mindig

csak egy kis részét látja.

http://hu.wikipedia.org/wiki/Val%C3%B3sz%C3%ADn%C5%B1s%C3%A9g

http://hu.wikipedia.org/w/index.php?title=Sztochasztikus&action=edit&redlink=1

http://hu.wikipedia.org/wiki/Egyenletes_eloszl%C3%A1s

http://hu.wikipedia.org/w/index.php?title=V%C3%A9letlen_bolyong%C3%A1s&action=edit&redlink=1

http://hu.wikipedia.org/w/index.php?title=Ir%C3%A1ny%C3%ADtott_gr%C3%A1f&action=edit&redlink=1

http://hu.wikipedia.org/wiki/Val%C3%B3sz%C3%ADn%C5%B1s%C3%A9gi_v%C3%A1ltoz%C3%B3

http://hu.wikipedia.org/wiki/Irreducibilis

http://hu.wikipedia.org/w/index.php?title=Aperiodikus&action=edit&redlink=1

http://hu.wikipedia.org/wiki/Markov-l%C3%A1nc

http://hu.wikipedia.org/w/index.php?title=Hat%C3%A1reloszl%C3%A1s&action=edit&redlink=1

http://hu.wikipedia.org/w/index.php?title=Er%C5%91sen_%C3%B6sszef%C3%BCgg%C5%91&action=edit&redlink=1

http://hu.wikipedia.org/wiki/Vil%C3%A1gh%C3%A1l%C3%B3


45

A sztochasztikus szörföző modellel definiált PageRank tehát egy valószínűségi eloszlás

lesz: egy oldal PageRankje annak a valószínűsége, hogy nagyon sok véletlenszerű kattintás

(és ugrás) után éppen arra az oldalra érkezünk. (A PageRank reciproka az oldal várható

visszatérési ideje, azaz annak a várható értéke, hogy az oldalról elindulva hány lépés múlva

érünk vissza oda.)

Lógó linkek

A Google a html típusú dokumentumokon kívül más fájlformátumokat is indexel, ezek

többsége nem tartalmaz linkeket. Ezen túl a Google a web feldolgozását valós időben vég-

zi, így a letöltetlen vagy feldolgozatlan weboldalakat üresnek látja.

A lógó link (dangling link) egy zsákutcára mutató hivatkozás.

A zsákutca egy olyan weboldal, amelyen nem szerepel link.

Ezek a linkek gondot okoznak a PageRank számításakor, mert ha a zsákutcáknak is

adunk PageRanket, akkor a rendszerben levő összes szavazat kevesebb lesz az oldalak

számánál. A Google a PageRank-számítás idejére átmenetileg kitörli ezeket a linkeket.

PageRank a GoogleBarban

A GoogleBar által használt, 10-es skálájú értékelést gyakran összekeverik a

PageRankkel. A GoogleBar által mutatott érték jelentése valójában nem ismeretes – sokak

szerint a PageRanknek a 0–10 intervallumra logaritmikusan átskálázott és kerekített értékét

mutatja. (Ugyanez érvényes a Google Directory által mutatott értékekre is, csak ott 0–7-ig

van a skála.)

A GoogleBar néha olyan oldalakra is ad eredményt, amik nem szerepelnek a Google

indexében. Az ilyen eredmények valószínűleg a közeli oldalak PageRankjeire alapozott

találgatások.

4.3.7 A keresőoptimalizálás

A website lehet non-profit vagy üzleti jellegű, a legfontosabb cél ugyanaz, hogy arra

minél többen rátaláljanak. A statisztikák szerint a legtöbb weblapot a keresőoldalakon ke-

resztül találják meg, ezért lehet fontos a keresőoptimalizálás, ami a keresőmarketing része.

A keresőoptimalizálás (Search Engine Optimization, SEO) az a tevékenység, melynek

célja, hogy egy weboldalt a webes kulcsszavas keresők megtaláljanak, és a találati listában

a lehető legkedvezőbb helyre sorolják. Informatikai megközelítésben ez a tevékenység a

weboldalak szövegének változtatását, többnyire a metaadatok módosítását, illetve hozzá-

adását jelenti, hogy a kulcsszavak elhelyezésével a találati listán feljebb kerüljön az oldal.

Ez a fajta megjelenés ráadásul a legolcsóbb és egyik leghatékonyabb fajtája az oldalak

népszerűsítésének. Az is általánosan elismert tény, hogy a keresés eredményei közül az

első 10-20 találatnál, vagyis a találati lista néhány első oldalnál többet ritkán néznek meg a

felhasználók. A webes keresők adatbázisába ezért nem elég csak bekerülni, ugyanilyen

fontos a számunkra lényeges kulcsszavakra rákeresve a találati listában az előkelő helye-

zés.

A kereső optimalizálás egyik szakmai ága az ún. kiemelt keresők optimalizálása, ezek

között a Google Optimalizálás az egyik piacvezető irányzat. A Google Optimalizálás azért

az egyik közkedvelt szakterület, mert a Google piacvezető szerepéből adódóan a felhaszná-

http://hu.wikipedia.org/wiki/V%C3%A1rhat%C3%B3_%C3%A9rt%C3%A9k

http://hu.wikipedia.org/wiki/HTML

http://hu.wikipedia.org/w/index.php?title=GoogleBar&action=edit&redlink=1

http://hu.wikipedia.org/w/index.php?title=Logaritmikus_sk%C3%A1la&action=edit&redlink=1

http://directory.google.com/

http://hu.wikipedia.org/w/index.php?title=T%C3%A1rgymutat%C3%B3&action=edit&redlink=1


46

lók jelentős számban használják és üzleti érték, hogy hol található a weboldalunk a

Google-ben.

Az oldal látogatottságának növelésénél elsősorban arra a Google találatai közötti helye-

zést érdemes figyelni, amit jelentősen befolyásol, hogy hány és milyen látogatottságú web-

oldalról oldalról mutat a honlapunkra link.

12. Optimalizálási tippek: http://hungarianseo.com/

4.4 ÖSSZEFOGLALÁS

A keresőrobotok fogalma, szerepe, működése. A hivatkozási index (page ranking) je-

lentőségének vázolása a szolgáltató, a felhasználó és a könyvtárak honlapjainak keresése

szempontjából. Keresőoptimalizálás. A láthatatlan web fogalma, keresési lehetőségeinek

megismerése.


1. Mutassa be a keresőroborokat!

2. Értelmezze a PageRank algoritmust! Vázolja jelentőségét!


47

5. A KULCSSZAVAS KERESÉS TECHNIKÁI

5.1 CÉLKITŰZÉS

A kulcsszavas keresés technikájának megismerése. A keresés hátterének elsajátítása a

matematikai logika szemszögéből. Összetett keresések készítése, kifejezések keresése, kulcs-

szavak összekapcsolása. A kulcsszavas keresők vezető szerepének, korlátainak megértése.

5.2 TARTALOM

Az online keresés jelentősége

Szabadszavas keresés

Keresés az OPAC rendszerekben

Online keresés lépései

Az 1. lépés: a keresőkérdés értelmezése

A 2. lépés: a keresőfelület kiválasztása

A 3. lépés: A keresőkérdés összeállítása

A 4-5. lépés: Stratégia és válasz

Keresés és szimbólikus logika

Online keresési stratégiák


5.3.1 Az online keresés jelentősége

Információt kereshetünk kulcsszavak (szabadszavak) alapján. A kulcsszavas keresők

technológiának lényege, hogy lehetővé teszi az indexelt információhalmazban (Például

weboldalak, képek stb.) a kulcsszavak, kereső-kifejezések alapján történő keresést. A sza-

badszavas keresők a Céltudatosan kereső felhasználók által messze leggyakrabban használt

keresési formát jelentik. A szabadszavas keresők minőségét elsősorban a kereső adatbázis-

ok mérete, az adatbázisok frissessége és a találati rangsor rangsorolásának minősége hatá-

rozza meg. Emellett olyan szolgáltatásokkal is segíthetik a keresést, mint a klaszterezés.

Az internetes keresés másik gyakori formája a tematikus katalógusok segítségével történő

keresés.

Nemzetközi szabadszavas kereső programok. Manapság már csak pár cég rendelkezik

annyi erőforrással, hogy a rengeteg weboldalon található tartalomról kielégítő méretű és

rendszeresen aktualizált adatbázist tarthasson fel. Becslések szerint a Google Inc. több

százezer személyi számítógépet használ. Nemzetközi viszonylatban fontos keresőknek

tartják a Google kereső, Yahoo! kereső, a Microsoft Bing keresője (régen MSN), Ask.com

szabadszavas keresőit. Említésre méltó még a Youtube videokereső, amelyet a Google

felvásárolt, illetve az Amazon.com könyvkereső rendszer, ami egyben online könyvesbolt

is. Pár éve még szerepe volt a Gigablast vagy a Wisenut keresőnek is.

http://webni.innen.hu/SzabadszavasKeres_c5_91k

http://webni.innen.hu/Kulcsszavak

http://webni.innen.hu/Keres_c5_91Kifejez_c3_a9s

http://webni.innen.hu/C_c3_a9ltudatosanKeres_c5_91Felhaszn_c3_a1l_c3_b3

http://webni.innen.hu/Keres_c5_91Adatb_c3_a1zisokM_c3_a9rete

http://webni.innen.hu/Keres_c5_91Adatb_c3_a1zisokM_c3_a9rete

http://webni.innen.hu/Tal_c3_a1latiRangsor

http://webni.innen.hu/Rangsorol_c3_a1s

http://webni.innen.hu/Klaszterez_c3_a9s

http://webni.innen.hu/TematikusKatal_c3_b3gusok

http://webni.innen.hu/GoogleInc

http://webni.innen.hu/FontosKeres_c5_91k

http://webni.innen.hu/GoogleKeres_c5_91

http://webni.innen.hu/YahooKeres_c5_91

http://webni.innen.hu/MSNKeres_c5_91

http://webni.innen.hu/AskCom

http://webni.innen.hu/Gigablast

http://webni.innen.hu/Wisenut


48

5.3.2 Kulcsszavas keresés

A kulcsszavas keresőrendszerek automatikusan (emberi beavatkozás nélkül) osztályoz-

zák a weboldalakat, felkeresik a számukra előírt weboldalakat, majd azok adataiból, objek-

tumaiból, esetleg a teljes szövegük alapján saját maguk készítenek egy adatbázist.

Keresés az OPAC rendszerekben

A keresési szokások, készségek alapvetően meghatározzák a keresés idejét. Az OPAC

hatékony használatához a szükséges technikai készségek mellett fontos az előbb felsorolt

lehetőségek ismerete.

A kereséssel összefüggő követelmények, a teljesség és pontosság fogalmát, és össze-

függéseit, a keresőkérdés, keresési stratégia összefüggéseit, az alkalmazható IKNY-ket, a

keresés két fő fázisának – az előkészítésnek és végrehajtásnak az elemeit, teendőit, az

igénybevehető kereséstechnikai eszközöket.

5.3.3 Online keresés lépései

Először a keresési folyamat lépésekre bontását kell megismernünk, utána tudunk a stra-

tégiáról beszélni. A folyamat ott kezdődik, hogy elkezdünk érdeklődni téma iránt, választ

szeretnénk kapni egy konkrét kérdése mi magunk, vagy egy olvasó, aki tőlünk, könyvtá-

rosoktól várja a segítséget. A lépések röviden:

− első lépés: a keresőkérdés értelmezése

− második lépés: a keresőfelület kiválasztása

− harmadik lépés: a keresőkérdés összeállítása

− negyedik lépés: a keresési stratégiája

− a stratégia és a keresőkérdés ciklikus módosítása (bővítés, csonkolás, kizárás stb.)

− ötödik lépés: a válasz összeállítása

5.3.4 Az 1. lépés: a keresőkérdés értelmezése

Első lépés a keresőkérdés értelmezése, pontosítása. Minél szisztematikusabban közelí-

tünk meg egy kérdést, annál nagyobb esélye van a sikeres találatoknak, ezért tisztázni kell

milyen eredményt várunk a kereséstől:

− bibliográfiát szeretnénk a témából (például a csecsemőgondozással kapcsolatban

milyen műveket érdemes beszerezni),

− a témához kapcsolódó cikkeket szeretnénk visszakapni (például a könyvtárunkról

megjelent cikkek),

− vagy pedig konkrét adatokat várunk (pl. hogy változott az euro árfolyama az el-

múlt egy évben?)

Ha más számára végezzük a keresést, akkor nagyon fontos további részletek pontosítá-

sa: Vannak-e korlátozások:

− adott időintervallum érdekli-e?

− milyen nyelvű anyagok lehetnek a találatok között?

− mit keresünk (a keresés tárgya):

pl: szabadszavas metaadat kereső: http://www.terport.hu/main.php?folderID=3108


49

Magyar nyelvű keresés esetén nem használható több kereső, például az Ask.com illetve

más angolszász környezetben népszerű említett feltörekvő kereső (Gigablast,Wisenut), mivel

se magyar nyelvű keresőfelületük nincs, se magyar nyelvre nem lehet leszűkíteni a keresést.

A Google kereső és a Bing Kereső saját oldalain nyújtja mindezt, de a magyar kereső-

rendszer (pl. ok.hu) jó választás lehet, ha magyar nyelven keresünk. A saját fejlesztésű a

magyar nyelvet figyelembe vevő keresést megvalósító oldalak közül a két legrégebben

működő szolgáltatás közül az egyik, a goliat.hu használhatatlanná vált; míg a másik oldal,

a heureka.hu használhatóságát is lekörözi sok újabb fejlesztésű rendszer, mint pl. a

tango.hu, vagy a kurzor.hu, melyek jobb találatokat és érdekesebb szolgáltatásokat nyújta-

nak. Sajnos azonban egyik magyar fejlesztésű oldal sem közelíti meg a fontos keresők

használhatóságát, kivéve talán a 2005 végén indult új keresőt, a tango.hu-t.

5.3.5 A 2. lépés: a keresőfelület kiválasztása

A keresőkérdés pontosítása után kiválasztjuk a keresőrendszert, a keresés terepét. Fi-

gyelemmel kell lennünk a következőkre:

− az előfizetett adatbázisok listája. Ha nincs, akkor a keresést elkezdhetjük egy általá-

nos keresőrendszerrel (pl. Google, Altavista), de sokkal hatékonyabbak lehetünk, ha:

– gondoljuk át, hogy milyen területekhez tartozik a keresett adat, pl gazdasági,

pedagógiai, politikai, jogi. Ha biztosak vagyunk az adat szakterületi vonatko-

zásában, akkor érdemes szakterületi vertikális keresőrendszert felkeresni.

– ha híreket, tudományos cikket, térképet, menetrendet stb. várunk találatként,

akkor célszerű egy speciális vertikális keresőhöz fordulni.

Példa:

Keresett témakör: diszlexia

Pedagógiai vonatkozásnál: pedagógiai adatbázis (pl: PAD – Pedagógiai Adatbázis,

mely cikkek bibliográfiai adatait tartalmazza

(http://opac.opkm.hu/index.php?fn=search/osszker )

11. kép Pedagógiai Adatbázis kereső felülete a diszlexia keresése esetén

http://webni.innen.hu/AskCom

http://webni.innen.hu/Gigablast

http://webni.innen.hu/Wisenut



http://webni.innen.hu/MagyarNyelvetFigyelembeVev_c5_91Keres_c3_a9s

http://webni.innen.hu/GoliatHu

http://webni.innen.hu/HeurekaHu

http://webni.innen.hu/TangoHu

http://webni.innen.hu/KurzorHu

http://webni.innen.hu/FontosKeres_c5_91k


http://opac.opkm.hu/index.php?fn=search/osszker


50

Orvostudományi vonatkozásnál: orvosi adatbázis (pl. www.doktor.info.hu „betegség in-

formációk” menüpont; vagy drinfo.hu egészségmagazin anyagában)

12. kép dr.Info oldalán az oldal saját keresőmezője

Fogalom egy tudástárból: pl: Wikipédia

Általános áttekintés katalógus alapján: pl. Startlap

13. kép A keresőmező Startlapon keresésre állítva (egyébként a Goggle-t

használja)

http://www.doktor.info.hu/

http://www.drinfo.hu/


51

Blogok keresése, mások megoldásinak keresése esetén: blogkereső segítségével

Valamilyen speciális szempont szerint: általános kulcsszavas kereső (pl. Google), ahol

fontos a keresőkérdés: diszlexia ÉS (gyógyítás OR kezelése) a Google esetén

Az összetett lépés miatt egy újabb példa következik:

Példa:

Példa:

Keresett témakör: diákhitel maximális összege

Hallgatói vonatkozásnál: pl. a felsőoktatási intézmény honlapja, kormányzati portál

vagy egy gazdasági hiteles online hírportál, pl. a HVG folyóirat (hvg.hu) lehet a jó ki-

indulás.

14. kép HVG találati listájának dátum szerinti szűkításe a „diákhitel”

kulcsszó esetén

Jogi vonatkozás: a pontos adathoz a jogszabály (pl. a Jogtár-ban (CD-ROM-os teljes

verzióval, vagy annak hiányában a Webjogtárban (ami nem tartalmazza a módosításo-

kat!): http://mkogy.complex.hu/jr/sf/startfrnp.html, ahol kiadjuk a Keres menü Összetett

keresés parancsát.

http://www.hvg.hu/

http://mkogy.complex.hu/jr/sf/startfrnp.html


52

15. kép Webjogtár összetett kereső felülete

5.3.6 A 3. lépés: A keresőkérdés összeállítása

Ha tudjuk, milyen felületen fogunk keresést végezni, akkor jöhet a keresőkérdés össze-

állítása. Először természetes nyelven megfogalmazzuk az igényünket, majd összeállítjuk a

keresőkérdést alapelemeit, ezután kialakítjuk a keresőkérdést.

Természetes nyelv

Elsőként természetes nyelven átfogalmazzuk a felhasználó kérését. Növelhető a haté-

konyság, ha a kérdés centrikus gondolkodást elvetjük, és inkább válasz centrikusan gon-

dolkodunk. A keresőkérdésben nem szerencsés kérdőszót használni, hiszen a keresőrend-

szerek tartalom alapján indexelik az oldalakat.

Példa:

Hány tanár van Egerben? kérdés helyett gondoljunk a válaszra, ami a weboldalakon

előfordulhat. Pl. Tanárok száma Eger iskoláiban…

A keresőkérdés alapelemei

Kiválasztjuk a keresőkérdésben használt kulcsszavakat. Megkeressük a keresett téma

központi fogalmait, ezek lesznek a kulcsfogalmak. A szinonimákat nem mellőzhetjük,

jelentőségét az adja meg, hogy a honlapokon egy számunkra releváns oldalnál lehet, hogy

éppen azt használják.

A következőkre érdemes még ügyelni:

− az egyes és a többes szám használatánál az egyes számot preferáljuk,

− a helyesírási változatok használatára (file, fájl)

− a szóvariációkra (gyerek, gyermek)

− ha létezik, akkor a mozaikszó is kulcsszó lehet (Oktatási Minisztérium, OM)


53

− a tárgyszavakra (köznyelvben: újság, sajtó, lap, preferált szava: periodikum, tárgy-

szava: időszaki kiadvány, vagy: szentírás, tárgyszava: biblia)

− olykor a gyakori gépelési hibákat is érdemes egy kulcsszóban meghagyni, mert sok

weboldalon szintén elírhatták (például „telefon” helyett „telfon”)

− a fiatalokkal kapcsolatos témáknál az SMS-ből átvett összevont szórövidítéseket is

érdemes kulcsszóként szerepeltetni, melyeket egy rövidítés szótárból nézhetünk ki.

13. www.rovidites.hu: http://rövidítés.hu/

A keresőkérdés összeállítása

Az összeállítás az utolsó lépés a konkrét keresőkérdés kialakításához, ezután a végleges

formát a keresőrendszer weboldalán a keresőmezőbe írjuk. A keresőrendszerhez kapcsoló-

dó beszélt nyelv (hazánkban többnyire magyar, esetleg angol) kiemelt fontosságú lehet,

különösen a vertikális keresők esetén.

A szolgáltató lehetőségeit megismerhetjük a súgó rendszerből. Itt megtudhatjuk, hogy

használhatók a logikai vagy a helyzeti operátorok. Mindenképpen tudjuk meg, hogy szük-

séges a csonkoló jelek használata, vagy automatikus csonkolást használ a rendszer.

5.3.7 A 4-5. lépés: Stratégia és válasz

A negyedik lépés a stratégia kialakítása. A gyorskeresés a keresés legegyszerűbb for-

mája, amikor egyetlen keresőszót írunk be. A keresőkérdést kulcsszavaik bontva az ún.

építőkockák segítségével a találatunk már pontosabb lehet. A találatokra alapozó keresés

akkor lehet hasznos, ha birtokunkban vannak a keresés tárgyával kapcsolatban releváns

adatok.

A találati eredmény természetesen még ezután is számtalan módon javítható: a sok talá-

lat szűkíthető, egyes elemek a keresésből kizárhatók. Ha kevés találat van, akkor csökkent-

hető a kulcsszavak száma, használhatjuk a szó szinonimáit stb.

Ha nem kapunk ezután sem releváns találatokat, akkor elképzelhető, hogy az egész ke-

resést újra kell kezdeni, egészen más stratégiával. A stratégiákról részletesen szól egy önál-

ló fejezet.

Az ötödik lépés a válasz összeállítása. A választ a kérdést feltevő számára közölni kell.

alatt értjük a végső anyag összeállítását, melyet befolyásol a kiindulási lépésünk: kinek és

milyen céllal végeztük a keresést.

Ha bibliográfiai adatokat gyűjtöttünk, akkor a találatainkat egységesíteni, majd rendezni

kell. Ha pedig tényadatokat gyűjtöttünk, akkor is érdemes egy anyagban összefoglalni,

hogy hol és mit tudtunk kideríteni a témában, ki és hogyan definiálja a fogalmat, pontos

hivatkozásokkal ellátva.

A legutolsó lépés pedig, ha szükséges, elindítani a találatok alapján az eredeti cikkek,

művek beszerzését.

5.3.8 Keresés és szimbólikus logika

A logikai operátorok megalkotása – a 19. század közepén – George Boole nevéhez fű-

ződik, ezért gyakran nevezik Boole-operátoroknak is. A szabatos keresőszó kialakítása

ritkán nélközi, a kulcsszavas keresés nélkülözhetetlen részévé vált. Az itt tárgyalt operáto-

rok a szimbólikus logika tárgyalási alapjául szolgálnak. Az operátorok jelentésének szem-


54

léltetésére a halmazelméleti megközelítés a legegyszerűbb, amit a bemutatásnál rendre

megteszünk. Egy-egy kulcsszót tartalmazó weboldal vagy más dokumentum keresőrend-

szerbeli rekordjai egy-egy halmazt jelenteni, ezen halmazokból halmazműveletekkel ké-

pezhető, és szemlélesen Venn-diagramon ábrázolható a találati lista rekordjainak halmaza.

Az informatikában, így a kulcsszsvas keresésnél is a következő logikai operátorok sze-

repe hangsúlyos: AND (és), OR (megengedő vagy), NOT (nem), XOR (kizáró vagy). Több

kulcsszó is összefűzhető, a kulcsszavak számának korlátai keresőrendszerenként eltérőek

lehetnek.

A magyar nyelvű keresőrendszerek sem engedik meg minden esetben az angol helyett

vagy mellett a magyar nyelvű operátorok alkalmazását, erről a használat előtt szükséges

tájékozódni. A felsorolt operátorok használatát és a logikai művet kapcsán azok tuljdon-

ságait fejtjük ki a leckében.

AND operátor

Az AND operátor a találati lista pontosítására, szűkítésére szolgál. Az AND a keresés-

nél a leggyakrabban használt logikai operátor, magyarul „ÉS” operátor, mely több kereső

szó együttes előfordulását követeli meg. Jelölése két kulcsszó (emlős, tenger) esetén:

− angol nyelvű operátorokkal: „emlős AND tenger”

− magyar nyelvű operátorokkal: „emlős ÉS tenger”.

− gyakran előforduló, rövid operátorral: „emlős + tenger”

− operátor nélkül: „emlős tenger”

Példa:

Kulcsszavak: könyvtár, informatika

Keresőkérdés: „könyvtár ÉS informatika”

Eredményhalmaz elemei: a könyvtár informatikával kapcsolatos, továbbá az informati-

kával kapcsolatban lévő könyvtárak (pl. a Windows operációs rendszerben a mappa)

weboldalai, dokumentumai. Ugyanakkor a két témakörrel kapcsolatba hozható számos

más találatra is számíthatunk, pl. informatikai kiállítás a könyvtárban.

Az AND operátor értelmezése halmazelméleti szempontból: két halmaz elemeinek met-

szete azon elemek halmaza, melyek az első és a második halmaz (esetleg több halmaz)

mindegyikének eleme, vagyis az AND operátor megfeleltethető két halmaz közös részének.

16. kép AND operátor találati halmaza


55

Több kulcsszó is összefűzhető, a kulcsszavak számának korlátai keresőrendszerenként

eltérőek lehetnek. Az AND operátor egyes keresőrendszerek esetén alapértlemezett, így a

keresőmezőbe gépelt, szóközzel elválasztott, operátorok nélkül keresőszavak alapértelme-

zésben AND operátorral összekepcsolt kulcsszavak a keresőkérdésben.

Példa:

Keresőrendszer: Google

Kulcsszavak: drágakő, kiállítás, ár

Keresőkérdés: „drágakő kiállítás ár” vagy „drágakő AND kiállítás AND ár”

A legtöbb adatbázis keresőkérdésében az AND operátor az alapértelmezett, ami érthető,

hiszen a legtöbb esetben használt operátorról van szó.

Példa:

Keresőrendszer: ScienceDirect adatbázis

Kulcsszavak: bone, genetic

Keresőkérdés: „bone genetic” vagy „bone AND genetic”

Keresőrendszer: ERIC adatbázis

Kulcsszavak: knowledge, management

Keresőkérdés: „knowledge management” vagy „knowledge AND management”

OR operátor

Az OR operátor a találati lista bővítésére szolgál. Az OR operátor eredményhalmaza a

kulcsszavak közül legalább egyet tartalmazó találatokat szolgáltatja, ebbe beletartoznak

azok a honlapok és dokumentumok is, amelyekben több, vagy akár az összes kulcsszó is

megtalálható. Magyarul megengedő VAGY operátornak nevezték el, mivel a találalati

listába kerüléséhez a dokumentumban elég csak egyetlen kulcsszónak szerepelnie Jelölése

két kulcsszó (emlős, tenger) esetén:

− angol nyelvű operátorokkal: „emlős OR tenger”

− magyar nyelvű operátorokkal: „emlős VAGY tenger”.

Példa:


Keresőkérdés: „könyvtár OR informatika”

Eredményhalmaz elemei: tartalmazzák a könyvtár, vagy az informatika, vagy mindkét

kifejezést:

- könyvtári vonatkozású találatok

- az informatika könyvtáron kívüli ágai pl. informatika oktatás, informatikai biztonság

stb. (ha szerepel az informatika szó a weboldalon vagy az oldal metaadatai között)

- könyvtár AND informatika találatai

Az OR operátor értelmezése halmazelméleti szempontból: két vagy több halmaz uniója

azon elemek halmaza, melyek legalább az egyik halmazban megtalálhatók, azaz a halma-

zok összes eleme.


56

17. kép OR operátor találati halmaza

NOT operátor

A NOT operátor a találati lista pontosítására, szűkítésére szolgál. A keresőkérdésben

fogalmakat zárhatunk ki a NOT operátorral, így a találati listában a NOT utáni kulcsszót

tartalmazó weboldalak, dokumentumok egyáltalán nem szerepelnek. Jelölése két kulcsszó

(emlős, tenger) esetén:

− angol nyelvű operátorokkal: „emlős NOT tenger”

− magyar nyelvű operátorokkal: „emlős NEM tenger”.

18. kép NOT operátor találati halmaza

Példa:


Keresőkérdés: „könyvtár NOT informatika”

Eredményhalmaz elemei: azon rekordok, melyekhez tartozó weboldalak vagy doku-

mentumok tartalmazzák a könyvtár kifejezést, ugyanakkor azokban biztosan nem sze-

repel az informatika kifejezés.

XOR operátor

Az XOR operátor az AND operátor helyett a találati lista sajátos szűkítésére szolgál. Az

XOR (exclusive OR) operátor azon rekordokat szerepelteti a találati listáján, melyek do-

kumentumai csak a kulcsszavak egyikét tartalmazzák, de a kettőt együtt nem. Az XOR


57

operátor magyar neve kizáró VAGY, mivel kizárja azon weboldalakat, dokumentumokat,

melyek a kulcsszavakat együtt tartalmazzák. A kizáró kifejezésnek az OR operátorral ösz-

szevetve értelmezhető. Jelölése két kulcsszó (emlős, tenger) esetén:

− angol nyelvű operátorokkal: „emlős XOR tenger”.

19. kép XOR operátor találati halmaza

Példa:


Keresőkérdés: „könyvtár XOR informatika”

Eredményhalmaz elemei: olyan rekordok, melyek dokumentumai tartalmazzák a

könyvtár, vagy az informatika, de mindkét kifejezést biztosan nem.

A keresőrendszerekben nem minden esetben találjuk meg az XOR operátort, mert he-

lyettesíthető a fentebb ismertett három Boole-operátor használatával.

Példa:

A helyettesítés lehetséges két esete:


Keresőkérdés: „könyvtár XOR informatika”

Keresőkérdés: „(könyvtár OR informatika) NOT (könyvtár AND informatika)”

Keresőkérdés: „(könyvtár NOT informatika) OR (informatika NOT könyvtár)”

Operátorok prioritása

Ahhoz, hogy helyesen tudjuk használni a logikai operátorokat a kereső kifejezések ösz-

szekapcsolására, fontos ismernünk az operátorok jellemzőit. Legfontosabb jellemző a a

prioritás (kiértékelési sorrend). Ha egymás után több azonos operátort használunk, akkor a

kiértékelés balról jobbra haladva történik:

Példa:

Keresőkérdés: „tanulás AND zavar AND kezelés AND középiskola”

Operátorok proiritása: elsőként a „tanulás AND zavar” kereső kifejezések metszete ha-


58

tározódik meg, majd ezt szűkíti a keresőrendszer a kezeléssel is foglalkozó találatokra,

végül leszűri a középiskola kifejezéseket tartalmazó találatokat.

Ha különböző operátorokat használunk, akkor a kiértékelési sorrend:

4. AND operátor és NOT operátor (egyenrangúak),

5. OR operátor.

Példa:

Keresőkérdés: „felnőttképzés OR pedagógus AND továbbképzés”

Operátorok proiritása: elsőként a „pedagógus AND továbbképzés” kereső kifejezések

metszetét veszi, ezután annak eredményhalmaza OR felnőttképzés következik.

keresőkérdésben először a találatait kapjuk meg, majd ennek az.

Példa:

Nézzünk meg még egy példát, mely szemléleti miért olyan fontos odafigyelni erre a

szabályrendszerre!

Keressünk irodalmat a tanulási zavarokkal, problémákkal küzdők kezelésére. Ha a ke-

resőkérdést így írjuk be:

tanulás AND zavar OR probléma AND kezelés

akkor a kiértékelése a következő:

A rendszer leszűri a tanulás AND zavar keresőkérdés találatait;

majd leszűri a probléma AND kezelés találatait;

ezután veszi a két eredmény halmaz unióját, tehát a találataink tanulási zavarral vala-

mint a problémakezeléssel lesznek kapcsolatosak, melynek része a keresőkérdésünk

irodalma is, de mellette a problémakezelés minden válfajának irodalmát is megkapjuk.

A kiértékelést felülbírálhatjuk zárójelek használatával!

Az előző példa helyesen: tanulás AND (zavar OR probléma) AND kezelés. A kiértéke-

lés sorrendje: a keresőrobot veszi a zavar OR probléma eredményhalmazát, melyhez hoz-

zákapcsolódik a tanulás AND operátorral, és ennek az egésznek eredményét szűkíti a keze-

lés kifejezést is tartalmazó találatokra.

Megjegyzés: Nagyon ritkán előfordulhat olyan adatbázis, mely ettől eltérő kiértékelési

sorrendet használ, ezért új adatbázis használat esetén érdemes megnézni a leírását, súgóját

a keresőfelületnek. Pl. ScienceDirect-nél a kiértékelési sorrend:

1. Zárójel

2. OR operátor

3. AND operátor

4. NOT operátor

Operátorok kommutativitása

A kommutativitás (felcserélhetőség) tulajdonság egyező operátorok használata esetén

nem befolyásolja az eredményt a kulcsszavak sorrendje. Az AND, OR, XOR operátorok

kommutatívak. Legyenek a, b karakterek tetszőleges kulcsszavak, akkor igaz, hogy

a OR b = b OR a


59

a AND b = b AND a

Példa

könyvtár AND informatika ugyanazon találatokat adja, mint az informatika AND

könyvtár.

Operátorok asszociativitása

Az asszociativitás (csoportosíthatóság) több kereső kifejezést azonos logikai operátorral

összekapcsoló keresőkérdésben tetszőlegesen elhelyezhetünk zárójeleket, anélkül, hogy az

eredményt befolyásolná. Az asszociativitás az AND, OR, XOR operátorokra jellemző tu-

lajdonság. Legyenek a, b, c karakterek tetszőleges kulcsszavak, akkor igaz, hogy

a OR b OR c = a OR (b OR c) = (a OR b) OR c

a AND b AND c = a AND (b AND C) = (a AND b) AND c

Operátorok disztributivitása

Az AND operátor disztributív az OR operátorra nézve, ami azt jelenti, hogy

a AND (b OR c) = (a AND b) OR (a AND c),

ha a, b, c karakterek tetszőleges kulcsszavak.

Bár a valós számok halmazán csak a szorzás disztributív az összeadásra nézve, a hal-

mazoknál kölcsönös disztributivitásról beszélhetünk, azaz az OR operátor is disztributív az

AND operátorra nézve:

a OR (b AND c) = (a OR b) AND (a OR c),

ha a, b, c karakterek tetszőleges kulcsszavak.

Példa:

információ AND (visszakeresés OR története) keresőkérdés megfelel a

(információ AND visszakeresés) OR (információ AND története) keresőkérdésnek.

Érdekel minden történelemmel kapcsolatos mű, de a magyar egyetemek története külö-

nösen. Erre megoldást hoz az alábbi keresőkérdés:

(magyar AND egyetem) OR történelem

Ugyanazt a találati halmazt hozza a

(magyar OR történelem) AND (egyetem OR történelem)

5.3.9 Online keresési stratégiák

Melyik keresőt érdemes használni? Ha pontosan tudjuk mit szeretnénk keresni, akkor a

Google kereső és a startlap.hu szolgáltatásaival élhetünk. Ha itt nem találtunk rá a keresett

információra, akkor próbáljuk meg a Yahoo! keresővel vagy a Bing keresővel.

Ha magyar nyelvű közegben keresünk, akkor megfelelő lehet még a tango.hu, kurzor.hu

és az ok.hu találati listái is.

Az alábbiakra érdemes odafigyelni:

− a keresés lépéseinek betartása

− a keresőkérdés nem biztos, hogy elsőre megfelelő, hiszen annak finomítása több-

lépcsős folyamat

− több keresőrendszert is igénybe vehetünk


http://webni.innen.hu/StartlapHu

http://webni.innen.hu/YahooKeres_c5_91



http://webni.innen.hu/KurzorHu


60

− adott tudományághoz, iparághoz szorosan kapcsolódó keresésnél az adott szakmai

keresőket érdemes használni

− nem minden kereső alkalmas a magyar nyelvű találatok megjelenítésére

Gyorskeresés

A keresés legegyszerűbb formája, amikor egyetlen keresőszót írunk be. Ekkor nagy és

pontatlan találati halmazra számíthatunk. Ezt a keresési stratégiát briefsearch-nek (egysze-

rű gyorskeresésnek) nevezik. A módszert akkor érdemes használni, ha ismerkedünk a té-

mával, vagy nincs ötletünk a pontosabb keresésre, így elvégezzük előbb a gyorskeresést,

majd a találatok türkében pontosítunk.

Keresés egy általunk nem ismert nyelven

Az idegen nyelvű kulcsszavak megállapításához, majd a találatok megértéséhez hasz-

nálhatunk szótárat, illetve fordító szolgáltatást.

Példa:

A Google az angol (és sok más) nyelvű találat fordítását is elvégzi

A Morphologic cég webfordítás.hu oldala szótárként és weboldal fordító szolgáltatás-

ként használható

A szótárak közül egy fiatalos, kiejtéseket is tartalmazó a dict. sztaki.hu.

14. A Morphologic cég szótár és webfordító szolgáltatása: http://webfordítás.hu

15. A SZTAKI webszótára: http://dict.sztaki.hu.

20. kép A Google fordítási lehetősége a találati lista egy rekordjánál, ke-

resőkérdés „rent a bike”


61

21. kép A Webfordítás.hu weboldal fordítási lehetősége a találati lista egy

rekordjának URL címér átmásolva

22. kép A SZTAKI webszótára

Fogalmi építőkockák módszere

A keresőkérdést kulcsszavaira bontjuk, ezek képeznek egy-egy építőkockát. Minden

építőkockán belül összegyűjtjük a kulcsszavak szinonim kifejezéseit, és egyéb előfordulási


62

lehetőségeit. A keresőkérdés összeállítása pedig: az építőkockán belül található elemeket

OR operátorral kapcsoljuk össze, minden építőkockányi részt zárójelezzük és az egyes

építőkockákat kapcsoljuk össze a megfelelő logikai operátorral.

Példa:

Keresendő: Informatika oktatása a fejlett Egyesült Államokban gyermekek számára.

Kulcsszavak: informatika, oktatás, Egyesült Államok, gyerek, mivel a „fejlett” szó nem

releváns, a „számára” kifejezést pedig nem hasznos szó.

Szinonimák, alternatív kifejezések a kulcsszavakhoz:

- informatika kulcsszóhoz: számítástechnika, programozás, algoritmizáslás

- oktatás kulcsszóhoz: tanítás, képzés

- Egyesült Államok kulcsszóhoz: USA, US, amerikai

- gyerek kulcsszóhoz: gyerek, diák

Keresőkérdés (csonkolással):

(informatika* OR számítástechnika* OR programozás*) AND

(oktatás* OR tanítás* OR képzés*) AND

(Egyesült (W) Államok OR USA OR US OR Amerika*) AND

(gyerek* OR gyermek*)

Megjegyzés: acsonkolást a * karakterrel jelöltük, ami keresőrendzsrenként eltérő lehet.

Találatokra alapozó keresés

Ha találunk egy releváns információt, vagy weboldalt, akkor ezt az információt felhasz-

nálva határozzuk meg a következő lépést, abból meríthetünk ötletet.

A további keresés kiindulópontja lehet: a mű szerzőjének neve, az oldalon található, a

témához kapcsolódó elismert nevek és azok művei. Ezt sok esetben a hivatkozások között

találjuk meg, így az új kucsszvakkal pontosítható keresőkérdés és a találat hitelesebb lehet.

A találati eredmény javítása

A keresés alapvető problémája a túl szűk vagy ellenkezőleg az igen bő találati lista.

Nagy mennyiségű találat esetén érdemes a szűkíteni azt a keresőkérdés átfogalmazásával.

Néhány ötlet:

− a keresőkérdés módosítása új fogalmak hozzáfűzésével az ÉS (AND) operátorral

− találatokat kizárása a DE NEM (NOT) operátorral

− az operátorokat szerepének átgondolása, például „Minőségbiztosítás az oktatásban,

iskolákban” kérdés keresőkérdése lehet: „minőségbiztosítás AND (oktatás OR is-

kola)”. Zárójel nélkül magas találati számra számíthatunk, hiszen magkapjuk a mi-

nőségbiztosítás az oktatásban, valamint az összes iskola témájú művet.

− konkrét kifejezések használata (adótörvények helyett pl: SZJA, adókedvezmények

2010, egyéni vállalkozó adója keresőkérdés alaklmazása

− tárgyszavak, szakkifejezések alaklmazása a keresőkérdésben, (pl. „bolognai képzé-

si rendszer a felsőoktatásban”, vagy „integrált könyvtári rendszerek”.

A találatok csekély száma még módot sem ad a témakörben történő elmerülésre,

öteletek a a keresőkérdés bővítéséhez:

− a keresőszavak számának csökkentése

− újabb keresőszavak a keresőkérdésben VAGY operátorral


63

− a kulcsszavak szinonimáinak, más helyesírási változatainak szereepltetése a kere-

sőkérdésben VAGY operátorral

− csonkolás

− a fogalmi strúktúra magasabb szintéről egy fölérendelt kifejezés alkalmazása a ke-

resőkérdésben, pl. vadvizi kajakozás helyett extrém sportok

Ha ezután nincs releváns találat, akkor a keresőkérdést részben vagy teljes egészében

meg kell változtani, tovább konkretizálhatjuk, illetve a fölérendeléssel cserélhetjük a kere-

sőszavakat. A keresőrendszer váltás különosen a magyar nyelvű találatok esetén hozhat

sikert a vertikális keresőrendszerek kipróbálásával

5.4 ÖSSZEFOGLALÁS

Az internetalapú keresések stratégiájának részletes, példákon keresztül bemutatott je-

lentősége. A találatok szűkítési, bővítési és pontosítási lehetőségei. Összetett keresések

bemutatása, kifejezések keresése, kulcsszavak összekapcsolása. Az internetalapú keresés

jelenlegi korlátai, a jövőben várható, az emberi gondolkodáshoz jobban igazodó keresők

működésének elvi alapjai.


1. Mutassa be a keresés lépéseit!

2. Mutassa be a Boole operátorokat!


64

6. GOOGLE, MINT KERESŐ ESZKÖZ

6.1 CÉLKITŰZÉS

A Google, mint az interneten elérhető legösszetettebb keresőszolgáltatás alapvető szol-

gáltatásainak megismerése, használatának elsajátítása.

6.2 TARTALOM

Google történet és a könyvkereső

Google keresőrobot

Új index

A Google indexelő része

A kulcsszavas keresés használata

Egyéb kereső szolgáltatások

Legyőzni a Google-t

Google Map és a Web20.

Google, mint a jövő


6.3.1 A Google keresőrobot háttértörténete

Egy kissé szokatlan történet, hiszen nem a Google fő termékéről szól, de ez az alapja a

Google keresőrendszer működésének is, azaz a hivatkozások figyelembe vétele a tsalálati

lista kialaíkátásánál.

A BackRub névre keresztelt projekt a Google alapítása előtt indult. 1996-ban, a Google

alapítói, Sergey Brin és Larry Page frissen végzett informatikus hallgatók voltak, akik a

Stanford Digital Library Technologies Project által támogatott kutatómunkában vettek

részt. Céljuk az volt, hogy működő digitális könyvtárakat hozzanak létre, ötletük pedig a

következő: a jövendőben, amikor majd a könyvgyűjteményeket óriási mennyiségben fog-

ják digitalizálni, az emberek egy „feltérképező robotot” fognak használni a könyvek inde-

xelésére, és a közöttük lévő kapcsolatok elemzésére, bármely adott könyv relevanciáját és

hasznosságát olyan módon határozva meg, hogy a más könyvekben lévő idézetek számát

és minősítését követik figyelemmel.

Az elkészült feltérképező robot akkor még a BackRub nevet viselte. A hagyományos

idézet-elemzést ez teljesen megváltoztatta, amely a Google PageRank algoritmusait ihlette.

Meddig tartana a világ minden könyvét digitálisan beolvasni? Kiderült, hogy senki sem

tudta. Larry Page eldöntötte: saját maga fogja ezt kikísérletezni. Egy napon módszeresen

átlapozott egy 300 oldalas könyvet, amihez 40 perc kellett.

A világszerte folyamatban lévő számos kiemelkedő digitalizálási projekt – a Kongresz-

szusi Könyvtár American Memory projektje, a Gutenberg projekt, a Million Book projekt

és a Universal Library, hogy csak néhányat nevezzünk meg – hatása kapcsán több helyszí-

ni látogatáson tájékozódnak a projektek menetéről.

A tényfeltáró küldetés részeként Larry Page kapcsolatba lép a Michigani Egyetemmel,

itt végzett ő maga is, és ez az egyetem úttörőnek számít a könyvtár-digitalizálási erőfeszí-


65

tések terén, például a JSTOR és a Making of America révén. Amikor megtudja, hogy a

jelenlegi becslések szerint az egyetemi könyvtár hétmillió kötetének beolvastatása 1000

évbe telne, kijelenti a rektornak, Mary Sue Colemannek, hogy szerinte a Google ezt hat év

alatt teljesítené.

2003-ban a csapat egyik tagja elutazik egy jótékonysági könyvvásárra Phoenix-be, Ari-

zona államba, hogy könyveket szerezzen be a roncsolásmentes beolvasási technikák teszte-

léséhez. Számtalan kísérletet követően a csapat kidolgoz egy olyan beolvasási módszert,

amely sokkal finomabban bánik a könyvvel, mint az aktuálisan elterjedt nagy sebességű

eljárások.

A csapat szoftvermérnökei is előbbre lépnek a műszaki problémák megoldása terén.

Ezek a problémák akkor merülnek fel, amikor a 430 különböző nyelvű, eltérő formájú,

szokatlan betűtípusokkal írott, vagy más, váratlan sajátosságokkal bíró könyvekből szár-

mazó információkat akarják feldolgozni.

2004-ben a csapat látogatást tesz egy neves könyvtárban, és lenyűgözi őket az a meleg

fogadtatás, amelyben részesülnek. Az Oxfordi Egyetemen 1602-ben Sir Thomas Bodley

által alapított Bodley-féle könyvtár küldetése mindig is az volt, hogy ne csupán az egyete-

mi közösséget, hanem az egész világot szolgálja. Mialatt a polcok között sétálnak, a

könyvtárosok olyan évszázados „felvágatlan” könyveket hoznak elő, amelyek csak ritkán

látták a napvilágot. Mióta Shakespeare a drámáit megírta, először tűnik úgy, hogy az ezen

könyvekhez hozzáférő irodalomtudósok szűk köre exponenciálisan bővíthető. A látogatás

ihlető erejű, és az azt követő találkozók és megbeszélések formális partnerséghez vezetnek,

amelynek keretében három éven belül digitalizálni fogják a könyvtár szellemi köztulaj-

donban lévő, 19. századi, egymillió kötetes, egyedülálló gyűjteményét.

Eközben a világ legnagyobb kiadóival folytatott előzetes megbeszélések sora kezdi

meghozni gyümölcsét. Októberben Larry és Sergey bejelenti a „Google Print”-et, a német-

országi Frankfurti Könyvvásáron. A programhoz elsőként csatlakozó kiadók: Blackwell,

Cambridge University Press, a University of Chicago Press, Houghton Mifflin, Hyperion,

McGraw-Hill, Oxford University Press, Pearson, Penguin, Perseus, Princeton University

Press, Springer, Taylor & Francis, Thomson Delmar és a Warner Books.

Decemberben bejelentjük a „Google Print” könyvtárprojekt indulását. Ezt a Harvarddal,

a University of Michigannel, a New York Public Libraryval, Oxforddal és Stanforddal

kötött partneri megállapodások teszik lehetővé. Ezeknek az egyedülálló könyvtáraknak az

összesített gyűjteménye a becslések szerint meghaladja a 15 millió kötetet.

2005-ben a „Google Print” csapat visszatér a Frankfurti Könyvvásárra, és bejelenti,

hogy a „Google Print” most már nyolc európai országból is fogad partnereket: Ausztriából,

Belgiumból, Franciaországból, Németországból, Olaszországból, Hollandiából, Spanyolor-

szágból és Svájcból.

Annak érdekében, hogy a világ információinak megszervezésére és általánosan hozzá-

férhetővé tételére irányuló küldetésünknek megfeleljenek, 3 millió dollárt adományoznak a

Kongresszusi Könyvtárnak, hogy segítsék felépíteni a Világ Digitális Könyvtárát, amely

bárhonnan hozzáférést fog nyújtani a ritka és egyedi tételekhez. Kiterjesztjük a Könyvtár

tesztelési célú beolvasóprogramját, amely most már magában foglalja a Kongresszusi

Könyvtár jogi könyvtárában lévő történelmi értékű művek digitalizálását is. A Google

átnevezi a „Google Print”-et Google Könyvkeresőre, amely jobban tükrözi használatának

módját. A csapat megválaszolja a könyvtárprojekt vitás kérdéseit is, nyilvános vitát vállal-

va az alapelvekről.


66

2006-ban Mary Sue Coleman, a Michigani Egyetemen rektora, az Amerikai Kiadók

Szövetségénél (Association of American Publishers – AAP) tartott megindító beszédében

elmondja, hogy az egyetem miért döntött a velünk kötött partneri megállapodás mellett a

könyvtárprojektben, aláhúzva a könyvek digitalizálásának fontosságát olyan természeti

katasztrófák tükrében, mint például a Katrina hurrikán. Röviddel ezt követően felkérték

partnereiket, hogy mondják el, kívánnak-e olvasóiknak közvetlenül a böngészőprogramok-

ból teljes online hozzáférést nyújtani a könyvekhez. Ez az első a számos új lehetőségből,

amelyet a kiadókkal szorosan együttműködve fejlesztettek ki, segítve őket abban, hogy

megtapasztalják a könyvek online eladásának újszerű módjait.

Egy sor termékfejlesztést indítunk útjára, hogy a Könyvkeresőt hasznosabbá és köny-

nyebben kezelhetővé tegyük. Először is kiterjesztjük a hozzáférést a már beolvasott, szel-

lemi köztulajdonban lévő művekre úgy, hogy egy PDF-letöltés gombot adunk hozzá a

szerzői jog alá nem eső könyvekhez. Néhány hónappal később kiadjuk az új böngészőfelü-

letet, amellyel könnyebb böngészni és tájékozódni a Könyvkeresőben. Az új felülethez új

Infó erről a könyvről oldalak is társulnak, amelyek a Google algoritmusait használják fel,

hogy az oldalakat a könyvhöz tartozó gazdag tartalommal lássák el – kezdetben a kapcso-

lódó könyvek, kiválasztott oldalak és a tudományos munkákból származó hivatkozások

kerülnek ide. Ősszel négy új könyvtár társul a könyvtárprojekthez: a Kalifornia Egyetem, a

madridi Complutense Egyetem, a Wisconsin – Madison Egyetem, valamint a Virginia

Egyetem.

2007-ben az új felhasználói felületet kiindulópontként használva új módszereket kísér-

leteztek ki arra, hogy az emberek a könyvekhez jussanak:

− a könyvben lévő földrajzi helyek helyek összekapcsolása a Google Térképekkel,

később a fordítottját is tervezik: a felhasználó kiválaszt egy helyet, és megkapja a

társított könyveket.

− népszerű szakaszok követése a könyvek közötti navigálás új módja, egyetlen sza-

kasz használatát a könyvek egész gyűjteményén keresztül végigkövethetjük

− saját könyvtárral a Google keresés a saját könyvgyűjteményükön belül használtó,

mivel a felhasználók saját maguk kezdik gondozni és másokkal megosztani szemé-

lyes könyvtáraikat, ismertetőiket és osztályzataikat.

Marissa Mayer az Egyesült Államokban bemutatja az Univerzális Keresőt, és a Könyv-

kereső a Google keresés még szervesebb részévé válik. Májusban a Lausanne-i Kantoni és

Egyetemi Könyvtár, valamint a Genti Egyetemi Könyvtár csatlakozik a Könyvkereső prog-

ramhoz, nagy mennyiségű francia, német, flamand, latin és más nyelvű könyvvel szaporít-

va az állományt. Az európai könyvtárpartnerek száma ezzel hatra nő.

Júliusban hozzáadtuk a „Megtekintés egyszerű szövegként” hivatkozást az összes, szer-

ző jog hatálya alá nem eső könyvhöz. T.V. Raman elmagyarázza, hogyan nyitja meg ez a

könyvet az adaptív technológiák, például a képernyőolvasók és Braille-megjelenítők szá-

mára, lehetővé téve a látássérült felhasználóknak, hogy éppolyan könnyen olvassák ezeket

a könyveket, mint a látó felhasználók.

6.3.2 A Google indexelő része

A Google számos innovációja a keresőrendszer minden elemét érinti. Az indexelő rész

a keresőmotor újításaira alapozva leginkább a rejtett web egyre nagyobb szeletét igyekszik

feltárni. Ezek közül felhasználói szemszögből a három legjelentősebbet mutatjuk be, de


67

előtte a felhasználók minél teljesebb kiszolgálását célzó törekvések egyik legújabb elemét

említjük meg.

2009. márciusi fejlesztésként jelent meg a szemantikus keresés egy próbaváltozata, ahol

a Google megpróbálja értelmezni a keresőkifejezést, összefüggést találni a keresőmezőbe

írt szavak között, és intelligensen válogatni a találatok között. Az így kapott eredmények

egyelőre csak angol nyelvű felület találati listájának alján jelennek meg.

Törekvések a rejtett web adatainak feltárására

A Google a HTML-en kívül tíznél több állománytípust is rendszerez és tárol. A jelentő-

sebbek: PDF, Word-dokumentumok, Excel-táblázatok, Flash- (SWF) animációk, szöveg-

fájlok stb. A szöveg és SWF fájlok kivételével a tartalmat HTML-re konvertálva tárolja a

Google, így azok böngészővel is megtekinthetők.

A Google keresési technológiája a legrelevánsabb információkat kutatja fel valamennyi

internetes tartalomtípus között, így a találatokban képek, térképek, videók, hírek, könyvek

és még sok egyéb megjelenhet, azaz a találati lista egy-egy rekordjában a keresés integrált

eredményeit láthatjuk.

A cég állandó fejlesztéseinek köszönhetően 2007 májusában vezették be az univerzális

keresés funkciót (Google Universal Search), így a Google a weblapok mellett a videók,

képek, hírek, blogok, térképek és könyvek között is keres.

Google Universal Search

A Google alapvető változáson megy keresztül: egybeolvasztja vertikális és horizontális

keresőmotorjait, és ezentúl a különböző Google szolgáltatásoknak – Google Hírek, Videó,

Kép, Könyv, Térkép stb. – tartalmát egyazon találati listában jeleníti meg. Az egyelőre

csak a www.google.com oldalról elérhető Universal Search („egységes keresés”) névre

keresztelt vállalkozás tehát átformálja a találatok típusát és sorrendjét, így az eddigi kere-

sőoptimalizálási módszereket is.

A fejlesztésre több szempontból is szükség volt. Egy 2005. végén készült felmérés sze-

rint míg az internetes keresők arra jók, hogy az óriási adatbázist rangsorolják relevanciájuk

szerint, arra viszont nem, hogy a felhasználónak testreszabott listát biztosítsanak. Hozzáve-

tőlegesen a kereső személyek ötöde képes értelmezni a keresési eredményeket, és még

ennél is kevesebben találják meg a számukra fontos információt a legelső találatokban.

Ugyanakkor vitathatalan, hogy a keresések harmada eredménytelen. A Google 2001. óta

dolgozik új algoritmusokon, szoftvereken és hardvereken, melyek segítségével megoldható

lesz a különböző forrásokból származó tartalmak összehasonlítása és osztályozása.

Új index

A Google 2010 júniusában végre éles üzemre kapcsolta Caffeine kódnevű, következő

generációs indexét. Az új index a korábbiaknál relevánsabb és frissebb találatokat ígér a

webezők számára. A Caffeine két fontos újdonsággal rendelkezik a Google által korábban

használt indexelőhöz képest. Ezek közül az egyik a magasabb fokú párhuzamosság, ami-

nek köszönhetően az új motor a korábbiaknál gyorsabban képes a tartalmakat leindexelni,

és ezzel összefüggésben azok szintén előbb jelennek meg a találati listákban is. A Google

szerint a Caffeine-nel gyakorlatilag feleződik az új oldalak a keresőbe kerüléséhez szüksé-

ges idő.

http://www.webma.hu/Keresomarketing_tudasbazis/Keresok/Google.html

http://www.webma.hu/Keresomarketing_tudasbazis/Keresomarketing_szotar/Keresomarketing_szocikkek.html#algoritmus


68

A másik fontos újítás, hogy az új keresőindex nagyságrendekkel több ún. meta-

információt tárol a begyűjtött weboldalakról, mint elődje. Ezek a nem-tartalmi adatok a

Google szerint segítenek még relevánsabbá tenni a találatokat.

A Caffeine aktiválását a felhasználók nem vehettek észre semmit, csak a megszokott

módon kell keresniük a Google segítségével. A változás a találati listát érinti, a találatok

frissességének és relevanciájának jelentős javulása várható.

6.3.3 Kucsszavas keresési alapok

A felhasználói felület

A Google sikerének egyik titka a fehasználói felület puritán volta. A Google semmi

mást, csak a keresés eszközeit jeleníti meg a kezdőoldalo, itt még a hirdetések sem kaphat-

nak helyet, pedig igen értékes felület lenne.

23. kép A Google keresőrendszer felhasználói felületén a keresőmező hir-

detések nélkül

A Google magyar nyelvű felhasználó felülete a keresőrendszerhez egy igen jó, magyar

nyelvű súgóval rendelkezik:

16. Felület súgója:

http://www.google.com/support/websearch/bin/answer.py?hl=hu&answer=35891

A fejléc tartalmazza a Google-termékek sávját, a Keresési beállítások és egyéb lehető-

ségeket. A Keresési beállításokat választva megváltoztatható pl. a keresés nyelve vagy az

egy oldalon látni kívánt találatok száma.

A Keresősáv tartalmazza a keresőmezőt, a Keresés gombot, a Speciális keresés és a

Nyelvi eszközök linket. Mindkét linkról lesz még bővebben is szó.


69

Az oldal alján a Kapcsolódó keresések, a További találatok, a Találatok szűkítése és a

Visszajelzés linkek találhatók. A keresés folyamátához szorosan kapcsolódó középső két

lehetőség több helyről is elérhető. A felsoroltakat a következőkben kifejtjük.

Kapcsolódó keresések: időnként a keresett dologra vonatkozóan a legjobb keresési kife-

jezések valójában kapcsolódnak a ténylegesen megadott kifejezéshez. Ha rákattintunk

ezekre a kapcsolódó keresési kifejezésekre, alternatív keresési találatokat jeleníthetünk

meg.

További találatok: ha a keresett weboldal vagy információ nem található az első találati

oldalon, kattintsunk az oldal alján látható Következő linkre a további találatok megtekinté-

séhez.

Találatok szűkítése: ha a keresési találatok elsőre nem egészen egyeznek meg azzal,

amit keresünk, kattintsunk a keresősáv alatt található Találatok szűkítése linkre. Ezután

adjunk meg további szavakat a keresés szűkítéséhez.

Visszajelzés: ha nem elégedett a Google által végzett kereséssel vagy van egy jó ötlete

a keresés fejlesztéséhez, akkor ezeket és minden más véleményt megoszthat a Google

munkatársaival a Küldjön visszajelzést! linkre kattintva a keresősáv alatt.

Keresőkérdés

A Google keresőkérdésének egyes elemei maganyni példában szerepeltek már. Az egy-

szerű keresés menete minden hallgató számára ismert, így a Google összetett keresését

nézzük át aprólékosan. Az egyszerű keresésnél a Google fejlesztései nyomán a keresőkér-

dés kiegészül újabb keresőszavakkal, ezzel is segítve a találati relevancia növelését (24.

kép).

24. kép Automatikus kulcsszó ajánlatok a Google keresőrendszerben


70

6.3.4 Összetett kulcszsvas keresés

A pontosabb keresések érdekében a keresőrendszerek összetett keresést is kínálnak, bár

a tapasztalatok szerint ezt a kereső személyek szinte mindegyike mellőzi A Google össze-

tett keresésfunkciója a keresőmezőben az operátorok (speciáliskulcsszavak) begépelésével

vagy felhasználóbarát felületen keresztül vehető igénybe. A keresés specifikálásának utóbb

említett lehetősége a keresőmező utáni, Speciális keresés (Advance Search) link kiválasz-

tása után megjelenő felületen keresztül érhető el (25. kép).

25. kép A Google keresőrendszer összetett keresése (a Google-ban a Spe-

ciális keresés) párbeszédablakban

Haladó operátorok

A keresőkérdésben speciális kulcsszavak használatával adhatunk meg összetettebb le-

kérdezéseket. A Speciális keresés szűrő funkciója mellett számos könnyen megjegyezhető

utasítással könnyíthetünk a keresésen. Az alábbiakban erre adunk néhány megoldást. A

leírás nem teljes, a részletekről és a további operátorokról a Google súgójában olvashat.

A felhasználói felület felső harmada leginkább a Boole-operátorokkal kapcsolatos:

− Tartalmazzák a következő szavak mindegyikét (AND operátor): csak olyan oldalak

közül kereshetünk, amelyek tartalmazzák az összes kifejezést, amelyek a keresési

mezőben szerepeltettünk.

− Tartalmazzák a következő kifejezést: csak a pontos kifejezést tartalmazzó oldalak

találatai jelennek meg

− Tartalmazzák a következő szavak egyikét (OR operátor): tartalmaznak legalább

egy szót a leírtakból


71

− Nem tartalmazzák ezeket a szavakat (NOT operátor, jele: -): egyik szót sem tar-

talmazzák a leírtak közül

Oldalon belüli keresés

Ha egy oldalon belül szeretnénk keresni, akkor írjuk be a Speciális keresés Domain me-

zőjébe a doméin nevét vagy a keresőmezőbe a kulcsszó után a „site:<URL>”kifejezést.

- Keresőkérdés: tagok site:mta.hu

Ha az MTA tagjai érdekelnek bennünket, a feltétel megadásával gyorsan egy listán lát-

hatjuk a külső, levelező, rendes stb. tagok sorát. Használatakor csak a rögzített honlap-

hoz (mta.hu) kapcsolódó alsite-okon keres.

Speciálisan a site:domain.hu beírásával megtudhatjuk, hogy az adott domainből hány

oldalt indexelt be a Google, azaz hány oldalt lát belőle. Sok esetben ez a szám azért ala-

csony, mert a flashben és képben lévő szöveget a Google nem értelmezi. Ez a magyarázat

arra, hogy például az intro-val induló oldalakat a Google nem indexeli.

További speciális operátorok

Példa:

- keresőkérdésben: „link:<URL>”

Beírása esetén a megadott URL-re mutató weblapok listáját kapjuk.

- keresőkérdésben: a „filetype:<fájlkiterjesztés>”

Segítségével közölhetjük a keresett fájlok típusát (doc, jpg...): az általunk meghatáro-

zott fájl-formátumok jelennek meg

- keresőkérdésben: a „define”

A define operátorral egy kifejezésnek a leírását kapjuk meg. Ezt akkor érdemes hasz-

nálni, ha értelmezésre, fogalommagyarázatra van szükségünk. A szolgáltatás egyelőre

magyarul még nem elérhető, de idegen nyelvű kifejezések megértését segíti.

- keresőkérdésben: a „related”

Hasonló oldalak elérése. A related:domain név.hu utasítással azokat az oldalakat listáz-

za ki a Google, amelyek az adott domain.hu-hoz hasonlítanak. Például a

related:origo.hu kifejezésre olyan oldalak listája kerül elénk, amelyek az origo.hu-hoz

hasonlóan híreket közölnek.

- keresőkérdésben: a „weather”

Ha a speciális kulcszsó után egy várost írunk (pl. Eger), akkor megkapjuk az időjárási

adatokat

- keresőkérdésben: a „23*477”

Számológépként működik, kíírja az eredményt, majd a találati lista következik.

Google SERP

A Google kereső a kulcsszavak közül az első harminckettőt veszi figyelembe, legfel-

jebb az első ezer találat jeleníthető meg, ami laponként legfeljebb száz rekordot jelent. A

felhasználók beállíthatják az alapértelmezett nyelvet, bekapcsolhatják a biztonságot szolgá-

ló SafeSearch szűrőt (alapértelmezés szerint moderate), és beállíthatják a laponként megje-

leníthető találatok számát.


72

A SERP egy rekordjának felépítése a Google-ben:

− cím: a keresési találatok első sora mindig a weboldal címe

− részlet: a cím alatt a weboldal ismertetője olvasható, amely egy tényleges szöveg-

részletet is tartalmazhat az oldalról. A keresési kifejezések vastagon szedve jelen-

nek meg

− URL: zöld színben a talált weboldalak internetes címe látható

− Csillag: a találati rekordot a felhasználó megjelölheti egy csillaggal, ha a rekord

végán álló csillag inkont egy kattintással aktívvá teszi, és a Google elment számára

az adott találatot. Ha bejelentkezett a felhasználó egy Google Fiókba, akkor látni

fogja a csillaggal megjelölt találatokat, amikor azonos vagy hasonló keresést vé-

gez.

A SERP manipulálására különféle lehetőségek vannak:

− Tárolt változat és Hasonló: a rekord utolsó sorában jelenik meg, de nem része an-

nak. Ha valamilyen okból a weboldal nem töltődik be, a Tárolt változat linkre kat-

tintva a weboldalnak az a változata jelenik meg, amelyet utoljára a Google inde-

xelt. A Hasonló lehetőségre kattintva az adott találathoz kapcsolódó egyéb

webhelyek tekinthetők meg.

− behúzott találati rekordok: amikor a Google ugyanazon a webhelyen több találatot

is talál, a legrelevánsabb találat kerül legfelülre a listában, és behúzva alá kerülnek

az adott webhelyről a keresésnek megfelelő egyéb oldalak. Ha ugyanazon a

webhelyen kettőnél több találat van, a további találatokat a További találatok meg-

jelenítése innen: linkre kattintva érhető el.

− Eszközök és szűrők: a találati oldal szélén található panel dinamikus módon meg-

jeleníti a keresési módokat, és kiszűri az adott keresés esetén leghasznosabbakat.

Ezeknek a linkeknek a segítségével szűrheti és személyre szabhatja a kapott talála-

tokat.

− Szponzorált linkek: amikor a Google segítségével végzünk keresést, gyakran lá-

tunk szöveges hirdetéseket a keresési eredményoldal tetején és szélén. A keresés

szempontjából releváns hirdetések jelennek meg, és értékes információkat nyújta-

nak a keresés témaköréhez kapcsolódva. Ha nincsenek releváns hirdetések, akkor

nem jelenik meg hirdetés. A hirdetések révén befolyó összeg segítségével képes a

Google ingyenes termékeket kínálni, mint a Keresés, a Gmail, a Google Térkép, a

Google Dokumentumok és még sok egyéb. Ha a felhasználó webhelyét szeretné

hirdetni a Google keresési eredményoldalán, akkor kiválasztja a Jelenítse meg hir-

detését itt feliratú linket, és tájékozódik a Google AdWords programról.

A Google kereső a világ minden országában elérhető, az ország sajtá nyelvén megjele-

nő felhasználó felülettel, így a találati lista minipulációs parancsainak megjelenítése is

oszágfüggő. A hazai felhasználók bármelyik nyelv kezdőlapját kiválasztahtják a kereső-

mező utáni, Nyelvi eszközök menüpontban (26. ábra).


73

26. kép A Google keresőrendszer más országbeli felületének elérése

A legújabb fejelesztések teljes körűen az angol változatban érhetők el, ezért érdemes

olykor az angol oldalt használni (27. ábra).

27. kép A Google keresőrendszer angol nyelvű felülete


74

A találati lista oldala vizuálisan is több nézetben képes a találati rekordokat przentálni,

ha azt a bal oldali menüből kiválasztjuk (29. kép). Az alapeset a Normál nézet (Standard

view), választható még a Varázskerék (WonderWheel), és az angol változatban a Timeline

(időszalag) nézet. Normál nézetben újabb alnézeti lehetőségeket választhatunk: a webolda-

lon lévő képek miniatűr nézetét megjelenítő Webhelyek képekkel (Sites with images)

alnézetet, a weboldalak teljes kiscinyített képével kiegészített rekordokat tartalmazó Oldal-

előnézet (Page previews) alnézetet és a Lefordított keresés (Translated search) alnézetet. A

Normál nézeten túli két fő nézetet az alábbiakban részletezzük.

2009 májusában jelent meg a Varázskerék (WonderWheel) funkció, amely konkrét ke-

resőszavak nélkül is lehetővé teszi egymást követő választások útján a navigációt. Ugyan-

ekkor megjelent még a Search Options (keresési lehetőségek) szolgáltatás is, ami a keresé-

si találatok mellé lenyíló menüt jelent, ahol a találati listát anélkül lehet finomítani, hogy

újra kellene definiálni a keresést vagy vissza kellene lépni.

28. kép A Google WonderWheel (csodakerék) szolgáltatása az online

könyvtár kulcsszó használatánál

A Timeline (időszalag) szolgáltatással a találatokat megjelenési idejük szerint rendezi,

választható egy adott időpontokat, vagy megvizsgálható, hogy mikor milyen aktivitás jel-

lemezte az adott kulcsszóval megadott témát. Az itt leírt lista nélkülözi a teljességet, de

vélhetően néhány év múlva újabb elemekkel lehetne bővíteni.


75

29. kép A Google új Timeline (idővonal) szolgáltatása az angol változat-

ban

6.3.5 Vertikális Google keresők

Tudományos kereső

Tudományos értekezések, szakdolgozatok és tanulmányok között keres a Google

Scholar (30. kép). Az olyan innovatív kísérletek után, mint a Froogle vagy a Google

Desktop Search, újabb egyedi Google-kereső jelent meg: az ingyenesen elérhető Google

Scholar tudományos témájú, lektorált, online folyóiratok cikkeiben keres, kivéve az

Elsevier kiadó folyóiratait, ugyanis ahhoz saját kereső oldallal rendelkezik a kiadó. A

Google tudományos keresője, a Google Scholar az alábbi címen érhető el:

17. Google Scholar szolgáltatás: http://www.scholar.google.com )

A Google egyelőre úgy döntött, hogy a Scholaron lemond specialitásáról, a keresőtalá-

latnak álcázott hirdetések közléséről, azt viszont nem tartja kizártnak, hogy később a tu-

dományhoz valamilyen módon kapcsolódó reklámok megjelennek a találati oldalakon.

A keresővariáns újdonsága az „author:” előtag, amely elsősorban egyes szövegek szer-

zőinek előásását könnyíti meg, de a szerző-írás párosra is könnyebben rátalál, mint ha nem

használnánk a prefixumot. Az [author:Einstein] keresőkifejezés például kevéssel több,

mint 2000 találatot hoz, ami a Google kereső 8,5 milliós eredményéhez képest szerény, de

a Scholar precízen közli a találat fajtáját (hivatkozás; könyv), és az arra vonatkozó további

hivatkozások számát is feltünteti.

A Google Scholar a fizetős szoftverek piacára is hatással lehet: nagyszerűen alkalmaz-

ható ugyanis az akadémiai etikátlan plagizálók (csalók) lebuktatására. Könnyen megeshet,

hogy a Scholar elterjedése befolyással lesz az olyan cégek eladásaira, mint a német

Mediaphor, amely 125 dollárt kér Plagiarism-Finder nevű programjának 1.09-es verziójá-

http://www.scholar.google.com/


76

ért – a szoftver a neten fellelhető PDF és Word dokumentumokban található egyezések

alapján igyekszik elkapni a csalókat. Egyik versenytársa, az amerikai Turnitin a dobozos

megoldás helyett testre szabható plágiumvadász-szoftvert árul, testre szabott összegért, és

ügyfelei között több száz amerikai középiskola és egyetem található.

30. kép Google SCHOLAR találati oldala

Google, mint képkereső

A Google minden naponta próbál ki újabb fejlesztéseket, de nem minden fejlesztés

(update) és új kereső ötlet kerül hivatalosan nyilvánosságra. A Google képkeresője

ismertté vált új szolgáltatás és a fejlesztések is folyamatosak. A képkereső önmagában nem

nagy jelentőségű több keresőrendszer is képes volt előtte a képek szövegkörnyezet alapján

tröténő kulcsszavas keresésére. A fejlesztések viszont sokat ígérnek.

2007-ben a Google a Neven Vision nevű teamet felvásárolta, amelynek elsődleges

profilja képeken objektumokat tárgyakat felismerő alkalmazások készítése volt a mobil

alkalmazásokhoz, és egyéb platformokra. A Google képkereső alkalmazásának fejlesztése

alapján a keresési találatokat szűkíthetjük arcokat tartalmazó valamint hírekkel kapcsolatos

képtalálatokra „&imgtype=face” valamint „&imgtype=news” kapcsolókat hozzáadva a

kereséshez.

Példa:

http://images.google.com/images?q=neumann+&imgtype=face kevésbé kapunk majd

fotókat a Neumann mikrofonokról, varrógépről és egyéb eszközökről, inkább arcokat

tartalmazó képek várhatók Nemunann Jánosról és a ma élő Neumann nevű emberekől.

http://images.google.com/images?q=paris+&imgtype=face


77

Google, mint videokereső

A Google hétfőn (2005. június 28.) elindította legújabb szolgáltatását, a Google Vide-

ót , mely egyelőre béta állapotban érhető el a Google számos más szolgáltatásához hason-

lóan. Az adatbázisban jelenleg a Unicef, Greenpeace, CNET Networks és más tartalom-

szolgáltató partnerek április óta megjelent videoállományai kaptak helyett, ezek között

lehet keresni. [HWSW, News.com] A Google hétfőn elindította legújabb szolgáltatását, a

Google Videót [1], mely egyelőre béta állapotban érhető el a Google számos más szolgál-

tatásához hasonlóan. Az adatbázisban jelenleg a Unicef, Greenpeace, CNET Networks és

más tartalomszolgáltató partnerek április óta megjelent videoállományai kaptak helyett,

ezek között lehet keresni. Szövegben is keres A Google új szolgáltatásával nem csak a

címekben lehet keresni, hanem a videoállományok mellé feltöltött metaadatokban, például

az elhangzott szövegben is. A Google különböző szolgáltatásaiba regisztrált felhasználók

(például a Google Mail felhasználói) saját, általuk készített videókat is feltölthetnek egy

letölthető segédprogram segítségével a Google szervereire és adatbázisába. A letöltött ál-

lományok megtekintéséhez a Google egy saját lejátszóprogramot is biztosít, mely minden

Google Videón keresztül letölthető állomány lejátszására alkalmas. A feltöltött videókat

MPEG-2 vagy MPEG4 videotömörítéssel és MP3 hanggal fogadják és egyesével ellenőr-

zik, hogy megfelelnek-e a felhasználási feltételeknek. A jelenleg letölthető állományok

ingyenesen elérhetőek, később – feltehetően a PayPal ellenfelének bejelentését követően –

azonban arra is lesz lehetőség, hogy az általunk feltöltött anyagok letöltéséért díjat kérhes-

sünk a felhasználóktól. Képek és könyvek után videók. A videók közötti keresés igen fel-

kapott lett az internetes cégek körében, mivel a vállalatok ettől olyan hirdetők megjelenését

remélik, akik eddig kizárólag a tévében reklámoztak. A Google mellett az Amazon is láza-

san fejleszti saját videókeresőjét, a Yahoo pedig májusban indította el saját szolgáltatását.

A szolgáltatások egyik kulcseleme a digitális jogkezelő technológiák (DRM) fejlődése és

használata, mely megvédheti a file-ok tulajdonosainak szerzői és tulajdonosai jogait, bár az

egyelőre nem ismert, hogy a Google használ-e majd DRM megoldásokat videokereső

szolgáltatása fizetős tartalmainak bevezetésekor. A Google ugyanakkor már számos ellen-

féllel találkozhat ezen a területen, többek például az America Online Singingfish, a Yahoo!

és a Blinkx szolgáltatásaival, melyek már élő szerződéssel rendelkeznek például a Reuters-

szel. A Reuters által biztosított videoanyagokat az említett metaadatokkal is ellátják, me-

lyek a keresőmotorok számára nyújtanak segítséget. Ennek köszönhetően a keresőmotorok

a Reuters weboldalára irányítják a videókat kereső felhasználókat. Helyben tárolt tartalom

A Yahoo! és más szolgáltatások nem tárolják helyi szervereken az adott videoanyagokat, a

Google ezzel szemben tárolni is kívánja az akár értékesítésre is szánt videókat, mely igen

komplex kérdéseket vet fel a jogtulajdonosok szempontjából. A klipek tárolásához a film-

stúdiók hozzájárulásához van szükség, ezek beszerzését már megkezdte a vállalat.

6.3.6 Legyőzni a Google-t

2008-ban elindult a Cuil webkereső, ami nem kisebb célt tűzött maga elé, mint a

Google legyőzését (31. kép). A kaliforniai vállalkozás mögött egy házaspár áll: Tom

Costello, a Stanford egyetem professzora korábban az IBM alkalmazásában adattárolási

rendszerekkel kapcsolatos kutatásokat végzett, felesége, Anna Patterson 2004 óta dolgozott

a Google-nál többek között a weboldalak indexelését végző algoritmuson, valamint azon

az eljáráson, amely az oldalakhoz hirdetéseket rendel. A harmadik alapító, Russel Power


78

szintén a Google-tól érkezett, emellett a fejlesztőcsapat tagja Louis Monier, aki résztvett az

AltaVista és a BabelFish megalkotásában, illetve az eBay keresőjének fejlesztésében.

A Cuil kereső a mai napig elérhető az alábbi címen:

18. Cuil általános kereső: http://www.cuil.com

A Cuil megalkotói szerint a legnagyobb erősségük, hogy 120 milliárd weboldal tartal-

mában keresnek, míg a piacvezető Google adatbázisa „csupán” 40 milliárd oldalt ölel fel.

A házaspár szerint a Cuil titka, hogy egy minden eddiginél hatékonyabb adatbázist tudtak

létrehozni a weboldalak tartalmából, amelynek működése a versenytársakhoz képest ke-

vésbé hardverigényes, így gyorsabb és kevébé költséges is egyben.

Az új kereső nem csak a motorját, hanem a megjelenítési felületét tekintve is újszerű: a

találatokat nem csak egyszerűen kilistázza, mint a Google, a Yahoo vagy éppen a Micro-

soft Bing, hanem egy újsághoz hasonlóan, több hasábba rendezve mutatja meg őket. Jobb-

oldalt ehhez társul egy lenyitható menü, ahol további kapcsolódó témák találhatók össze-

gyűjtve.

31. kép A Cuil kereső felülete

A Cuil kereső nem gyűjt adatokat a felhasználókről, nem őriz meg IP-címeket és az

egyes személyekhez kötődő keresések listáját sem tárolja el. Anna Patterson szerint ennek

oka, hogy az általuk kifejlesztett algoritmus a weboldalak tartalma, nem pedig a népszerű-

ségük alapján rendezi sorrendbe a találatokat.

A Cuil kereső a Google-től mindezek ellenére számos területen elmarad. Egyes kulcs-

szavakra nem kapunk találatot, olykor a SERP irreleváns weboldalak címét tartalmazza. A

Google számos vertikális keresőjével (pl. árkereső, képkereső, hírkereső) szemben a Cuil

egy kiszámíthattalanul működő, szimpla webkereső.

6.3.7 Google, mint a jövő

Google szemantikus keresés

A Google újabb fejlesztésével bővült az internetes keresés palettája 2009-ben. Az intel-

ligens, személyre szabott kereséshez vezető út következő lépéséhez tartoznak azok az esz-

közök, amelyek 2009. májusában lettek hozzáférhetők a nyilvánosság számára.


79

Google Analytics

A Google ma már rendelkezik az adatbányászat kezdeti lépéseihez vezető eszközzel. A

Google Analytics (GA) a Google ingyenes szolgáltatása, ami a weboldal látogatóiról készít

és prezentál részletes statisztikát. A Google Analytics nagyvállalati szintű internetes elem-

zési megoldás, amely széles körű rálátást biztosít a felhasználó webhelyének forgalmára és

a marketinghatékonyságra. A hatékony, rugalmas és könnyen használható funkciók segít-

ségével teljesen új szempontból tekinthető meg, és elemezhető a forgalmi adatokat. Fő

célkitűzése, hogy a webmesternek segítsen a reklámkampányok optimalizálásában, azáltal,

hogy megmutatja, a látogatók honnan kattintottak át, mennyi időt töltenek a weboldalon,

illetve hogy földrajzilag hol találhatók.

19. Google Analytics: http://www.google.com/analytics

A Goggle felvásárolt egy szoftvert, majd a saját logóval ellátott változat 2005. novem-

berében jelent meg, először korlátozás nélkül, majd a hatalmas érdeklődés miatt a regiszt-

rációkat kénytelenek voltak felfüggeszteni alig néhány nappal később. Kapacitásbővítés

után a Google egy várólistát hozott létre, a feliratkozottak közül sorsolják a meghívókat a

szolgáltatásra. 2006. augusztus 16. óta a szolgáltatás bárki számára hozzáférhető.

A Google gondot fordított a kezdeti teljesítményproblémák kiküszöbölésére, jelenleg a

riportok általában kevesebb mint 1 óránként frissülnek (pl. milyen böngészővel, melyik

településről történt a honlapunk látogatása). Minden felhasználó legfeljebb 5 weboldalon

használhatja a szolgáltatást, az ingyenessé tétel előtti felhasználók legfeljebb 50 oldalon.

A Google Analyticsben sokfajta nézet létezik: egy egyszerű áttekintő nézet, és számos

(több mint 80 különböző) részletes riport kérhető le, amik valamelyest testre is szabhatók.

Három fő nézet létezik: az Executive, a Marketer és a Webmaster nézet.

A szolgáltatás az angol mellett még jó néhány nyelven hozzáférhető, 2007 végétől már

magyarul is használható a program.

20. Google Analytics magyar súgója: http://www.google.com/intl/hu/analytics/

6.4 ÖSSZEFOGLALÁS

A Google, mint az interneten elérhető legösszetettebb keresőszolgáltatás alapvető szol-

gáltatásait ismeréstük meg. A Google-kereső keresőrobotjának háttértöénete után a indexe-

lő és a kereső részre is kitértünk. Külön foglalkoztunk a Google összetett keresésével, a

Speciális kereséssel. A vertikális Google keresők közül szó volt a Google Scholar tudomá-

nyos keresőről, a képkeresőről és a videokeresőről. A többi vertikális keresőt a jegyzet

korlátai miatt nem tárgyaltuk. Megemlítettünk egy keresőt, amely megpróbálkozott a

Google-al versenyre kelni, eddig ezt sikertelenül tette. A Google jövőjét taglaló részben

pár szót szóltunk a szementaikus web alaklmazásáról a Google-ban, és részletesebben a

már több éve jól működő webanalatikai eszközről, a Google Analytics-szel.


1. Mutassa be a horzintális Google keresőt!

2. Mi véleménye a Google keresőkről? Milyen személyes tapasztalatai vannak?


80

7. METAKERESŐK

7.1 CÉLKITŰZÉS

A matekereső szolgáltatás alapvetű működési elvének felhasználó szempontú megisme-

rése. A magyar metekeresők működési hátterének megértése, szolgáltatásainak elsajátítása

készség szinten.

7.2 TARTALOM

Metakeresők bemutatása

Metakeresők csoportosítása

Ismert idegen nyelvű metakeresők

Az Ariadnet bemutatása

Az Ariadnet használata

Az Ariadnet keresőmotor

A PolyMeta bemutatása

A PolyMeta keresőmotor

A Miner bemutatása

A Miner keresőmotor

Egyéb magyar metakeresők


7.3.1 Metakeresők bemutatása

A világháló egészének indexelése megoldhatatlan probléma. Az eddigiek alapján ismert

tény, hogy az összes adat nem érhető el az interneten, de az eltérő indexelési mód miatt az

első találatok eltérhetnek az általános célú kulcsszavas keresésnél. Egyetlen általános célú

kulcsszavas kereső tudományos cikkek kereséséhez, könyvtári és más adatbázisok elérésé-

hez elégtelen. A felsorolt problémák egy részének megoldását célozza egy speciális webes

keresőmotor.

Egy kulcsszavas kereső nem minden esetben adja meg a keresett választ, emiatt egy-

szerre több keresési keresőmotort is munkára foghatunk anélkül, hogy azokat egyenként

kellene meglátogatnunk. A metakeresőket akkor is érdemes használni, ha szükség van az

egyes metakeresők plusz szolgáltatásaira, mint például a klaszterezés, pl. a Clusty nevű

metakereső a különböző keresőkből származó találatokat csoportokba is rendezi.

A metakereső informatikai értelemben egy olyan keresőmotor, amely továbbküldi a fel-

használó kérését több más keresőnek vagy adatbázisnak, és az azokból visszakapott talála-

tokat összegzi.

Metakeresőnek nevezzük azt a keresőszolgáltatást, amely több

más, nem minden esetben ismert kulcsszavas keresőszolgáltatás ta-

lálatait felhasználva készíti el a találati listát, saját adatbázist nem

használ. A többnyelvű keresések miatt megadjuk a metakereső né-

hány ismert nevét: meta search engines (angol), Meta

Suchmaschienen (német), métamoteur, métecheurcher (francia).

http://webni.innen.hu/Klaszterez_c3_a9s

http://webni.innen.hu/Clusty



81

Előnye, hogy a felhasználónak a kulcsszót vagy keresőkérdést csak egy alkalommal

kell megadnia, mégis egyszerre több keresőt ér el. További előnye, hogy a legnagyobb

keresők számára nem elérhető speciális adatbázisokban is képes keresni.

Sok esetben hasznos az is, hogy segítségükkel körülhatárolható a keresett források köre,

ami a megbízhatóságot növeli.

Hátránya a találati lista lassú megjelenítése. Kedvelt felhasználási területe a tudomá-

nyos élet (pl. orvostudomány), ahol az információk nagy része a hagyományos keresőprog-

ramok által elérhetetlen adatbázisokban van (például publikációs adatbázisok).

Megjegyzendő, hogy a később sorra kerülő meta tag (ejtsd: teg) kifejezéshez nincs szo-

rosan kötődése, a hasonló hangzás ellenére a meta tageket nem a metakeresők miatt jöttek

létre.

32. kép A magyar Ariadnet metakereső weboldala

7.3.2 Metakeresők csoportosítása

A metakeresők virtuális adatbázist hoznak létre. Nem katalogizálják önmaguk a webet,

hanem elküldik a felhasználó kérését több különböző forráshoz, és aztán az eredményekből


82

egy egységes találati listát készítenek valamilyen algoritmus alapján, de nem azonosak a

metakeresők sem.

A metakeresők két nagy csoportját, csak a legnépszerűbb keresőket használó horizontá-

lis, és az adott területre (pl. képek, blog) specializált vertikális keresőket tekintjük át. Be-

szélhetünk külön magyar horizontális és vertikális metakeresőkről is, bár ezek száma cse-

kély, de jelentőségük kiemelkedő.

A metakeresők két nagy csoportja (horizontális, vertikális) mellett elméletben elkülö-

níthetünk még egy olyan speciális csoportot a metakeresőkön belül, amely felajánl ugyan

több keresőszolgáltatást, de azokból mindig csak egyet választhatunk ki. Ezt e keresőrend-

szert nevezzük gyűjtőszolgáltatásnak, amivel nem foglalkozunk a leckében.

Létezik olyan, ami csak a legnépszerűbb keresőket használja, mások kevésbé ismert

forrásokra is hivatkoznak, ezek a vertikális metakeresőknek. A találatok megjelenítésében

szintén jelentős különbség van köztük. A redundancia kezelése, a forrásonként fontossági

(relevancia) sorrend teszi jobban és kevésbé használhatóbbá azokat. A metakeresők közül

még a szűkebb körben keresők is az internet jelentős területét teszik kereshetővé azáltal,

hogy több kereső adatbázisát kombinálják. A világ metakeresőit nézve a magyar keresők a

nyelvi korlátozottság miatt csak a magyar nyelvi közegre vonatkozóan horizontálisak.

A leckében magyar metakeresők hangsúlyosabban jelennek meg, de néhány angol pél-

dával is találkozhatunk. Magyar nyelvi közegben horizontális kereső az Ariadnet. A ma-

gyar készítésű vertikális metakeresők: PolyMeta, Miner, valamint a PolyMeta-ra épülő

Informed és Orvosoknak metakeresők.

7.3.3 Idegen nyelvű metakeresők

Az angol nyelvű általános metekeresőket használják a világon a legtöbbször, de termé-

szetesen magyar közegben a magyar nyelven kereső szolgáltatásoknak kiemelt a szerepe.

Az angol nyelvű metakeresők száma rendkívül nagy, ezért az itt kiválasztottak egy erősen

leszűkített, szubjektív képet adnak.

Az első webes metakeresők egyike volt 1996-tól a Mamma, 2007-től a Mamma.com

Inc. céget a Copernic Inc. nevezték át, a névváltozás előtt a webes keresők anyja szlogen-

nel hirdette magát.

21. Mamma metakereső: http://mamma.com

A Clusty egy ismert keresőmotor, képes az eredmények klaszterezésére, és ugyanannál

az egyetemnél fejlesztették, ahol egy évtizeddel ezelőtt a Lycos keresőmotort.

22. Clusty metakereső: http://clusty.com

1994-ben, a Washington Egyetemen fejlesztették ki a MetaCrawler metakeresőt. A

MetaCrawler napjainkban a leggyakrabban használt kulcsszavas keresőkre alapozza tevé-

kenységét, mint Google, Yahoo!, Live Search (korábban MSN Search), Ask.com,

About.com, MIVA, LookSmart, és egyéb népszerű keresőmotor. A MetaCrawler ezen

kívül a felhasználóknak az alábbi szolgáltatásokat nyújtja: képkeresés, hangkeresés,

videokeresés, hírkereső, cégkereső (yellow pages and white pages). A MetaCrawler az

InfoSpace Inc. bejegyzett névjegye.

23. MetaCrawler metakereső: http://www.metacrawler.com

http://mamma.com/

http://clusty.com/

http://www.metacrawler.com/


83

Az Ixquick metakereső 17 nyelven képes keresni (angol, kínai, japán, török és több más

európai nyelven) 1998-ban a New Yorkban alapította a Surfboard Holding BV holland cég,

a keresőmotort 2005-ben felújították.

24. Ixquick metakereső: http://www.ixquick.com

33. kép A 17 nyelven kereső Ixquick metakereső angol nyitóoldala

7.3.4 Az Ariadnet bemutatása

Az Ariadnet a magyar nyelvű web egyetlen horizontális metakeresőrendszere.

25. Ariadnet metakereső: http://ariadnet.hu

Az Ariadnetet a Hungary.Network Rt. fejlesztette ki 2001–2002-ben, a Miniszter Elnö-

ki Hivatal (MEH) Informatikai Kormánybiztossága által a Széchenyi terv keretében kiírt

pályázaton elnyert támogatásával. Az Ariadnet üzemeltetése és továbbfejlesztése szintén a

Hungary.Network munkatársainak feladata. Az Ariadnet metakereső szolgáltatás természe-

tesen ingyenes, továbbá a programjai is szabad-felhasználásúak, azaz ingyenes programok.

A szolgáltatás a nevét Ariadné fonaláról kapta. Az interneten, mint egy labirintusban

szükséges egy vezérfonal ahhoz, hogy oda jusson el a felhasználó, ahova a legjobban sze-

retne.

Az Ariadnet alapnyelve a magyar, és magyar nyelvű vagy magyar vonatkozású infor-

mációkat keres, beépített szótőelemző programja és szinonimaszótára a magyar nyelv sza-

bályaira épül, és olyan keresőkkel dolgozik együtt, amelyek a magyar nyelvű honlapok

közötti keresésre specializálódtak, vagy abban sikeresnek bizonyultak.

Az alkalmazott keresők egy része ugyanakkor számos idegen nyelven képes keresni, il-

letve sok olyan magyar és magyar vonatkozású honlap létezik, melyek tartalmaznak idegen

szavakat is, ezért ezek szintúgy megtalálhatók az Ariadnet segítségével.

http://www.ixquick.com/

http://www.ariadnet.hu/


84

Az Ariadnet egyedülálló, felhasználóbarát szolgáltatása az a szótőelemző eljárás, amely

a ragozott szóalakokból képzi a szótöveket, ami a keresés alapja lesz. A felhasználót segíti

továbbá egy beépített szinonima-szótár, amely felajánlja a keresett kifejezéssel jelentéstani

kapcsolatban álló szavakat.

7.3.5 Az Ariadnet használata

Az egyszerű keresésnél egy vagy több keresendő szót lehet megadni a keresőmezőben.

A szavak között alapértelmezésben „és” kapcsolatot feltételez a rendszer, de használhatók

az „and” (és), „or” (vagy), „not” (kivétel) logikai operátorok is.

A kereséshez ki kell választani azokat a keresőprogramokat, amelyeket használni sze-

retnénk, minél több keresőt választunk, annál tovább tart a keresés. Az összetett keresés

abban különbözik az egyszerű kereséstől, hogy külön keresőmezőkben lehet megadni a

keresőszavakat, amivel a következőket kérhetjük: nem feltétlenül közvetlen egymás mel-

lett, de mindegyik szerepeljen a keresett oldalon, vagy a megadottak közül legalább az

egyik szó szerepeljen, vagy szó szerint szerepeljen, vagy pontosan a megadott sorrendben,

egymás mellett szerepeljenek, vagy ne szerepeljenek a találati lista eredményei között.

Mindezek a funkciók együttesen is használhatók.

A keresés pontosítására és szűkítésére a rendszer az összetett keresés funkción túl az

alábbi lehetőségeket kínálja: a „Keresőnként legfeljebb ... találatot kérünk” opcióban meg-

adhatjuk, hogy keresőnként maximálisan hány találatot kérjen a program a keresés során.

Beállíthatjuk továbbá, hogy legfeljebb milyen idős oldalak kerüljenek a találati listára:

legfeljebb 3 hónapos, legfeljebb 6 hónapos, legfeljebb 9 hónapos, avagy bármilyen korú

oldal. A „Keresett szavak helye az oldalon” funkció segítségével megadhatjuk, a keresett

kifejezés hol szerepeljen az oldalon: bárhol, a címben, a szövegben, az URL-ben. A „Csak

a ... doménen” belüli keresés során leszűkíthetjük a keresést, pl. az oszk.hu domén alatti

oldalakra. Beállítható az is, hogy hány találatot kérünk egy oldalra.

A szinonimaszótár akkor segít a keresésben, ha a keresett kifejezésnek szinonimái is

előfordulhatnak egy oldalon. Ha például bibliotékával kapcsolatos információkat keresünk,

a szinonimaszótár hasonló jelentésű szavakat, esetünkben pl. a könyvtár szót adhatja visz-

sza. A keresés során a keresett kifejezés begépelése után meg kell nyomni a „szinonima-

szótár” gombot. Az ekkor előugró panel felkínálja a választható szinonimákat, ha rákattin-

tunk, akkor az bekerül a keresőmezőbe. Egymás után több szinonimára is választható.


85

34. kép Az Ariadnet metakeresőben a gyermek szóra felajánlott szinonimák

7.3.6 Az Ariadnet keresőmotor

Az Ariadnet az alábbi magyar keresőket használja: Altavizsla, Góliát, Hálóvilág, Heu-

réka, Hírkereső, Hudir, Index kereső, KincsKereső, Magyar Címtár, Magyar Honlap Kata-

lógus, Sharelook, Wahoo. Az Ariadnet az alábbi külföldi keresőket használja: AltaVista,

Excite, Fast Search, Google!, HotBot, Lycos, Metacrawler, Metager, Northern Light,

WebCrawler. Mindezek közül bármelyik külön kiválasztható vagy letiltható.

A keresés folyamán az Ariadnet keresőmotor sorban felkeresi a kijelölt keresőket, és

lekéri mindegyiktől ugyanazt a keresőkérdést, majd a beérkező találatokat feldolgozza és

sorba rendezi. A keresés sebessége részben függ attól, hogy hány keresőt használunk egy-

szerre, részben attól, hogy milyen gyorsan reagál a leglassabb közülük. Először célszerű

csak néhány keresővel próbálkozni.

A keresés akkor ér véget, amikor az összes kijelölt kereső válaszolt a lekérésre. Az ek-

kor kapott találati lista oldalai között a lépegetés már sokkal gyorsabb lesz, mint az első

keresés. Ennek az az oka, hogy a rendszer eltárolja a találati listát, és a további oldalak

megjelenítésekor már nem fut le újabb keresés.

Az Ariadnet metakereső egy kidolgozott algoritmus alapján a keresők által visszaadott

listák találatait relevancia szerint rendezi. Az algoritmus figyelembe veszi a több kereső

által is ajánlott ismétlődéseket, a lapok méretét, az időpontokat, továbbá a felhasználó kat-

tintásait és osztályzatait. A lapok méretvizsgálatánál a rövidebb lapon megtalált szó lesz a

relevánsabb találatot. Az időpontokat vizsgálva a frissebb oldalakon értékesebb, kevésbé

elavult információ van.

Az Ariadnet keresőmotor a relevancia megállapításához alkalmaz egy, a felhasználók

által megadott szavazati számot. A találati listán minden találat mellett szerepel egy legör-

dülő menü, 1-től 10-ig terjedő számokkal. A felhasználó szavazhat arra, hogy a megadott


86

keresőkérdésnek mennyire felel meg az adott link. Ha úgy találja, hogy egyáltalán nem

olyan dologról szól az oldal, mint amit keresett, akkor az 1-es, ha releváns, akkor a találat,

akkor 10-es osztályzatot ad. Az így összegyűjtött osztályzatokat arra használják, hogy az

újabb kereséseknél a találatokat a felhasználói minősítés szerint is súlyozzák. Tehát minél

többen használják a szavazás funkciót, annál jobb találatokat fognak kapni a következő

alkalommal a felhasználók.

Az Ariadnet keresőmotor szolgáltatásai regisztrált felhasználóként is igénybe vehetők,

ekkor belépésnél a felhasználói nevet és a jelszót meg kell adni. A regisztrált felhasználók

által megadott beállításokat megjegyzi a rendszer, így új belépéskor a legutóbb használt

beállítások maradnak meg, azaz nem kell újra beállítani a keresés feltételeit.

7.3.7 A PolyMeta bemutatása

A PolyMeta egy vertikális metakereső, a WebLib Kft. fejlesztése.

26. PolyMeta metakereső: http://polymeta.hu

Magyar és nemzetközi keresőket lekérdező, toldalék-felismerésre képes metakereső. A

keresési eredmények javasolt altémák szerint szűkíthetőek. Lehetőséget nyújt tetszőleges

számú, interneten keresztül elérhető keresőrendszer egyidejű keresésére. Az eredmények-

ből közös találati lista készül, amelyben az elemek fontossági sorrendbe rendezettek.

A PolyMeta segítségével lehetővé válik tetszőleges számú adatforrás egyidejű keresése,

jelenleg közel ezer kereshető forrás (tudományos adatbázisok, általános keresők,

metakeresők, híroldalak videó, kép, hírforrások, rejtett web források: könyvtári katalógu-

sok, publikációs oldalak...) érhetők el vele.

Egyetlen egyszerű keresőfelület jellemzi, amely áttekinthető eredménylistát ad, akár kü-

lönböző típusú találatok esetén is (szöveg, kép, videó), és az eredményhalmaza többféle-

képpen rendezhető. A találati listához megjeleníthető egy tartalomjegyzék, ami fejlett

nyelvi elemzőtechnológia felhasználásával készül.

A nyilvános Internet tartalom rohamos növekedése mellett, a közzétett információ egy

igen jelentős része az általános Internet keresőkkel nem elérhető. A rejtett web csak olyan

forrásokon keresztül válik kereshetővé és „láthatóvá", amelyek keresési kérésre válaszolva,

adatbázisokból, dinamikusan állítanak elő tartalmat. Egy intézményénél több költséges

forrásra (PubMed, Web Of Science, Biomed Central, EMBASE, Merck Manual...) előfi-

zethetnek a látogatóik, a munkatársaik, a kutatóik érdekében, a PolyMeta ezekhez a infor-

mációelérésekhez nyújt segítséget.

7.3.8 A PolyMeta keresőmotor

A Polymeta keresőmotorja széleskörűen testreszabható szolgáltatásokkal rendelkezik:

létező honlapba illeszkedő megjelenés, különböző eredmény sorrendezés, találat előnézet,

duplikáció kezelés és további számos opció, amivel egyszerű vagy épp összetett, kutatói

keresőfelület konfigurálható. A PolyMeta keresőmotorhoz kapcsolódó legújabb fejleszté-

seket egy fejlesztési blogban olvashatjuk (www.weblib.hu/feed/blog).

A kutatói felületi kialakításához a felhasználó építheti a keresőt, melynek fontosabb

elemei: a felhasználó maga kijelölheti a keresendő forrásokat, elgépelésellenőrzés (angol),

becsatolható keresőszó javaslat, elérhető a keresett források eredeti találati oldala is, fel-

használó által kiválasztható rendezés, előnézeti ablak a találati listán belül, duplikált talála-

http://hu.wikipedia.org/wiki/Metakeres%C5%91

http://polymeta.hu/

http://hu.wikipedia.org/wiki/Internet

http://www.weblib.hu/feed/blog


87

tok szűrése és megjelenítése. Statisztikák, jelentések generálhatók a keresésszámról és a

keresett kifejezésekről, források változásainak automatikus detektálása és további, automa-

tikus öndiagnosztika.

Bibliográfiai adatbázisoknál nem csak témakörök, hanem szerzők vagy publikálási dá-

tum alapján is szűkíthetjük a találatokat. A nyelvi elemzéshez a MorphoLogic cég csúcs-

technológiájú nyelvi eszközkészletét alkalmazzák.

Nyelvi elemzésen alapuló tartalomjegyzék („clustering”) segítségével, a keresőtémával

kapcsolatos kifejezésekkel szűrhető a találati lista. Ezen altémák mentén azonnali áttekin-

tést kapunk az eredmények tartalmáról. Egy kattintással elérhetők egy kapcsolódó foga-

lomról szóló találatok anélkül, hogy a teljes listát magunknak kellene végigböngészni. A

metaadatok alapján tartalomjegyzék építése lehetséges a Dublin Core ajánlás

(www.dublincore.org) szerint. Megfelelő adatot szolgáltató forrásoknál egyéb szempontok

alapján is építhető tartalomjegyzék. Például szerzők nevei, vagy publikációs dátum szerint.

Végülis mire jó a tartalomjegyzék?

− Elsősorban a virtuálisan láthatatlan eredmények megtalálására. A felhasználok

nagy része csak a keresők első, néha a második találati oldalát nézik át. A többi

gyakorlati szempontból láthatatlan a felhasználó számára. A tartalomjegyzék segít-

ségével viszont egyszerűen megjeleníthető minden olyan eredmény amiben az

adott szó szerepel, függetlenül attól, hogy sorrendben hányadik helyen volt.

− Másodsorban a keresésünk pontosítására, szűkítésére. A tartalomjegyzék megmu-

tathat olyan, a keresett témához kapcsolódó (asszociált) kifejezést, ami jobban leír-

ja mit is szerettünk volna igazából megtalálni (példa: „Neumann János” > „játék-

elmélet” > „Herman Goldstein” > „Atomic Energy Comission”). Esetleg csak

hallunk valamit és szeretnénk rákeresni, de nem ismerjük a pontos kifejezést, vagy

épp nem tudjuk hogyan írják. Mint például a betegségeknél vagy tudósok nevei

esetén.

− Harmadsorban a tartalomjegyzék ismeretnövelésre is kiváló. Sokszor a tartalom-

jegyzék olyan kifejezéseket tartalmaz, ami új összefüggéseket tár fel a keresett

szóval kapcsolatban. Például egy személy kapcsán a szervezet neve, ahol dolgozik

vagy a foglalkozása, illetve egy alkotás címe kapcsán az alkotók neve, vagy egy

helyszín neve (példa: „piramis” – „Egyiptom”, „Révész Sándor”).

http://www.dublincore.org/


88

35. kép A PolyMeta metakereső oldalán a „katalógus” kulcsszó esetén a

tartalomjegyzék megjelenése az ablak bal oldalán

Sok esetben a megtalált információk megbízhatósága kérdéses, amit a keresésben részt-

vevő források szakértők általi kiválasztásával lehet kontrollálni, ilyen például az egészség-

ügyi keresés. Nagyon sok lap tartalmaz egészségügyhöz kapcsolódó információkat, de nem

lehet tudni mi igaz a leírtakból. A Dokim tematikus kereső (dokim.hu) Magyarországon

ami a PolyMeta keresőre épülve, megbízható egészségügyi forrásokban keres csak, elke-

rülve a kétséges megbízhatóságú tartalmakat.

7.3.9 A Miner bemutatása

A Miner (miner.hu) egy magyar vertikális metakereső. A Miner kereső szolgáltatásait a

Wish Internet Consulting cég fejlesztette. A Miner metakereső a blogok bejegyzéseiben,

videomegosztó oldalak videóiban keres, illetve egyéb tartalmak keresését végzi.

A Miner metakereső blogkereső szolgáltatása a magyar nyelvű blogoszférában egye-

dülálló mennyiségű blogot ismer, és azok bejegyzéseiben keres. A Miner metakereső

videokereső szolgáltatása a hazai videomegosztó oldalak tartalmában, a Twitter-kereső

szolgáltatása a Twitter (twitter.com) magyar tartalmában keres. A Twitter egy ismeretségi

hálózat és mikroblog-szolgáltatás, mely lehetővé teszi a felhasználóknak, hogy rövid be-

jegyzéseket vagy egymásnak szánt üzeneteket írjanak SMS-ben.

A Miner metakereső fotókereső szolgáltatása a hazai fotóblogokból, illetve a blogszféra

egy adott téma köré szerveződő blogjaiban kereső aloldalakból meríti az adatokat, mint

http://dokim.hu/

http://miner.hu/

http://twitter.com/


89

például gasztroblog kereső, webkettő és webfejlesztés témájú blogok keresője, marketing

témájú blogok keresője.

A Miner ugyan az internetnek csak egy-egy szegletében keres, specializáltsága miatt je-

lentősen hatékonyabb, adott tartalomtípusban az általános kulcsszavas keresőknél mélyeb-

ben az adatmerítés, és a friss információk hamarabb jelennek meg a rendszerében.

Az oldalhoz társul egy saját szerkesztésű blog (blog.miner.hu) is, itt folyamatosan te-

szik közzé az oldallal kapcsolatos fejlesztésekről és egyéb témákról szóló beszámolókat,

híreket.

36. kép A Miner metakereső weboldala

7.3.10 A Miner keresőmotor

A Miner fejlesztése a webkettes fejlesztésekben megszokott „release early, release

often” metódus jegyében zajlik, azaz legtöbbször korai állapotukban teszik közzé az újabb

lehetőségeket, szolgáltatásokat. A Miner keresőmotor fedi le legteljesebben a magyar

nyelvű blogok bejegyzéseit, magyar nyelvterületről a Miner kínálja a legfrissebb és a leg-

több találatot.

A blogkeresője ráadásul nem csak blogokban, de az összes RSS/Atom formátumban

közzétett információban keres. A Miner blogkeresőbe az egyes blogok automatizált folya-

mat során kerülnek be, az utolsó lépés azonban adott esetben emberi szűrőn keresztül tör-

ténik meg. A hazai blogszolgáltatóknál regisztrált blogokat tartalmuktól függetlenül min-

den esetben automatikusan magyar nyelvűnek, és blognak minősíti.

A független és a külföldi blogszolgáltatóknál létrehozott blogok egyedi elbírálás után,

azok tartalmi és nyelvi, ember által történő ellenőrzése után kerülnek be a rendszerbe.

http://blog.miner.hu/


90

Blognak a vélemény jellegű bejegyzéseket időpont szerint rendezve közzétett információ-

forrást nevezik.

A Miner RSS és Atom formátumú hírforrások alapján dolgozik, így technikai okokból

csak azokat a blogokat tudja felvenni rendszerbe, amelyek ennek megfelelnek. Jellemzően

a hazai blogszolgáltatóknál nyitott blog az első bejegyzés megjelenése után szinte azonnal,

automatikusan bekerül.

A blogok egy részét a keresőrobotok derítik fel, melyek hatékonysága változó, így be-

kerülésük nem minden esetben történik meg. Független blog, vagy külföldi szolgáltatónál

létrehozott blog esetén a blog írói jelezhetik a Miner üzemeltetői számára, ehhez az olda-

lon található kérdőívet kell kitölteni.

7.3.11 Egyéb magyar metakeresők

Magyarországon érdekes módon a Miner metakereső kivételével kizárólag orvosi témá-

jú vertikális metakeresőket hoztak létre. A két orvosi metakereső az Orvosoknak

(orvosoknak.hu) és az Informed (http://www.informed.hu). Az Orvosoknak oldal ingyenes,

de regisztrációhoz kötött, elsősorban praktizáló orvosoknak szól.

Az Orvosoknak a világháló válogatott magyar és nemzetközi orvosi tartalmai között

képes keresni, a szakemberek számára optimalizálták a keresőeszközöket. A keresések a

PolyMeta metakeresőn alapulnak.

Az Informed valójában egy egészségügyi portál, melynek az egyik menüjében találjuk a

metakeresőt, ami teljes weboldalként jelenik meg. Az Informed metakereső a Dokim kere-

sőmotorját használja.

7.4 ÖSSZEFOGLALÁS

Metakeresők működési elvét a magyar és külföldi metakeresők használatának és műkö-

désének elsajátításával ültettük át a gyakorlatba. Az Ariadnet, a PolyMeta és a Miner hasz-

nálatának és a keresőmotor működését részletes bemutatása kapcsán tapasztalatot szerez-

tünk a metakeresők működséséről, alkalmazásának lehetőségeiről. Ezen kívűl beszéltünk

még néhány magyar metakereső szolgáltatásról.


1. Értelmezze a metakereső fogalmát!

2. Mutassa be a tanult metakeresőket!

http://orvosoknak.hu/

http://www.informed.hu/


91

8. SPECIÁLIS KERESŐK

8.1 CÉLKITŰZÉS

Kitekintés nyújtása a keresők nagy választékából. A könyvtárosi munka szempontjából

jelentős keresők bemutatás, azok jellemezése. A keresőrendszerek és a specializált keresé-

sek összehasonlítása, azok előnyei és hátrányai a könyvtáros szakma tükrében.

8.2 TARTALOM

A speciális keresők előnyei a könyvtáros számára

Tudományos keresők

Termékkeresők

Felhasználói vélemények keresése

Kép- és mozgókép keresők

Személykeresők, cégkeresők, településkeresők

Tudástárak

Humán alapú keresők


8.3.1 A speciális keresők előnyei a könyvtáros számára

Információkeresés elsősorban a kulcsszavas keresőkkel és katalógusokkal valósul meg,

de számos más, a két nagy keresőlehetőséget részben használó kereső létezik. A speciális

keresőket sokszor úgy definiálják, hogy segítségükkel lehet a rejtett weben (deep web)

keresni, ezek szinte mindegyike ún. vertikális kereső. A hagyományos webes keresőktől

eltérő profilú keresőrendszerek, információforrások gyűjtőhelye. A speciális keresőket

nagyon nehéz csoportosítani, mert a legtöbb csoportosítás csak nagy átfedésekkel oldható

meg.

Az ilyen adatbázisokban való keresést tárgyszójegyzékek és hagyományos osztályozási

rendszerek segítik, különösen a tudományos adatbázisok esetében. Ezek az adatbázisok

olykor jelentős értékkel bírnak, így gyakran fizetnünk kell a használatukért. Tágabb érte-

lemben ezek közé a szolgáltatások közé sorolhatjuk az online menetrendeket, telefonköny-

veket és a többi hasonló szolgáltatást is. A speciális keresőkről egy gyűjteményt találunk a

Startlap oldalán:

27. Startlap: kereso.lap.hu.

Az egyetlen honlaphoz (site) kapcsolódó keresési lehetőségek tárgyalását a tudományos

élethez kapcsolódó keresőkkel kezdjük.

8.3.2 Vertikális magyar indexelt keresők

A kulcsszó alapú szolgáltatások között is vannak adott tárgykörre specializált. Az egye-

di témakör szerint keresők, azaz vertikális keresők. Ezek a speciális keresők egy, esetleg

néhány területet fednek le, de azt igen mélyen.

http://www.kereso.lap.hu/


92

Példa:

A HEUREKA magyarországi, és magyar vonatkozású weboldalakat indexeli automati-

kusan.

28. A Heuréka kereső www.heureka.hu

Természetesen vannak egyéb dokumentumtípusra, térképekre, személyekre, telefon-

számokra stb. specializált keresők.

Példa:

Vertikális keresők lehetnek: a személykeresők, a kapcsolat alapú rendszerek keresői, a

térképek keresői, az online újságok keresési lehetőségei, szoftverkeresők, forráskód ke-

resők, a jogszabályok keresése, a vezetékes és a mobil telefonszámok keresése és annak

korlátai, a cégek, intézmények saját keresői, illetve a szervezeteket kereső oldalak

8.3.3 Tudományos keresők

A tudományos keresők alatt a tudományos publikációkkal, kutatókkal, és a tudományos

élettel kapcsolatos témaköröket tárgyaljuk. A Google tudományos keresőjéről már a

Google-ről szóló leckében volt szó.

Tudományos indexek

A tudományos indexben általában sok száz neves tudományos szaklap cikkeit lehet

böngészni. A cikkek adatai, sok esetben a teljes szövege, azok idézettsége is kereshető.

Ezek a weblapok dinamikusan jönnek létre, és szűnnek meg a megtekintés után, így a

keresőmotoorok számára eléhetetlenek. Az adatbázisok keresőrendszerei a webes keresők-

nél sokkal szabatosabb keresést tesznek lehetővé. A legkomolyabb adatbázisok nem in-

gyenes nyújtják szolgáltatásaikat. Tekintsünk meg ezek közül négyet!

A Scopus (www.scopus.com) egy adatbázis, mely a tudományos folyóirat cikkek kivo-

natait és a hivatkozásokat tartalmazza. Megközelítőleg 18 ezer bejegyzés található benne,

több mint 5 ezer nemzetközi kiadótól több tízezer nemzetközi folyóirat a természettudo-

mány, a technika, az orvostudomány és a társadalomtudomány területeiről.

A WebOf Knowledge egy, a tudomány egész területére kiterjedő bibliográfiai adatbá-

zis. Tartalma tudományos szempontok szerint rendszerezett. A cikkek bibliográfiai adatain

kívül a szerzői hivatkozások is megtalálhatók benne. Heti rendszerességgel frissítik. Adat-

bázisa három fő részből áll:

− Science Citation Index: Természet- és műszaki tudományok indexe. Több mint

160 tudományterület közel 8000 folyóiratát dolgozza fel részben vagy teljes egé-

szében. Hetenként kb. 20 000 új rekorddal bővül.

− Social Sciences Citation Index: A társadalomtudomány kb. 50 ágának 1700 folyó-

iratát dolgozza fel teljes egészében, de több ezer további tudományos folyóirat

kapcsolódó cikkeit is tartalmazza. Hetente közel 3000 új cikkel bővül.

− Arts & Humanities Citation Index: Bölcsészettudományi és művészeti index. 25

tudományág 1144 folyóiratát indexeli, de tartalmazza további 5700 folyóirat vo-

natkozó cikkeit is:

A SCIRUS (www.scirus.com ), mely az Elsevier Kiadó 2000 folyóiratának teljes szö-

vegéből, illetve a kiadó által épített szabadalmi, disszertációs és egyéb adatbázisaiból merí-

http://www.heureka.hu/

http://www.scirus.com/


93

ti a találatokat, azonban a találatok megjelenítése után a teljes szöveghez sok esetben csak

előfizetéssel férhetünk hozzá.

A Directory of Open Access Journals (www.doaj.org) egy ingyenes szolgáltatás, amely

teljes szövegű hozzáférést biztosít lektroált folyóiratokhoz. Megpróbálják az össze

studományterületet lefedni Most 5140 folyóirat szerepel a rednszerben, ebből jelenleg

2122 folyoirat kereshető a cikkek szintjéig. Az összes cikk száma 400 ezer fölött van.

Magyar Tudományos Akadémia

A Magyar Tudományos Akadémia (MTA) honlapja (www.mta.hu) a könyvtárosok

számára egy kiindulópont lehet egy tudományág, szakterület megismeréséhez, jeles képvi-

selőihez. A honlap a tudósok, az eredmények, a cikkek, hírek és pályázatok kereséshez

egyaránt segítséget nyújt, de mindezt több, egymástól megjelenésben és használatban is

eltérő módon.

A megismerést kezdjük a személykeresőknél. Az MTA tagjai és az MTA doktorai a bal

oldali menüben a megfelelő menüpont segítségével kereshetők. Az MTA tagok közötti

kereséshez a jobb oldali Keresés nevű rész is alkalmas. Itt lehetőség van továbbá a Tudós

adatbázisban keresni, ami az előző személykeresőknél sokkal bővebb, mintegy 15 ezer

kutató neve szerepel az akadémiával kapcsolatban lévő kutatók adatbázisában. A személy-

keresők használata nem egységes, de kezelésük magától értetődik. Az MTA tagok és dok-

torok keresői a megfelelő szakterület kiválasztása után a nevek teljes listáját mutatják meg.

A kutatási lehetőségek és a tudományos eredmények valójában nem jelentenek valódi

keresést, egy-egy menüpontban megtalálhatók. A tudományos eredmények a felső menü-

sor az MTA kutatóhálózata menüjében az MTA kutatóhálózatának eredményei menüjének

Az MTA kutatóhálózatának eredményei almenüjében tekinthetők meg. A pályázati lehető-

ségek, munkalehetőségek a jobb oldali Pályázatok nevű rész menüpontjainak kiválasztása

után lesz látható.

A kutatatók publikációi két adatbázisban kereshetők a bal oldali Publikációs adattárak

menüpont választása után: Köztestületi publikációs adattár, Tudományos publikáci-

ós adattár. A köztestületbe a tudományos fokozattal rendelkező kutatók, oktatók tartoznak,

melyhez MTA tagság nem szükséges. Napjainkban, 2010-ben közel tízezer hazai és ezer

határon túli tagot számlál. A Köztestületi publikációs adattár feladata a köztestületi tagok

publikációinak és azok idézettségére vonatkozó adatok tárolása. A Tudományos publikáci-

ós adattár az MTA kutatóhelyein dolgozó kutatók által közölt tudományos és ismeretter-

jesztő publikációk, valamint az ezekre érkezett idézetek bibliográfiai adatait tartja nyilván.

Videotorium

A Videotorium (videotorium.hu) a felsőoktatás és kutatás céljait szolgáló videó-meg-

osztó portál, amely helyet és különleges megjelenési formát biztosít a felsőoktatási intéz-

ményekben, kutatóintézetekben és közgyűjteményekben keletkező videó-tartalom számára.

A szolgáltatás ingyenesen hozzáférhető a NIIF tagintézmények felhasználói számára.

A Nemzeti Információs Infrastruktúra Fejlesztési Intézet (NIIF Intézet) a magyarországi

felsőoktatási és kutatói hálózat fejlesztéséért és működtetéséért felelős szervezet. Az Inté-

zet az országos NIIF Program keretében a teljes magyarországi kutatási, felsőoktatási és

közgyűjteményi közösség számára biztosít integrált országos számítógép-hálózati infra-

struktúrát, valamint erre épülő kommunikációs, információs és kooperációs szolgáltatáso-

kat, élvonalbeli alkalmazási környezetet. A tartalomban megtalálhatók a tudományos kon-

http://www.niif.hu/

http://www.niif.hu/


94

ferenciák, szemináriumok, órarendi előadások, tréningek/képzések, szakmai rendezvények,

tudományos kísérletek előadásai. A kulcsszavas keresés az előadások címére, az előadó

nevére és a videóhoz társult rövid, szöveges leírásra támaszkodik, de mód van a Kategóri-

ák menüben tudományterületenként is keresni, így egyfajta tematikus tudományos video-

keresőként használható.

8.3.4 Termékkeresők

A termékkeresők közül a Google könyvkeresőjét érdemes megemlíteni, melyet a

http://books.google.com/ találunk meg, és a könyvek szövegében is képes keresni, mivel a

Google a könyveket digitalizálta. A könyvkereső történetével a Google történetéről szóló

fejezetben már megismerkedhettünk. Most néhány friss adatot tekintsük csak meg.

2010 decemberére a Google Könyvkereső felület több mint 35 nyelven érhető el a ja-

pántól a cseh és a finn nyelvekig, természetesen magyarul is. Száznál is több ország 10

ezernél is több kiadója és szerzője vesz részt a Könyvkereső partnerprogramban. A

Könyvtárprojekt 28 partnerre terjed ki, beleértve hét nemzetközi könyvtárpartnert: Oxfordi

Egyetem (Egyesült Királyság), a madridi Complutense Egyetem (Spanyolország), a kata-

lán Nemzeti Egyetem (Spanyolország), a Lausanne-i Egyetemi Könyvtár (Svájc), Ghenti

Egyetem (Belgium) és a Keio Egyetem (Japán).

Termékkeresés

Az arukereso.hu (www.arukereso.hu) egy internetes termék- és szolgáltatás-kereső, ami

lehetővé teszi, hogy a vásárlók magyarországi hagyományos és internetes áruházak kínála-

tát egy helyen böngészhessék, keresett termékek forgalmazóit megtalálják.

Ha friss találatokat szeretne egy vállalkozás webshop szolgáltatásáról, akkor ezt kérheti,

de saját keresőrobottal is rendelkezik, ami hetente látogatja meg a webáruházakat.

A Netkereső egy címszavakra épülő internetes cég és weboldal kereső adatbázis. A

Netkeresőbe a regisztráció ingyenes, a bekerülés azonban függ a feltöltöttségi kapacitástól.

www.kalauz.hu

Információs közösségi oldal, ami sok tízezer termék és szolgáltatás elérhetőségét, sok

ezer vállalkozás, üzlet, cég és intézmény adatait, híreit, ajánlatait tartalmazza. Ezekben

regisztráció nélkül, szabadon kereshetünk. A keresés lehetőségeit: szabadszavas és kulcs-

szavas keresés.

A szabadszavas keresésnél a „Mit keresel?” feliratú mezőbe gépelhetünk egy teszőleges

szót vagy összetett kifejezést. A találati lista az összes olyan cég és intézmény nevét tar-

talmazni fogja, amelynek nálunk levő weboldalán a keresett kifejezés előfordul. A „Hol

keresed?” mező kitöltése nem kötelező, de beírhatunk településnevet, irányítószámot, vagy

például azt, hogy „Budapest XIII. kerület”. Ebben az esetben az adott település, kerület

cégei, intézményei kerülnek a találati lista élére. Így kereshető meg a legközelebbi szolgál-

tató, üzlete, intézmény.

A kulcsszavas keresés esetén a legnépszerűbb kulcsszavak (találati oldalakon a kapcso-

lódó kulcsszavak) közül elég bármelyikre rákattintani, máris az adott kifejezést tartalmazó

oldalaink listája jelenik meg. A találati lista szűkítéséhez a kulcsszó előtti „+” jelet kell

kiválasztani, így újabb kulcsszó adható hozzá a keresési feltételekhez. Etávolítás a „-” jel-

lel történik.


95

8.3.5 Felhasználói vélemények keresése

Blogkeresők

A metakeresőkről szóló leckében szóltunk a Miner keresőrendszerről, ami többek mel-

lett a blogok bejegyzéseiben is keres. A Miner metakereső a magyar nyelvű blogokat ku-

tatja.

A Miner mellett említést érdemel két katalógus szolgáltatás a Blogsearch.hu

(www.blogsearch.hu) és a Blogkatalogus.net (www.blogkatalogus.net/), a Startlap kataló-

gus blogokkal kapcsolatos oldala (http://blog.lap.hu/), illetve a magyar nyelven is elérhető

Live Journal, ami az érdeklődési körök szerinti blogokat, személyeket is képes megmutatni

(www.livejournal.com/interests.bml), de igazán angol nyelven használható.

Keresés fórumok hozzászólásaiban

A Fórumkereső (http://forumkereso.hu/) rendszer indulásakor az Index, a HWSW, a

Nők Lapja Café, a PC WORLD és a Terminal oldalak fórumainak hozzászólásaiban kere-

set, ami azóta bővült. A találati rangsorban az adott hozzászólás kiegészítő adatai is megje-

lennek, mint például dátum, szerző és kategória. A kereső Főoldalán kulcszavas kereső-

ként, míg a Célzott keresésnél katalógusként is használható.

8.3.6 Kép- és mozgókép keresők

A témakörre specializált keresők közül a kép- és mozgókép keresők kapnak kiemelt fi-

gyelmet. A keresést élesen el kell különíteni két, a keresés szempontjából egészen eltérő

feladatot jelentő részre. Az egyik esetben egy témával kapcsolatban, kulcsszó alapján ma-

gát az objektumot keressük, míg a másik esetben a képen vagy a videón keresünk feliratot,

személyt vagy tárgyat.

Objektum keresése

A Google kép- és videókeresőjével már megiserkedtünk. Nézzük meg, hogy milyen

más keresők vannak még ebben a témakörben. Kezdetben a Yahoo.com volt az elsők egyi-

ke, majd később a Bing (MSNSearch) és sok más kereső is kínálta ezen vertikális keresési

szolgáltatását. A képet a fájl neve és a weboldalon található, a kép közelében elhelyezett

kulcsszó alaján találták meg.

Manapság egyre erőteljesebb, különösen a felhasználó által feltöltött képek esetén a

cimkézés (pl. személyek), és a személyeket az adott rendszer ezután már más, a személyt

tartalmazó állólpen is felismeri, és automatikusan felajánlja cimkézésre (pl: Picasa, de ez

nem keresőrendszer).

Objektumon keresés

Ha a képen vagy a videón keresünk feliratot, személyt vagy tárgyat az utóbbi sokkal

pontosabb találatot szolgáltatna, de a keresések ezen módjának online változata jelenleg

még kezdeti stádiumban érhető el, ebből a legnépszerűbb az arcfelismerés.

Az egyik legkedveltebb web 2-es alkalmazás az internetes fotóalbum. A kiélezett harc

miatt a userek joggal várják el, hogy ingyenes szolgáltatásként, csupán regisztráció után is

szinte korlátlan mennyiségben tölthessenek fel képeket. Fizetni azért hajlandóak csak, ha

http://forumkereso.hu/



96

ennél valamivel többet: könnyű használhatóságot, vagy valamilyen extra szolgáltatást kap-

nak a pénzükért.

A Riya nevű internetes cég 2006-tól tette lehetővé, hogy a weboldalára feltöltött fotóal-

bumunkon kijelölhetjük, és beazonosíthatjuk a fotókon szereplő személyeket. A kezdeti

tanítás után a Riya felismete a fényképeken látható embereket és a hosszadalmas manuális

felcímkézés helyett, automatikusan címkézte (taggelte) a fotókat.

A Facebook fejlesztése nagy mértékben egyszerűsíti a fotók felcímkézését. Egy arcfel-

ismerésre alkalmas technológia intergrálásának köszönhetően a közösségi oldal ugyanis

automatikusan képes megállapítani a fotókon hol szereplnek emberi arcok, és automatiku-

san felkínálni azokat felcímkézésra a felhasználó számára.

Az arcfelismeréssel kapcsolatos érdekes oldalak:

29. http://www.myheritage.hu/hiressegek

30. http://www.pictriev.com/facedb/fs2.php

31. http://www.avinashtech.com/hu/internet/search-similar-faces-web-face/

A Google Goggles szövegfelismeréséről. A technológia impozánsnak tűnik, ám még

nehezen alkalmazható valós szituációkban. A lényeg röviden: a fotó alapján felismertetjük

a szöveget és azt automatikus lefordítjuk a kívánt nyelve, pl. mobiltelefonnal.

A Google Goggles fordítótulajdonsága valószínűleg még nehézkesebben működne pél-

dául köztéri szövegek esetében. A problémát a sokféle betűtípus, a fényviszonyok (pl. egy

éttermi asztalnál), a változó képminőség és persze a nyelvi fordítás nehézségei jelentik. A

törekvés arra, hogy a környezetünkben megjelenő idegen nyelvű szövegeket a helyszínen

azonnal le tudjuk fordítani egy mobilkészülékkel mindenesetre kedvező lépés a szolgálta-

tás valódi elterjedéséhez.

8.3.7 Személykeresők, cégkeresők, településkeresők

Az első bemutatandó magyar személykereső a Drótposta (http://dpl.drotposta.hu/). A ma-

gyar személyekről ez a kereső tartalmazza a legrészletesebben megtekinthető információt.

Megbízható személykereső, mivel időszakonként levelet küld a bejelentkezetteknek és

válasz hiányában törli őket a nyilvántartásból. Az ellenőrzés során pedig a nyilvántartott

adatmódosítást kérhet. Ezek alapján ez a személyi nyilvántartás megbízhatóbb, mint a

szokványos telefonkönyv, mivel a bejegyzett személyektől időszakonként megerősítést

kér.

A Magyar Internet Ki Kicsoda kizárólag személyes lapok listázására szolgál. Az önkén-

tes jelentkezési lapjának vagy törlési lapjának kitöltése nem feltétlenül jelenti a listázás

azonnali megkezdését vagy megszüntetését, erre várni kell olykor. Az adatbázisban szerep-

lő címek nem használhatók fel levelezési listákhoz, illetve nem használhatók fel kereske-

delmi célra

Személykeresést még végezhetünk a telefonkönyvekben, a közösségi portálokon (Iwiw)

és a munkahely honlapján, a tudományos élet képviselőit az MTA, az oktató- és kutató

intézmények honlapján.

A vállalat vagy szervezet listázására a Hungary.Network más helyein van lehetőség. Az

ACCOONA (www.accoona.eu ) egy európai irányultságú keresőgép, melyben ingyen el-

érhető több mint 25 millió európai vállalat üzleti adata. A keresőmotor fejlettségére utal,

http://dpl.drotposta.hu/kozep.phtml?148,14

http://old.hungary.com/kiki/

http://old.hungary.com/

http://www.accoona.eu/


97

hogy a beírt keresőkérdés szinonim kifejezéseire is rákeres. A magyar cégek adatait mutat-

ja térképpel a Cégtár (www.cegtar.hu)

Magyarország első honlapja (megyék, városok, intézmények); webhelye:

32. Magyarország első honlapja: http://www.fsz.bme.hu/hungary/homepage_h.html

Magyarországi települések, utcák kereshetők több keresővel is az alábbi webhelyeken:

33. Településkereső: www.telepuleskereso.hu

34. Utcakereső: utcakereso.hu

35. Google Maps (bármilyen földrajzi egység kereshető): maps.google.com

36. Google Maps (Magyarországra fókuszálva): www.terkep.google.hu

8.3.8 Tudástárak

A tudástárak a könyvtár tájékoztatás új, de nem minden esetben elfogadható elemei.

Hazánkban is a legelterjedtebb online szótár a Wikipédia (wikipedia.hu ), mely egy több-

nyelvű, nyílt tartalmú, az internethasználók közössége által fejlesztett, webes enciklopédia.

Nagy előnye, hogy magyar nyelven is elérhető. A tudástárakra jelentős igény van, így a

ami egyre erősödik, a hazai szakmai adaptációi is ezt támasztják alá: pl. létezik magyar

nyelvű könywiki (http://konyvtar.hu/wiki/Kezdőlap ), mely több ezer könyvtár adatait

gyűjtötte össze, illetve szakmai fogalomtár építést is folytat.

Rövidítés szótár (rövidítés.hu) a rövidítések páratlan, az inetrnetes közösség által fej-

lesztett gyűjteménye. A tudományos rövidítések mellett érdekessége, hogy segítségével az

egyedi SMS és chat nyelvi rövidítéseket így is meg lehet érteni.

A tudástárak új generációját képviseli a számításokat is végző Wolfram Alpha

(www.wolframalpha.com ). Az olyan jellegű kérdéseknél hasznos, ha például arra vagyunk

kíváncsiak „Mekkora Magyarország GDP-je?” A Google keresőt használva több oldalon

keresztül kell keresgélni, hogy megkapjuk a választ, mert elsősorban definíciókat, a kifeje-

zést tartalmazó oldalakat kapjuk meg találatként, ezzel szemben Wolfram Alpha-nál, ha

beírjuk a GDP szót, akkor adatként és szövegesen is megjeleníti az országok GDP értékét.

Nagyon jól használható az oldal, ha árfolyamdiagramokra, függvényábrázolásokra, ma-

tematikai feladatok megoldására szeretnénk használni a keresést, mert rögtön a megoldást

adja vissza találatul.

Példa:

Keresőkérdés:100 $ +25%

Eredménylista: 37. kép

http://www.wikipedia.hu/

http://konyvtar.hu/wiki/Kezdőlap

http://www.wolframalpha.com/


98

37. kép A Wolfram Alpha tudástár

8.3.9 Humán alapú keresők

A legújabb kezdeményezés a humán alapú keresők megjelenése, melynél az indexelést

vagy a keresőkérdést emberek segítségével válaszolja meg a rendszer.

Az ún. kérdés-válasz rendszerek (pl. a Webclopedia vagy az AskJeeves) nem a találati

listát szolgáltatnak, hanem a feltett kérdésre próbálnak valódi választ adni.

A kérédés-válasz keresők egyik első és magyar képviselője az IGlue, melynél a kereső-

kérdésekhez eleve elkezdték az igen releváns oldalak csatlakoztatását. Ha a keresőkérdést

válaszolják meg emberek, akkor azt társadalmi keresőknek nevezik.

A trásadalmi keresők esetén a keresőkérdést elküldik egy szakértői csoportnak, vagy

baráti körnek, és a választ a felkért személyek tudása alapján kapjuk meg.

IGlue

Elindult a magyar fejlesztésű iGlue tartalomszervező és kereső eszköz ingyenesen hoz-

záférhető verziója. A szöveges tartalomban való keresés hagyományos megoldása a kere-

sett kifejezést reprezentáló karaktersorozat felismerése. A találatok megjelenítése egyedi:

releváns képek, videók, linkek a keresőszóval kapcsolatban.

http://www.iglue.com/


99

Példa:

Gépelje be keresőszónak: Dr. Antall József

Ezzel szemben az iGlue nem szóalakokat azonosít, hanem azok jelentését. Így a kere-

sett információt akkor is megtalálhatjuk, ha nem ugyanabban a formában szerepel. Az

iGlue keresője tehát egy ilyen alapokon megvalósított adatbázis, részletes keresési opciók-

kal.

38. kép Az iGlue szolgáltatás találati oldala

A tárolt információk között kereshetünk általánosan, melynek eredményeit kategóriák-

ba rendezve kapjuk, vagy már kiindulásként szűkíthetjük a keresés hatókörét a számunkra

érdekes kategóriára. A nagy részletességgel kidolgozott adatbázisnak köszönhetően egy-

egy kategória tulajdonsága alapján is kereshetünk, kiválasztva akár, hogy az 1950-ben

született, később Kossuth-díjjal kitüntetett személyeket, illetve hozzájuk kapcsolódó in-

formációkat szeretnénk megtalálni.

A szemantikai adatbázis jelenleg több mint 20 millió adatbejegyzést tartalmaz különbö-

ző formátumban tárolva, legyen az kép, videó, személy, intézmény, weboldal, földrajzi

hely, vagy bármilyen objektum, melyek között természetesen megjelennek a szemantikai

kapcsolatok is. Bővülni fog az adatbázis mind emberi (humán) mind mesterséges intelli-

gencia alkalmazásával, a weboldalakon található entitások és a közöttük lévő szemantikai

kapcsolatok automatikus azonosításával folyamatosan, kiterjesztve a jelenlegi hiányos

lefedettséget. A keresésnél figyelembe kel venni, hogy a keresés az adatbázisban található

entitásokra terjed ki (személyek, földrajzi helyek, intézmények, képek stb.), azaz zárt

kulcsszavas kereső.


100

8.4 ÖSSZEFOGLALÁS

A témakörre specializált (vertikális) vagy egyetlen honlaphoz (site) kapcsolódó keresési

lehetőségek bemutatása. A témakörre specializált keresők közül a keresők kapnak kiemelt

figyelmet. A honlap saját keresési lehetőségeinek tárgyalása során bemutatjuk a Magyar

Tudományos Akadémia honlapjának keresőjét. Ezen kívül az alábbi témakörök keresőiről,

és azok korlátairól lesz szó: tudományos adatbázisok, tudástárak, szótárak, művészeti tá-

rak, rövidítésszótár, személykeresők, kapcsolat alapú rendszerek, kép- és mozgókép, tér-

kép, online szakmai újságok folyóiratok, jogszabályok, vezetékes és mobil telefonszámok,

szervezeteket kereső szolgáltatás.


1. Mutassa be a tudományos keresőket!

2. Hasonlítsa össze a kép- és mozgókép keresőket!


101

9. KATALÓGUSOK

9.1 CÉLKITŰZÉS

A katalógusok használatának és a működési mechanizmusának vázlatos bemutatása, a

katalógusokban elérhető kulcsszavas keresők megismerése.

9.2 TARTALOM

Az internetkatalógus fogalma

Internetkatalógus

Hudir és Heuréka

Neumann ház és a Webcat

Horizontális katalógusok

Vertikális katalógusok

Digitális könyvtárak


9.3.1 Az internetkatalógus fogalma

Az internetkatalógus a keresőszolgáltatások másik jelentős szolgáltatása a keresőrend-

szerek mellett. A katalógusoknál az üzemeltetők kiválasztanak, majd felkérnek embereket,

akik kategorizálják a weboldalakat. Az eredmény egy hierarchikus struktúrájú tematikus

lista. A hierarchia szintjei a témakörök egyre mélyebb szintjeit jelentik, melyek kiválasztá-

sával kaphatjuk meg témához kapcsolódó weboldalak linkjeit, melyek vélhetően a kérdé-

sünkre is választ adnak.

A keresés lépései alapján nevezik könyvtárakon alapuló keresésnek, vagy internet-

katalógusnak. Az internetkatalógusok (katalógus, directories, browsing services) fogalma

már szerepelt a tananyag elején, de itt érdemes átismételni.

Az internetkatalógus olyan hierarchikus osztályozási rendszert

alkalmazó webes keresőszolgáltatás, amelyek adatbázisai többnyire

intellektuálisan feldolgozott HTML-dokumentumok rekordjait tar-

talmazzák, valamint kapcsolatokat más adatbázisokhoz.

Az osztályozást és a tartalmi kivonatok megfogalmazását szerkesz-

tőségben végzik.

A katalógusokban az osztályok alapján – „lapozgatva” – végezhető

böngészés, de lehetőség van arra is, hogy a keresőszó megadásával,

célzott kereséssel érjünk el a kívánt osztályig.

Az internetkatalógusok adatbázisai lényegesen kisebbek, mint az indexelőszolgál-

tatásokéi, de a keresés az intellektuális feldolgozás, a gondos osztályozás jóvoltából sokkal

kisebb zajjal jár. A megjelenített tételek jobban tájékoztatnak a dokumentum tartalmáról,

mert a tételekhez a feldolgozók vagy a beküldők (akiknek érdekében áll, hogy a katalógus-

ba bekerüljön a weblapjuk) szövegezik meg a tartalmi kivonatot. Ahhoz képest, hogy egy


102

indexelőszolgáltatásban mi mindent kell ismerni a pontos részletes kereséshez, az

internetkatalógusokban sokkal egyszerűbb az eljárás, noha kevesebb a találat.

Léteznek olyan katalógusok is, melyek indexelőszolgáltatásként is működnek. A kere-

sőszót megadva egyrészt megjelennek az indexelőszolgáltatás segítségével nyert találatok,

másrészt a rendszer fölkínálja a releváns osztályokat is. Ezen katalógusok némelyikének

elérhetősége:

37. Altavizsla http://www.altavizsla.hu

38. Goliat http://www.goliat.hu

39. Yahoo! http://www.yahoo.com

Ritkán tezaurusz is kiegészíti az osztályozási rendszert (pl.: AltaVizsla). A tezaurusz

lexikai egységeit az AltaVizslában összekapcsolták a katalógus osztályaival is; bármelyik

deszkriptort megadva ugyancsak lejátszódik a keresés az indexelőszolgáltatás segítségével,

ugyanakkor azoknak az osztályoknak a találatai is megjeleníthetők, melyekre a deszkriptor

mint mutatószó utal.

9.3.2 Horizontális katalógusok

A könyvtári katalógussal szemben itt más az értelme. Az online könyvtári katalógusuk

(OPAC) már többször szóba kerültek, de a keresésnek ez módja egészen mást takar. Az

internetkatalógus hatékony segítséget nyújt a hálózati dokumentumok keresésében. Az

internetkatalógus (tematikus kereső) esetén az indexelést emberek, jellemzően szakembe-

rek munkája révén készül el. Általános célú katalógusok sokak által ismert és használ kata-

lógusok, melyek erősen építkeznek az emberi intelligenciára.

Előnye, hogy a találatok minősége igen magas szintű, ennek az a következménye, hogy

lerövidülhet a keresésre szánt idő. Hátrányként említhetjük a találati lista alacsony számát,

mivel az emberek az automatikus indexelőkkel szemben hamar elérik a teljsítőképességük

korlátait. Ez az oka sok szolgáltatónál az engedménykenek: a weblap gazdái kérvényezhe-

tik a megjelnésüket a kereső megfelelő oldalain és a felhasználók maguk is jelentkezhetnek

a szakterületükhöz kapcsolódó oldalak szerkesztéséhez. Mindkettőt a szolgáltató engedé-

lyezi.

A keresés során egy hierarchikus felépítésű oldalon haladunk a keresett téma felé, így

közelíthetünk a számunkra szükséges találati listához. Természetesen van lehetőség kere-

sőkérdés feltevésére is.

A tematikus keresők közül a Startlap az egyik legnagyobb magyar nyelvű vállalkozás:

40. Startlap általános témájú kereső: http:// www.startlap.hu

A Wyw egyedi megjelenítés mellett még az oldalak PageRang számát is kiírja:

41. Wyw tematikus kereső: http://directory.wyw.hu/Internet/Katalogusok_Linkek/

Vannak viszonylag fiatal katalógusok, melyeknek pár éve építkeznek:

42. Hun-web: http://www.hun-web.hu/Internet/Linkgyujtemenyek/

43. Linkpark 2005-től: http://www.linkpark.hu/

http://www.goliat.hu/

http://www.yahoo.com/

http://www.lap.hu/


103

Hudir és Heuréka

Az igényekhez alkalmazkodva a Hungary.Network két egymástól független kereső

szervert fejlesztett ki és állított üzembe: a HuDir tematikus katalógust 1995-ben, és nem

sokkal utána a Heuréka keresőt 1996-ban. A két keresőt, amelyek kizárólag a magyar vo-

natkozású oldalakon keresnek, és amelyek már a beüzemelésüket követően óriási sikereket

arattak, naponta több tízezer látogató használja Magyarországról és külföldről egyaránt.

44. HuDir horizontális katalógus: http://www.hudir.hu

9.3.3 Vertikális katalógusok

A szakterületekre specializálódott keresőszolgáltatások többsége internetkatalógus. Egy

részüket neves kutatóintézetek gondozzák, más részük kereskedelmi szolgáltatás. Mindkét

esetben jó minőségű találatokra lehet számítani. Az osztályozási rendszerek között nem-

csak az általánosan elterjedt, természetes nyelven alapuló hierarchikus osztályozási rend-

szerek fordulhatnak elő, hanem az ETO (az Egyesült Államokban pedig a Dewey-féle TO)

is.

Kultúrával foglalkozó vertikális katalógus:

45. Port.hu: http://port.hu

46. RighrHealth egészségügyi tematikus katalógus: http://www.righthealth.com/

Vannak olyan katalógusok, melyeknek még nem nagy az adatbázisa, de népszerű lehet:

47. Jó tudni: www.jotudni.hu

A vertikális katalógusok adott témakört lefedő, sokszor személyes katalógusok. A te-

matikus internet-katalógusok egyike a Válas György-féle tudományos ismeretterjesztés

kedvelőinek szánt rövid, de sajátos katalógusa.

9.3.4 Digitális könyvtárak

A könyvtári online katalógusoknak (OPAC) ugyan kevés köze van az internetes kataló-

gusokhoz, de néhány szóban azért beszéljünk róluk, viszont az azokban történő keresés

bemutatása más tanegységek feladata. Magyarország meglehetősen korán csatlakozott az

internetközösséghez. Az első könyvtári adatbázist a szegedi egyetemi könyvtárban kezdték

építeni 1975-ben. A Magyar Nemzeti Bibliográfia 1976 óta készül számítógéppel az Or-

szágos Széchényi Könyvtárban.2002 elején töltötték fel a Magyar Országos Központi Ka-

talógus (MOKKA) adatbázisát, amelybe a legnagyobb 15 könyvtár állományát integrálták.

Magyarországon a 80-as évek végén már online elérhető adatbázisok álltak a felhaszná-

lók rendelkezésére. A hálózaton a 90-es évek első felében jelentek meg az első magyar

nyelvű digitalizált művek. A Magyar Elektronikus Könyvtár 1994, a Neumann János Digi-

tális Könyvtár 1997 óta szolgálja ki a magyar nyelvű szép- és szakirodalom iránt érdeklő-

dőket. Azóta a két kizárólag virtuális könyvtár mellett sok száz könyvtár, múzeum és levél-

tár kapcsolódott be a nemzeti kulturális örökség digitalizálásába. A magyar szervereken

hozzáférhető dokumentumok tanulmányozására és elemzésére kiváló lehetőséget ad a

Neumann Könyvtár WebKat.hu adatbázisa, amely 2002. február közepén 100 000 rekordot

tartalmazott.

http://www.hudir.hu/

http://www.righthealth.com/


104

9.3.5 Magyar Elektronikus Könyvtár (MEK)

1994 tavaszán Drótos László, Kokas Károly és Moldován István, felajánlották munká-

jukat annak érdekében, hogy megalapítsák a Magyar Elektronikus Könyvtárat (MEK),

amelynek célja elsősorban a digitális formában létrejövő szellemi termékek összegyûjtése

és ingyenes szolgáltatása. Alig öt év elmúltával a nemzeti könyvtár saját szervezeti keretei

közé integrálta a MEK-et.

9.3.6 Neumann ház és a Webcat

A Neumann-ház, bővebben a Neumann János Digitális Könyvtár és Multimédia Köz-

pont funkciója szerint online könyvtár és web-index szolgáltatás, magyar CD-ROM

diszkográfia, folyóiratok elérését biztosítja (39. kép).

A kulturális kormányzat már az 1997. évben hatályba lépett kulturális törvényben –

amelynek egyik fejezete a könyvtári ellátásról szól – előírta a Neumann János Digitális

Könyvtár és Multimédia Központ létrehozását. Az intézmény küldetése, hogy az audiovi-

zuális dokumentumok nemzeti gyűjtő- és szolgáltató helye legyen. A Neumann-ház kata-

lógusa tartalmilag jelentősen kibővült a kezedetekhez képest. Az új, nagykapacitasú szer-

ver munkába állításával egyidejűleg elérhető a magyar interneten publikalt elektronikus

dokumentumok adatait tartalmazó adatbázis is.

A katalógus WebKat.hu nevet kapott, ami egyben az URL címe is. Jelenleg mintegy 12

ezer tételt tartalmaz a szépirodalomtól a speciális szakirodalomig. Természetesen az adat-

bázis folyamatosan növekszik, de ehhez nem keresőrobotokat alkalmaznak, hanem az in-

ternetet jól ismerő könyvtáros szakreferensek közreműködesével, azaz humán kereső tech-

nológiával bővül. A katalógus az alábbi URL címen, a „keresés” feliratú ikonra kattintva

érhető el.

48. Neumann-ház oldala: http://www.neumann-haz.hu

Webkat.hu, a magyar internetes források online katalógusa. A Neumann Könyvtár

WebKat.hu adatbázisa egyedülálló vállalkozás az egész közép-kelet-európai térségben.

Egyéves előkészítő munka után 1999 szeptemberében indították útjára a magyar kulturális

örökség körébe tartozó internetes dokumentumokat feldolgozó, online elérhető katalógu-

sukat. Elsősorban azokat a magyar nyelven, magyar szolgáltatónál elérhető elektronikus

dokumentumokat dolgoznak fel, amelyekre igazak a következő megállapítások: önálló

szellemi termék, független információegység, melynek célja az információ közlése, a tudás

átadása.

A Neumann-ház részletes fő tevékenységei:

− a magyar kulturális örökség digitalizálása

− a közgyűjteményekben folyó digitalizálási tevékenység koordinálása

− a magyar internetforrások katalogizálása

− a közgyűjteményi adatbázis építése

− adatgyűjtés a magyar CD-ROM és DVD lemezekről

A Neumann-ház gyűjteményei:

− Digitális Irodalmi Akadémia

− Bibliotheca Hungarica Internetiana

http://www.neumann-haz.hu/


105

− a klasszikus költők összes verse

− kortárs művei

− a magyar tudománytörténeti dokumentumok

− az Educatio néhány évfolyama

39. kép A Digitális Irodalmi Akadémia (DIA) nyitóoldala

9.4 ÖSSZEFOGLALÁS

A katalógusok megismerése mellet egyéb más, a katalógusok és a kulcsszavas keresők

egye jellemzőit viselő tartalomszolgáltató oldalát ismertük meg. A katalógusok működési

mechanizmusa mellett a katalógusokban elérhető saját belső vagy külső kulcszsvas kere-

sőket mutattuk be.


1. Értelmezze a horizontális és a vertikális internetkatalógusokat!

2. Mutassa be az internetkatalógusok szerepét!


106

10. SZEMANTIKUS WEB

10.1 CÉLKITŰZÉS

A szemantikus web lehetősegeinek megismerésén keresztül a hallgató megismeri a jövő

évtizedek keresését megváltoztató lehetőségeket, a fejlődés szükségességét, elsajátítja a

kapcsolódó alapfogalmakat.

10.2 TARTALOM

Tudásmenedzsment, tudásprezentáció

A szemantikus web

A szemantikus web üzleti oldalról

Ontológia

Az RDF ontológia fogalma

Webszolgáltatások

Tématérképek és RDF

Az RDF ontológia

Az RDFS ontológia

OWL (Web Ontology Language)


10.3.1 Tudásmenedzsment, tudásprezentáció

Az intranetek szerepe az egyértelmű és a nem egyértelmű tudás kiaknázásában egyaránt

kiemelt. Az explicit tudás esetén az intranet technológia a szervezetek tudásbázisához egy

igencsak elterjedt interfészt ad, felhasználva a nyílt szabványokat. Az információ megfele-

lő kontextusa lényeges, vagyis ahhoz, hogy információ érthetővé váljon, magának az in-

formációnak kell a világos eseményekhez, cselekményekhez vezetnie. Ha ez így történik,

abban az esetben az információ időben jut el ahhoz, akinek valóban éppen szüksége van

arra.

Az emberek közti egyszerű kapcsolatokhoz intranetalapú eszközöket használhatunk

nem explicit tudás esetén, ami segíti a párbeszéd, a tudáscsere létrejöttét, de a szükséges

információk a webes és intranetes források esetén egymástól távol, rendezetlenül, kapcso-

lataik leírása nélkül találhatók meg (pl. Ady verseinek elemzése). A webes keresőrendsze-

rek egy olyan rendezett listát adnak vissza, amely egyáltalán nem vagy csak igen kevés

információt ad a dokumentumok szemantikus kapcsolatáról, ilyen kezdeti próbálkozás

például a Google webes keresőszolgáltatás Varázskerék alszolgáltatása.

A tudásmenedzsment egy eszköz, amellyel az eltérő szinten

strukturált vagy a teljesen strukturálatlan információ szerves

egésszé szervezhető, egy új tudásszint létrehozásával. A tudásból

kizárólag az adott döntéshez vagy egy adott tevékenység előkészíté-

séhez szükséges elemeket tárják fel a tudásmérnökök.


107

A tudásmérnökök munkájának jelentős része abból áll, hogy böngészve, olvasasva

megpróbálják feltárni a dokumentumok viszonyát. A jelenlegi tudásmenedzsment rendsze-

reknek négy jelentős gyengéje van:

1. információkeresés: a jelenlegi kulcsszó alapú keresések számos esetben lényegtelen

információkat szolgáltatnak,

2. információkinyerés: ma még emberi böngészés és olvasás szükséges az információ-

forrásokból történő érdemi információ kinyerésére,

3. karbantartás: az alacsony szinten strukturált szövegforrások karbantartása nehéz és

időpazarló tevékenység,

4. dinamikus weboldalak: az automatikus dokumentumgenerálás engedélyezhet olyan

weboldalakat, melyeket a felhasználói profilhoz vagy egyéb fontos aspektushoz igazítva

dinamikusan újrakonfiguráltak.

A szervezetek, különösen a profiorientált cégek versenyképessége az ezredforduló után

egyre erősebben függ a belső tudásbázisának kihasználtsági szintjétől. A tudásmenedzs-

ment-eszközöknek szükségük van a weben szétszórt készleteknek az egymáshoz kapcsoló-

dó információk koherens egységeibe történő integrálására.

Azokat a tárgyköri ismereteket, amelyeket egy feladat megoldása során felhasználunk,

alapvetően két kategóriába lehet sorolni. Az elsőbe tartoznak a vizsgált világ összefüggése-

it leíró elsődleges vagy lényegi vagy érdemi ismeretek, míg a másikba a következtetés

hatékonyságát növelő ún. heurisztikus ismeretek.

Az érdemi ismeretek ábrázolása: a tudásreprezentáció

A tudásreprezentációs módszereknek eltérő ábrázolási technikájuk van az ismeretek ki-

fejezésére, lehet az egy logikai formula, lehet az egy „ha, akkor” szerkezetű szabály, de

lehet egy hálórészlet is stb. Ez a reprezentáció egyik oldala. Minden ábrázolási módhoz

szorosan hozzátartozik egy következtető eljárás, amely úgymond „életre kelti” a reprezen-

tált ismereteket. Általa olyan újabb tudáshoz jutunk, amely a feladatmegoldás kiinduló

ismereteiből következik.

A reprezentáció módszereitől azt is elvárjuk, hogy legyen lehetőség a következtetést ha-

tékonyan vezérlő heurisztikus ismeretek ábrázolására is. A szemantikus web működéséhez

viszont a számítógépeknek strukturált információ csomagokhoz és bizonyos szabályokhoz

kell hozzáférniük.

Az utóbbiakat automatizált gondolkodáshoz, következtetések levonásához lehet hasz-

nálni. A mesterséges intelligencia kutatói már a web kifejlesztése előtt tanulmányoztak

ilyen rendszereket. A tudásreprezentációnak van ugyan néhány nagyszerű példája, de nem

változtatta meg a jelenlegi rendszereket. A benne rejlő lehetőségek teljes kiaknázásához

egy önálló globális rendszerhez kellene hozzákapcsolni.

A hagyományos tudásreprezentáló rendszerek további hátránya a központosítottság, így

a növekvő méretet miatt irányíthatatlanná válhat. További hátrányuk, hogy gyakran

korlátozák azoknak a feltehető kérdéseknek a körét, melyekre a számítógép biztonsággal,

vagy egyáltalán válaszolni tud. A leírtakból következik, hogy a rendszerek összeillesztése

nehezen valósítható meg.

Példa:

családfák leszármazási rendszere (adatbázisa) tartalmazhat olyan szabályt, hogy „a

nagybácsi felesége a nagynéni”. Az adatok ilyen esetben némi programozói háttérsegít-


108

séggel átvihetők az egyik rendszerről egy másikra, de a teljesen más formában meglévő

szabályokkal igen gyakran nem tehetjük meg mindezt.

A szemantikus web kutatói tudják, hogy a sokoldalúság elérése érdekében a paradoxo-

nokkal, és a megválaszolatlan kérdésekkel kell szembenézniük. A nyelv ugyanakkor bizto-

san felkészíhető a lehető legkifejezőbb szabályokra, ezáltal megvalósítható a szélesebb

körű következtetés-levonás.

Ez hasonló a konvencionális web korai szakaszához, amikor az ellenzők állították: a

web sohasem lesz jól szervezett könyvtárrendszer, hiszen hiányzik a központi adatbázis és

fastruktúra, ami az adatok megtalálását lehetetlenné teszi. Részben volt csak igazuk volt,

valóban vannak nem működő linkek, de a másfél évtizede még megvalósíthatatlannak tűnő

keresőmotorok már megbírkóznak a növekvő webes adatmennyiséggel, és már rengeteg

adatot képesek megmutatni, azonban sok kérdés megválaszolatlan marad.

A szemantikus web egy olyan általános webstruktúrára és a hozzá kapcsolódó

infromációkereső-szolgáltatás kialakítása irányuló törekvés, melyben az adatok és a közöt-

tük lévő szabályok is rögzíthetők, így lehetővé válhat adott szabály kinyerése bármely

létező tudásreprezentáló rendszerből, így az a saját rendszerünkből egyszerűen exportálha-

tó lesz a web struktúrájához.

10.3.2 A szemantikus web

A szemantikus web szükségességét akkor érezzük igazán, ha a jelenlegi (2010-ben léte-

ző) web főbb jellemzőit áttekintjük. A mai web egy vagy több természetes nyelven (angol,

magyar, német stb.) fejezi ki az információt szöveg elemek, multimédiás elemek és az

oldalstruktúra segítségével. Az adatok megtalálása nehéz feladat, de azok feldolgozása

egyszerű, hiszen a tényekre részinformációkból következtetünk, ehhez a weben különféle

feladatok elegyítése szükséges. A példából érezhetjük, hogy egy speciális keresőmotorral a

választ könnyen elérhetjük, de saját magunknak fáradtságos munka összegyűjteni az összes

adatot.

Példa:

egy szállásajánlat, az útvonaltérkép a szálláshoz, illetve a környék látnivalói más-más

weboldalról származnak, ezeket különböző digitális könyvtárakban találjuk.

Egy adat (információ) jelentése minden esetben az adott környezettől függ. A felhasz-

nálók elvárásai erősen megemelkedtek, azt szeretnék, ha a számítógép megértené őket.

Ennek egyik bizonyítéka, hogy a keresőrendszereknél meglehetősen ritkán használják a

lassan egy évtizede jól működő összetett keresést. Az informatikai (kereső)rendszerek a

szemantikus technológiák üzemszerű alkalmazásával egészülnek ki a következő évtized-

ben (2010–2020 között), amelyek az emberi elme jelentésátadó és -kezelő mechanizmusai-

ra emlékeztetnek, és várhatóan áttörést fognak hozni e rendszerek lekérdezhetősége, kar-

bantarthatósága és együttműködő képessége terén.

A 2000 utáni években az informatika tudományágon belül kialakult egy új kutatási terü-

let, a kognitív informatika (Cognitive Informatics, CI). A CI az ötven éve folyó mestersé-

ges intelligencia kutatások folytatása helyett az agy szerkezetének feltérképezésére teszi a

hangsúlyt. Az agy működésének és belső információhordozó mechanizmusainak mélyebb

megismerésén keresztül törekszik az informatikai rendszerek teljesítményét növelni, haté-


109

konyságát javítani. A kereső személyek igényeinek hatékonyabb kielégítéséhez az infor-

mációk jelentésének kezelése és jelentésük szerkezete egyre fontosabbá válik. A kognitív

rendszerek számára mindezt a szemantikus (jelentésalapú) technológiák biztosítják.

A jelentésalapú (szemantikus) technológiák szoros kapcsolatban állnak a meta- és hát-

téradatok kezelésével. Fontos feladatuk az információ automatikus feldolgozásába egyre

hatékonyabban bevonni azokat az általános asszociációkat és háttérismereteket, amelyeket

a kereső személyek agyában egy adott kontextusban egy-egy információ tipikusan kivált,

valamint maguk is képesek legyenek ilyen asszociációk, ismeretek létrehozására és kezelé-

sére. A szokásos adatbázis technológiákhoz képest rugalamsabban kezelik az olvasást és az

írást: távolinak tűnő információkat automatikusan összekapcsolnak, az adat új típusa esetén

a rendszer újratervezésére nincs szükség. A jelentésalpú technológiáknak ma két kontextu-

sa létezik:

− a web szélesebb kontextusa, ami voltaképpen a szemantikus web, valamint

− a szervezetek információellátó tevékenységének szűkebb, de igen fontos kontextusa.

A leckében csak az első kontextussal foglalkozunk. Gondoljunk csak arra, milyen ha-

talmas ugrást jelentene a web fejlődésében és mindennapi életünkben, ha ezeket az adato-

kat a nagy teljesítményű, villámgyors számításokra képes gépek is megértenék, és szervez-

ni tudnák. Az egyik legnevesebb nemzetközi piackutató cég, a Gartner Group úgy véli a

szemantikus web olyan jelentős mértékű mérdföldkő lesz az internet tröténetében, mint a

World Wide Web volt közel húsz évvel ezelőtt.

A szemantikus web kialkításával tehát a szemantikus dokumentumokban képesek le-

szünk az emberi agy gondolkodásának egyes elemei alapján keresni, de még nem lesz ké-

pes önállóan az emberi beszéd vagy írás értelmezésére.

A szemantikus web (semantic web) célja a weben fellelhető in-

formációk egységbe rendezése, egy olyan hálózat létrehozása, ahol

az adatokat nemcsak az ember, hanem az automatizált eszközök is

képesek egymással megosztani és feldolgozni.

Mindezek eléréséhez elsőként a webet logikai úton is elérhetővé kell tenni, azaz a kö-

vetkeztetésekhez szabályokat szükséges használni, hogy keresőmotorok is értelmezni tud-

ják a szemantikus dokumentumokat és adatokat. Az adott logikával egyértelműen le kell

írni az objektumok bonyolult tulajdonságait, de nem annyira egyértelműen, hogy az ágen-

seknek olyan kérdéseket kelljen feltenni, amelyek ellentmondásokhoz vezetnek. Egyszerű-

síti a feladatot, hogy az általunk kifejezésre szánt információk többsége a „szék egy bútor-

fajta” logikán vonul végig, és ez a ma létező nyelveken, kis szókinccsel könnyedén

leírható.

A szemantikus web a weboldalakon található adatokhoz leíró címkéket rendel, és azo-

kat összekapcsolja, újfajta asszociációs kapcsolatokat létesítve a különböző adatok között.

Eredménye egy globálisan elérhető adatbázis kialakítása.

Példa:

1) A digitális könyvtárak hasonlóak a webes keresőkhöz. Tulajdonképpen nem mások,

mint webes katalógusok, melyekkel a következőket lehetne megvalósítani:

- internetes könyvtárak létrehozása,

- adatok kiterjesztése a multimédiás adatok területére,


110

- a szoftver ágensek (tehát olyan programok, melyek viszonylag autonóm módon, a fel-

használó vagy a számítógép helyett hajtanak végre feladatokat) lehetnének a könyvtá-

rosok: segíthetnek a megfelelő dokumentum, publikáció megtalálásában.

2) Webszolgáltatások szemantikája: a webszolgáltatások (WebServices) teljes mértékű

elterjedésekor a felhasználók is többet várnak el egy keresőrendzsertől:

- keressük az elegáns matematikai levezetését a Heisenberg-féle határozatlansági össze-

függésnek. De mit jelent az, hogy elegáns? Egy elméleti fizikus vagy matematikus

számára egyértelmű az, ami a gépek számára értelmezhetetlen, felfoghatatlan.

A szemantikus web definícióját a következőképpen is meghatározhatjuk: a szemantikus

web metaadat-alapú infrastruktúra weben történő következtetéshez. Milyen változásokra

van szükség a továbbfejlesztett világháló megvalósításához? Szükség van tehát a szolgálta-

tások karakterizálására, mégpedig nem csupán input és output paraméterek szintjén, hanem

azok szemantikai szintjén is. A szemantikus web ugyanakkor nem cseréli le a mai webet,

nem mellőzi a World Wide Web képességeit, hanem továbbfejleszti azokat. Az imént

lerírtakon túlmenően szükségünk van olyan forrásra, amely saját magáról ad információt.

Ezt hívjuk metaadatnak. Az ágensnek, pedig következtetéseket kell levonnia erről a

metaadatról, ami tulajdonképpenö számára adat. Ehhez metaadat-szókészletet kell defini-

álni. A metaadatot gép által értelmezhető formában kell leírni, amihez a következők szük-

ségesek:

1. egyértelmű forráselnevezés (URI – Universal Resource Identifier),

2. közös adatmodell a metaadat kifejezéséhez (RDF – Resource Description Frame-

work),

3. ontológiák: szókészlet, köztük lévő kapcsolatok, szókészleten végezhető művele-

tek, axiómák, következtetési szabályok,

4. módszer a metaadat weben történő eléréséhez.

Leegyszerűsítve a fenti összetevőkből áll a szemantikus web, ezeket az összetevőket

fejtjük ki részletesebben a következőkben.

Az olvasóban felmerülhet a kérdés, hogy a leírtak csupán elméleti fejtegetések vagy lé-

teznek már a valós, a szemantikus webre épülő technológiák? A szemantikus web internet-

re történő teljes implementációja még valóban csak a jövőben valósulhat meg, ugyanakkor

a szemantikus web építőelemeit kisebb tartományokra és prototípusokra már telepítik.

Az elmúlt tíz évben láthattuk, hogy az általános paradigma az egyedi, ún. cilinder rend-

szerektől a nyílt szabványokra tolódott át. A W3C, az IETF (International Engmeering

Task Force), az OASIS (Organization for the Advancement of Structured Information

Standards) szabvány felügyeleti szervezetek együttműködése széles körben támogatott úgy

a világcégek, mint az akadémiai intézetek részéről.

A szemantikus web fejlesztések első jelentős fázisa, az alapinfrastruktúra kialakulása

2005-re befejeződött. Az implementáció szakasz jelenti a második fázist, így a felhaszná-

lók számára szükséges szoftverek, az információs rendszerek fejlesztése, könyvtárak és

digitális tárak építése stb. folyik. A második fázis a szemantikus web és más technológiák

hatékony kölcsönhatásának időszaka is egyben, ami leginkább a szemantikus webszol-

gáltatások, szemantikus webbányászat és hitelesítés témaköröket ölelei fel.

Az XML támogatása maga után vonta az XML-alapú technológiák támogatását, így

olyan SOAP-alapú webszolgáltatásokat, melyek egymással együttműködni tudó interfé-


111

szeket adnak az alkalmazásokhoz az interneten keresztül. Az XML (Extensible Markup

Language) egy metanyelv más XML-alapú jelölőnyelvek létrehozására. Az RDF az infor-

mációk összekapcsolásának mikéntjét nyújtja, melyről később részletesen szólunk. Miköz-

ben az XML-t, mint általános szintaktikát alkalmazzuk, addig az RDF a szemantikus web

minden egyéb ontológiaalapú nyelvének alapját képezi.

A tématérképek, így az XML Tématérképek (XML Topic Maps) egy másfajta megol-

dást szolgáltatnak az információk taxonómiáinak adatosztályozásba való átvitelére. A

W3C irányvonala szerint a tématérképek és az RDF együttműködése mindenképpen elő-

nyére válna a szemantikus webnek.

A webszolgáltatások egy olyan megoldást adnak a szoftverekhez, mely segítségével

azok egymással kommunikálni képesek. Az ontológiai nyelvek (pl. az OWL, mely W3C

ajánlás) készen állnak arra, hogy kiemelt figyelmet kapjanak, több cég alkalmazza már

ezeket arra, hogy egyesített tudásbázisaihoz szemantikákat adjon.

A webszolgáltatások esetében a következő lépés a szemantikát engedélyező webszol-

gáltatások elterjedése, ahol a különféle cégek webszolgáltatásaitól jövő információval lehet

egyesíteni, összehangolni a szolgáltatásokat. Az akadémiai kutatási programok (pl. a Stan-

ford Egyetem TAP programja: http://tap.stanford.edu/) hidat képeznek az eltérő web-

szolgáltatás-alapú adatforrások és az összefüggő (de több forrásból táplálkozó) szemanti-

kus web létrehozása között.

10.3.3 A szemantikus web üzleti oldalról

Foglalkozunk most a szemantikus web üzleti oldalával. A cégek döntéshozói tudják,

hogy a legjobb információ birtoklása üzleti előnyt jelent, ugyanakkor ez az előny kizárólag

úgy érhető el, ha ismeri az információ helyét, és annak hatékony felhasználását. Nyilván-

valóan ennek elérése minden vezető célja. A cégek vezetőinek azzal mindenképpen tisztá-

ban kell lenniük, hogy milyen üzleti haszonnal jár a szemantikus web alkalmazása, vagy

fordítva: milyen hátránnyal járhat, ha a cég nem foglalkozik ezzel a kérdéskörrel.

Az online tradicionális tudásmenedzsment-technikáknak manapság meg kell küzdeniük

az információ mennyiségének jelentős bővülésével, a kulcsszavas keresés elégtelenségé-

vel, az információ hitelességének igazolásával, valamint a természetes nyelvfeldolgozó

rendszerek hiányával.

Az informáciözönben útjelző táblaként szerepel majd a szemantikus web által kiépíten-

dő struktúra. Már elégtelen az információk állományokban és adatbázisokban tárolása, oly

módon szükséges címkézni az információinkat, hogy a programok a jelölés alapján képe-

sek legyenek azt feldolgozni, és a felhasználó tudomására hozni, hogy mely információ

megbízható. Az új információban meg kell bíznunk, de össze kell hasonlítani azt a többi

információnkkal. Ehhez egy olyan van szükségünk, amely az új technológia előnyeit képes

kiaknázni, ugyanis a cégek a birtokukban lévő információ jelentős részét sohasem használ-

ják fel.

Az információ megosztása és a kommunikáció minden cégnél fontos, ám ahogy a leg-

több cég egyre nő és egyre több információt gyűjt, ez a feladat egyre nehezebbé válik, és

inkább küzdelemmé alakul át. Amikor a cégek, szervezetek nagyobbakká válnak, a kom-

munikációs rések létrejötte kikerülhetetlen lesz. Egy kis fáradsággal egy egyesített tudás-

bázis minimálisan a projektek leírásainak nyilvántartását tartalmazza, valamint azt, hogy

az egyes cégek miképpen épülnek fel. Képzeljük el, milyen jó lenne, ha az adott cég al-


112

kalmazottai el tudnák érni a lényeges információkat. A szemantikus web által engedélye-

zett webszolgáltatások lehetővé teszik, hogy olyan nyilvántartásokat tudjunk létrehozni,

amelyben az alkalmazottak képes elérni a munkájukhoz szükséges friss és fontos informá-

ciókat. Nézzünk minderre egy példát! Ha egy építőipari cég üzletkötőjének egy bekötőúttal

kapcsolatos tárgyaláson például azt mondja az ügyfele, hogy üvegbetont szeretnének a cég

új épületének építéséhez használni, akkor az üzletkötő a megfelelő adatok elérésével azon-

nal válaszolhat, hogy az építőipari cége mikor, milyen formában foglalkozott a kérdéssel.

Miután ezt közli, akkor már biztosan felajánlhat egy üzleti tárgyalást az üvegbetonnal kap-

csolatban egy másik időpontban.

Az amerikai, az ázsiai és az európai cégek beruházása jelentős a szemantikus web tech-

nológiáiba. Az Adobe például az RDF köré szervezi szoftverei metaadatait, és web-

ontológiai szintű képességeket használ a dokumentumok menedzseléséhez. A változtatás

értelme: „A PDF állományban lévő információ még akkor is értelmezhető más szoftverek

segítségével, ha az adott szoftver nem tudja azt, hogy egyáltalán mi is egy PDF dokumen-

tum, vagy miként lehet azt megjeleníteni."

10.3.4 Ontológia

A meteadatokat összehasonlító vagy kombináló programnak tudnia kell megállapítani,

hogy két, külön adatbázisban vagy webhelyen tárolt alkalmazott fogalom ugyanazt a dol-

got jelenti vagy csak hasonló alakú szavak. Ez azt jelenti, hogy a programot fel kell készí-

teni az adatbázisok belső jelentéseinek felkutatására.

A probléma megoldását a szemantikus web harmadik alapeleme adja, melyet informá-

ciók gyűjteményének vagy ismertebb néven ontológiáknak hívunk. Gruber 1993-as definí-

ciója alapján: Az ontológia egy formális, explicit leírása egy elosztott koncepciónak. Az

„explicit” azt jelenti, hogy a fogalmak típusai használat alatt állnak, és felhasználásuk

megszorításai egyértelműen, explicit módon definiáltak. Az „elosztott” szó azt fejezi ki,

hogy egy ontológia olyan belső tudást foglal magába, melyet nem szűkítenek le adott

egyének, viszont egy adott csoport elfogad.

Pontosítva a fenti definíciót manapság az ontológiát a következőképpen határozhatjuk

meg:

Az ontológia egy olyan dokumentumot vagy állományt jelent,

mely formálisan definiálja az adott kifejezések közti kapcsolatokat.

A webbel összefüggő legtipikusabb ontológiatípusnak egy taxonómiája vagy osztályo-

zása, valamint egy következtető szabálycsoportja van.

A taxonómia objektumok osztályait és a köztük lévő relációkat

határozza meg.

Példa:

Egy címet például definiálhatunk földrajzi helytípusként, így a városkódokat meghatá-

rozhatjuk úgy, hogy csak a földrajzi helyeket alkalmazzuk. Az osztályok, az alosztályok

és az egyedek közti relációk a web használatának alapvető eszközei.


113

Képesek vagyunk óriási mennyiségű reláció kifejezésére azáltal, hogy osztályokhoz

rendelünk tulajdonságokat, és lehetővé tesszük az alosztályoknak, hogy örököljék ezeket a

tulajdonságokat.

Példa:

Amennyiben a városkódok egyfajta várostípusok, s ha a városoknak van weboldaluk,

akkor beszélhetünk weboldallal összefüggő városkódról (még abban az esetben is, ha

nincsenek adatbázislinkek közvetlenül a városkód és a weboldal között.)

Az ontológiák következtető szabályai további képességet nyújtanak.

Példa:

Egy adott ontológia kifejezhet például egy ilyen szabályt: „Ha a városkód összefüggés-

ben van a megye kódjával, és a cím használ városkódot, akkor a cím tartalmazza a me-

gye kódját.”

Konrétan egy program ezután könnyedén levezetheti azt, hogy az egri Eszterházy Ká-

roly Főiskolának Heves megyében kell lennie, ami pedig Magyarországon van, és ezál-

tal a címet magyar szabvány szerint kell formázni.

A program nem értelmezi ténylegesen, emberi módon ezeket az információkat, de hatá-

sosan tudja úgy manipulálni a kifejezéseket, hogy azok az emberi felhasználó számára

használhatóak és értelmezhetőek legyenek, azaz megfeleljenek a humán elvárásoknak.

Az ontológiák többféle módon terjesztik ki a web működési hatáskörét. A legkézenfek-

vőbb ezek közül a keresőrendszerek pontosságának fejlesztése, így keresőrendszer nem az

összes, a kulcsszavakat tartalmazó, de a keresett témakörhöz nem vagy lazán tartozó web-

oldalakat, hanem csak a pontos fogalomra hivatkozazott oldalakat szerepeltei a SERP-ben.

Az ontológiaalapú eszközkörnyezet három fő területet fog át:

1. Ontológiák keresése és azok (nagy mennyiségű) adatokkal történő összekapcsolása.

A skálázhatóság céljából ezt a folyamatot automatizálni kell az információkinyerő és a

természetes nyelvfeldolgozó technológiák alapján. A minőség érdekében ehhez a folya-

mathoz szükség van az emberre, aki az ontológiaszerkesztökön keresztül felépíti és kezeli

az ontológiákat.

2. Ontológiák és példányaik tárolása és karbantartása. Az RDF Schema a web informá-

cióforrásain keresztül adatbázis technológiát és egyszerű érvelési formát nyújt.

3. Szemantikailag támogatott információforrások lekérdezése és böngészése. Leírha-

tunk szemantikailag kiegészített kereső motorokat, böngészhetünk és tudásmegosztó támo-

gatást nyújthatunk, mely az adatszemantikát teheti gépi feldolgozásra alkalmassá.

Ágensek

A szemantikus web igazi előnye akkor mutatkozik meg, amikor olyan programokat ké-

szítünk, melyek különféle forrásokból gyűjtik egybe a webtartalmat, feldolgozzák az in-

formációt és kicserélik az eredményeket más programokkal.

Az ágensek jól meghatározható határokkal és interfészekkel rendelkező, egyértelműen

azonosítható problémamegoldó egységek. A szoftver ágensek hatékonysága exponenciáli-

san megnő, amint egyre több gép által olvasható webtartalom és automatikus szolgáltatás

(benne egyre több ágens) válik hozzáférhetővé. A komplex elosztott számítástechnikai


114

rendszereket egyre inkább ágensek hálózataként modellezik, és a tervezésükben egyre több

ágenstechnológiai módszert alkalmaznak.

10.3.5 Az RDF ontológia fogalma

A szemantikus web egyik alaptechnológiája az RDF (Resource

Description Framework), ez egy olyan adatmodell, aminek a sze-

mantikája gráfokkal írható le.

Egy RDF-alapú dokumentum olyan állításokat készíthet, melyek bizonyos dolgokról

(emberek, weboldalak stb.) tulajdonságokkal (pl. „lánya valakinek”, „szerzője valaminek”)

és adott értékekkel (egy adott személy, egy adott weboldal) rendelkeznek. Ezzel a szerke-

zettel egy olyan természetes módszer alakítható ki, mely a gépek által feldolgozott adatok

döntő hányadát képes leírni.

RDF által történő jelentéskifejezés ún. hármasok csoportjaiba kódol. Minden egyes

hármas egy elemi mondat alanyát, állítmányát és tárgyát szimbolizálhatja. Az alanyt és a

tárgyat az URI úgy azonosítja, mintha linkek lennének egy weboldalon. (Az URI-k között

az URL-ek (Uniform Resource Locator) a legáltalánosabban használt URI-típusok.) Az

állítmányokat szintén URI-ken keresztül lehet identifikálni, s ezzel lehetővé válik, hogy új

kifejezést, új állítmányt definiáljunk. Megjegyzés: az RDF-et kifejezhetjük XML tagek

alkalmazásával, ez az RDF/XML forma, de N3, N-Triples, Turtle (Terse RDF Triple

Language) stb. formában is, vagyis az XML nem kötelező, hanem egyik lehetséges kifeje-

zőeszköze az RDF-nek (a W3C eddig csak XML formátumot definiált az RDF-hez).

RDF hármasai az egymással összefüggő dolgokról szerzett információk hálózatát for-

málják meg. Mivel az RDF az URI-ket használja fel ezeknek az információknak dokumen-

tumban való azonosítására, ezért az URI-kkel lehetővé válik, hogy a kifejezés nem csupán

egy dokumentum szavait jelentse, hanem olyan egyedi információkhoz is köthető, melye-

ket a weben bárhol megtalálhatunk.

Képzeljük el, hogy személyek információihoz (pl. címeihez) tudunk hozzáférni külön-

féle adatbázisokon keresztül. Amennyiben meg akarunk keresni egy élő embert adott irá-

nyítószám alapján, meg kell tudnunk, hogy az adatbázisokban mely mezők fejezik ki a

neveket és melyek az irányítószámokat. Az RDF ki tudja ezt jelölni nekünk, felhasználva

mindezekhez az URI-ket: például: [4. mező az „DB” adatbázisban] [mezőtípus] [irányító-

szám].

10.3.6 Webszolgáltatások

A webszolgáltatások olyan internetes szoftverszolgáltatások, amelyeket URI-k segítsé-

gével azonosítunk, és melyek webprotokollok segítségével leírhatók, felkutathatók és elér-

hetők. A webszolgáltatások alaptulajdonsága, hogy XML-t alkalmaznak és XML-t nyújta-

nak. A HTML-hez hasonlóan az XML is tageket használ az adat kijelöléséhez, de az adat

megjelenítésével (pl. karakter- és bekezdéskformák) szemben az adat jelentését jelöli ki.

Ebből következik, hogy az XML nem rendelkezik előredefiniált tag készlettel.

Az elsődleges módja a webszolgáltatások szemantikus webhez való illesztésének az,

hogy elősegítjük az XML adoptálhatóságát. A webszolgáltatások felkutatása viszont elég

bonyolult, ezért a szemantikus web technológiáival kell ezt a problémát megoldani.


115

1. táblázat A szemantikus web, a webszolgáltatások és az intelligens ágensek ösz-

szehasonlítása.

Szemantikus web Webszogáltatások Intelligens ágensek Amit

ígér:

Az érem egyik oldala:

Adatközpontú, adat által

irányított kommunikáció.

Az érem másik oldala:

Aktív eljárások által

megvalósuló, XML-alapú

kommunikáció.

Az érem:

Intelligens ágenseken

keresztül a gépek

kommunikálnak

egymással.

- Kulcsszótól a fogalomig. Az

információ kinyerésétől a

kérdés-válasz érzékelésalapú

megvalósításáig.

- Nyitott szemantikus réteg

harmadik résztvevős ágensek

által értelmezve.

- „Új” rendszerek

konfigurálása meglévő

elosztott rendszerekből.

- Feladatdelegálás (task

delegation).

- Aggregáció és az

elosztott tartatom

koherens kifejezése.

Jelenlegi

korlátok:

- A tartalom metaadattal való

manuális annotációját nehéz

nagy méretekre alkalmazni.

- A rendszer adatcserére képes,

de nem értelmezi azt.

- A kommunikáció alacsony,

szintaktikai szinten áll.

- Az embereknek kell

elvégezni a konfigurációt.

- Teljesen tiszta

definiálás szükséges.

- A felhasználó profilok –

üzleti szemszögből –

még elég szegényesek.

Ami

kihívást

jelent:

- A metaadatok automatikus

annotációja, ontológiával.

- Biztonság és hitelesítés.

- A webszolgáltatások

automatikus felkutatása és

hangolása üzleti

szolgáltatásokba.

- A szemantikus web

tartalmának kiaknázása.

A fejlett webszolgáltatást használó alkalmazásoknak az összehasonlítás, az összeállítás

és az összehangolás automatizált összekapcsolásához mindenképpen szükségük lesz a

szemantikus web technológiáira.

Másrészről a webszolgáltatások lehetővé tesznek elosztott szemantikus webalkalma-

zásokat (pl. Inference Server: adott egy ontológia és egy kérdés, amely az ontológiára is

hivatkozik, válaszold meg a kérdést).

A webszolgáltatások szemantikus webbe ágyazásának egy másik lehetősége a web-

szolgáltatások más webszolgáltatásokkal történő kapcsolatba lépésének megvalósítása.

10.3.7 Tématérképek és RDF

A tématérképek (topic maps) és az RDF leírják a webobjektumok tartalmát, a forrás

(resource) vagy téma (topic) kifejezésével. Mindkét kezdeményezés azért született, hogy

metaadatot hozzon létre webobjektumokból, és hogy ezeket az objektumokat, valamint

tartalmukat könnyen elérhetővé tegye.

A tématérképeknél a téma a webobjektum. A webobjektum rendelkezik előfordulással.

A téma tárgyát a téma egy adott előfordulása fejezi ki, mely lehet címezhető is. A címezhe-

tő tárgy a webobjektum, a nem címezhető nem webobjektum. A témák asszociációkon

(tárgyak közti összefüggéseken) keresztül kapcsolódnak egymáshoz, s egy asszociáción

belül található minden téma megadott szerepet játszik.


116

Az RDF-et a metaadatok leírására és a webobjektumokhoz kapcsolódására tervezték, a

tématérképeket a dokumentumok összetett tartalomalapú indexelésére fejlesztették. Az

eltéréseket nem feledve megállapítható, hogy a tématérképek és az RDF egymást kiegészí-

tő paradigmák. Amennyiben az indexelés (vagy más néven a témastruktúra lefedése) kife-

jezi a tárgyak összekapcsolódását, akkor az RDF az olyan állítások csoportját fejezheti ki,

melyek az említett tárgyak értelmét próbálják képezni. A tématérképek és az RDF egymás

erősségeinek és céljainak kölcsönös és egyidejű kiegészítőiként kell, hogy létezzenek.

Megjegyzés: a W3C-n belül létrejött egy aktív munkacsoport, amely a két paradigma for-

mális kapcsolatát hivatott leírni.

10.3.8 Az RDF ontológia

„M. C. Daconta, a Java World nevű jeles amerikai magazin kolumnistája az RDF elter-

jedését a kínai bambuszfa növekedéséhez hasonlítja. A kínai bambuszfát négy évig kell

úgy művelni és kezelni, hogy bármifélejelét is látnánk a növekedésének, majd az ötödik év

első három hónapjában 30 métert nő. Nos, az RDF esetében már túl vagyunk az alapos

kezdeti művelésen, eljött az idő, hogy egyre elterjedtebb és népszerűbb legyen.” (Gottdank

Tibor, 31. oldal)

Az adatokhoz kapcsolódó olyan jelentés szolgáltatása volt az RDF kifejlesztésének a

célja. A szolgáltatás egyik kiemelt eleme, hogy mindezt a programok által értelmezhető

formátumban végezze, így egyre hatékonyabban biztosítva az adatcserét, a keresést, a kata-

logizálást, a navigálást, az osztályozást stb. Az RDF egyértelműen W3C Szemantikus web

irányvonalának tagjainak alapelemeként aposztrofálható. Az RDF egy jól-definiált sza-

bályhalmazon alapul, mely ezen adatmodell formázását, érvényesítését és használatát is

vezérelni képes.

Az RDF bemutatása két alapdokumentuma alapján történik. Az első az RDF fogalmak

és absztrakt szintaktika (RDF Concepts and Abstract Syntax), míg a második az RDF sze-

mantika (RDF Semantics). A dokumentum webes elérhetőségét az alábbiakban közüljük.

Az RDF Concepts and Abstract Syntax a http://www.w3.org/TR/2004/REC-rdf-concepts-

2004021O/ oldalon érhető el. Az RDF Semantics URL címe:

http://www.w3.org/TR/2004/REC-rdf~mt~2004021O/

Az RDF általánosan egy, az erőforrások leírására szolgáló adatmodell. Erőforrás alatt a

weben elérhető állományt értünk, amely URI-n keresztül érhető el. Ez utóbbi teszi lehetővé

a gráf formájú ábrázolást, ami az erőforrásokhoz kapcsolódó állításokat jelent az RDF-ben.

Ebben a gráfban a csomópontok és az élek testesítik meg az erőforrásokat, az erőforrások

tulajdonságait, valamint a talajdosnágok konkrét értékeit. A gráf szintaktika leírható az

alany és a tárgy csomópontjai közötti éllel, ahol az él jelenti a tulajdonságot. Az RDF

adatmodell az alany, állítmány, tárgy hármasból áll. A két csomópont a gráfban a forrás és

az érték, melyet a tulajdonság mint él kapcsol össze. Az előbbi hármast állításként leírva: a

forrás csomópont jelenti az alanyt, az állítmány a tulajdonság, míg az érték csomópont a

tárgy.

Az RDF kifejlesztésének fő célja az erőforrásokhoz kapcsolódó metaadatok ábrázolása.

Metaadat lehet az elektronikus dokuementum publikálós szervezete, a címe, a szerzője, az

utolsó módosítás időpontja, a szerzői jogi- és licenszinformációi, sőt akár a közös erőfor-

rások hozzáférhetőségi időrendje.


117

Az erőforrás kifejezés tágabb értelmezése révén az RDF képes közvetlenül el nem érhe-

tő információ ábrázolására is, ha az a weben azonosítható formában található meg. Ilyen

információ lehet például az elektronikus kereskedelemben forgalmazott áruk specifikáció-

ja, ára és hozzáférhetősége, vagy ilyen információ lehet egy webfelhasználó információto-

vábbítási preferenciáinak a leírása.

Az RDF-et olyan esetekre tervezték, amelyekben az információkat nem (csak) emberek

számára kell megjeleníteni, hanem számítógépprogramok segítségével (is) fel kell dolgoz-

ni. Az RDF olyan egységes keretet biztosít az ilyen adatok kifejezésére, amelyben azok

információveszteség nélkül átvihetők egyik alkalmazásból a másikba. Mivel ez a keret

általános, az alkalmazások fejlesztői kihasználhatják a közös RDF szintaxiselemző és fel-

dolgozó eszközök előnyeit. A különböző alkalmazások közötti információ csere lehetősé-

ge, pedig azt jelenti, hogy nemcsak azok az alkalmazások használhatják az információt

amelyek számára azt eredetileg ábrázolták, hanem a más célokra készült, későbbi alkalma-

zások is hasznosíthatják.

10.3.9 Az RDFS ontológia

Az RDF ugyan megteremti a lehetőséget az erőforrásokról szóló kijelentések megfo-

galmazására, névvel rendelkező tulajdonságok és értékeik segítségével. Ugyanakkor előre

definiálható szókészletekre (szakkifejezéseinket) is szükség van. Az említett szókészleteket

szeretnénk majd a kijelentésekben használni. Erre azért van szükség, mert az RDF forráso-

kat olyan csoportokra szeretnénk osztani, a melyek maguk is források. Mivel források, így

az azonosításuk URI-vel történik, és RDF tulajdonsággal írhatók le.

Meg kell határozni tehát az általunk később leírni kívánt erőforrások specifikus csoport-

jainak, azaz osztályainak definícióit, valamint azokat a specifikus tulajdonságokat, ame-

lyekkel majd ezeknek az osztályoknak az egyedeit kívánjuk jellemezni.

Példák:

a) Azok az emberek, akik bibliográfiai erőforrások leírásában érdekeltek, nyilván sze-

retnének definiálni olyan osztályokat, mint „Könyv” vagy „Folyóiratcikk” és olyan tu-

lajdonságokat, mint „szerző”, „cím” és „téma”, amelyekkel később a könyveket és a fo-

lyóiratcikkeket leírhatják.

b) egyes cégek szeretnének definiálni olyan osztályokat mint „Személy” és „Cég”, va-

lamint olyan tulajdonságokat, mint „életkor”, „beosztás”, „részvény-jel” és „az alkal-

mazottak száma”.

A példában is említett alkalmazásfüggő osztályok és tulajdonságok definiálásához az

RDF nem elégséges, nem találunk benne ehhez eszközöket. Az ilyen osztályokat és tulaj-

donságokat, egy RDF szókészlet elemeiként, csak az RDF nyelv kiterjesztésének, az RDF

Szókészlet Leíró Nyelvnek (RDF Vocabulary Description Language) a segítségével defini-

álhatjuk, amelyet röviden RDF Schema-nak (a továbbiakban RDFS-nek) nevezünk.

Az RDFS a szabványos RDF források és tulajdonságok egy egy-

szerű halmaza, mellyel saját RDF szókincset hozhatunk létre. Az

RDFS-hez tartozó adatmodellel adatosztályokat tudunk létrehozni.


118

Példa:

Nézzünk a definícióhoz egy infromatikai alapokon nyugvó analógiát. A relációs adat-

bázisséma objektumai, szabványai és előírásai jelentik azokat a metaadatokat, melyeket

a táblák, oszlopok elnevezésű metaadatok definiálásához és leírásához használnak. Ez

utóbbi metaadatokat pedig doménspecifikus adatok leírásához és kezeléséhez alkalmaz-

zák. Az RDFS tulajdonképpen ugyanazt a funkciót tölti be, mint a relációs adatbázis-

séma. A relációs adatmodell alaptulajdonsága, hogy az adat logikailag és nem fizikailag

jelenik meg. Az adat saját tartalmában van jelen és nem fizikai tárolási módjában. Az

RDFS azokat a forrásokat adja meg, melyek egy doménspecifikus séma objektumainak

és jellemzőinek leírásához szükségesek. Ez a doménspecifikus séma egy olyan szókész-

let, melyet adott terület, érdeklődési kör objektumainak, azok attribútumainak és kap-

csolatainak leírására használnak. (Gottdank, 47. oldal)

Van azonban egy lényeges különbség az objektumorientált típusrendszerek és az RDFS

elvi megközelítése között: az RDFS az osztályokat rendeli hozzá a tulajdonságokhoz és

nem a tulajdonságokat az osztályokhoz. Ennek az a következménye, hogy szabadon növel-

hető marad az egy osztályhoz tartozó tulajdonságok sora. Az RDFS teszi tulajdonképpen

lehetővé, hogy az általunk használt mondatokhoz jelentést társítsunk, mivel a program

ezen segítség nélkül nem tudná értelmezni azokat. Az RDFS a következőket formalizálja

az RDF-ben:

− tipizálás (typing): egy egyed adott osztályhoz tartozik, pl: A Skoda egy autómárka,

− alosztályozás (subclassing): valaminek egy példánya egyben egy másiknak is pél-

dánya, pl. Minden kígyó hüllő.).

10.3.10 OWL (Web Ontology Language)

Az RDFS sem képes azonban leküzdeni az összes problémát. A következtetések levo-

nása sem bizható csak a számítógépes programokra, ha ehhez nem rögzítjük a következte-

tésekhez szükséges összefüggéseket.

Példa:

Ha Egerszalók balra van Egertől a térképen, és Eger balra van Noszvajtól, akkor Eger-

szalók balra van Noszvajtól?

Számunkra magától értetődik a válasz, egyértelműen igen, de ezt a programok már nem

képesek megválaszolni a számukra leírt szabály nélkül. A programok nem képesek a kö-

vetkeztetések levonására, az állítást mint adatot csak egy másik adattal képesek összeha-

sonlítani, majd a választ ezután közlik. A kifejezéscsoport meghatározásánál is hasonló

történik, csak mi emberek az adott nyelvhez és szakmához kapcsoltan vagyunk képesek

meghatározni azokat.

Az osztályok megalkotása során azonosítót, vagyis nevet rendelünk az osztályokhoz. A

névadáson túl a tulajdonságok hatókörének szűkítésére is szükség van egy specifikus osz-

tálynál. A szemantikus web ehhez veszi igénybe az ontológiákat, így jön létre a fogalmak

és a kapcsolatok meghatározása, amelyeket tudás leírásához és kifejezéséhez használunk.

Az ontológiák tárgyalásához a taxonómia jelentése is szükséges. Az életünk elképzelhe-

tetlen taxonómiák nélkül, nem tudnánk létezni nélkülük. A taxonómia a bennünket körül-


119

vevő tárgyak, fogalmak, élőlények csoportba foglalásának az egyik lehetséges útja. A ta-

xonómia esetén az osztályozás hierarchikusan történik, amit a háttértárolókon tárolt állo-

mányok mappákban történő elhelyezésénél, vagy a nemzetközi könyvtári osztályozórend-

szernél, az Egyetemes Tizedes Osztályozásnál (ETO) már megismerhetett az olvasó. A

fastruktúra képes a legszemléletesebben ábrázolni ezt a hierarchiát. A fastruktúra is egy

speciális gráf, amelynek az elágazási pontjai a csomópontok, míg a csomópontokat össze-

kötő vonalak az élek.

Taxonómia: az információs entitások osztályozása hierarchikus

formában, megfelelve a valós világ azon entitásai között feltételezett

viszonynak, melyeket kifejez.

A taxonómia kedvelt ábrázolása, amikor az összes csomópontba vezető éleket össze-

gyűjtő csomopont, az ún. gyökérelem a gráf képenek a tetején, csúcsként szerepel. A hát-

tértárakon ezt a szerepet a főkönyvtár tölti be. A taxonómia minden csomópontja olyan

információs entitásnak minősül, mely a valós világ valamely entitását jelképezi. A csomó-

pontok közti linkek speciális viszonyt, a reláció alosztályozását (amikor a link szülő cso-

mópontra mutat) vagy szuperosztályozását (amikor a link gyermek csomópontra mutat)

jelentik. Objektumorientált környezetben az osztály az általános entitás (Gottdank, 76.

oldal).

Példa:

Ahogyan egyre feljebb haladunk a gyökér felé, az entitások egyre általánosabbá válnak

(pl. az Adózó általánosabb, mint a), ha pedig lefelé haladunk a gyökértől, az entitások

specializáltabbak lesznek (pl. a Könyvtáros specializáltabb, konkrétabb, mint a Sze-

mély).

Az említett osztályozási rendszereket általánosításnak, specializálásnak is nevezik. A

taxonómia szempontjából a legfontosabb tanulság a példa alapján az, hogy mindenhol,

minden alosztálynál találunk egy kitüntetett tulajdonságot, továbbá az, hogy a specializált-

ság növekszik, ahogy a taxonómián belül egyre lejjebb és lejjebb megyünk.

A taxonómiák az információs entitások osztályozására alkalmasak. Kifejezik azt a mi-

nimális mértékű szemantikát, mely az objektumok közti megkülönböztetéshez szükséges

az információs térben.

A taxonómiák módszert adnak tartalmi metaadataink strukturálásához és karakterizálá-

sához. Mivel a taxonómiák fák, ezért időnként redundáns információkat is találunk ben-

nük. Hiszen minden egyes gyermek csomóponthoz csak egyetlen szülő csomópont tarto-

zik, így néha eltérő szülőknél duplikálódhat a gyermek csomópont.

Példa:

Ha Vezető és Alkalmazott nevű alosztályaink vannak, amelyek a Személy alatt találha-

tók, akkor bármely vezető elhelyezkedhet mindkét csomópontnál, hiszen azok alkalma-

zottak és vezetők is lehetnek – vagyis duplikáció következik be.

Tehát a taxonómia strukturáltságától függ a redundancia. Az alosztályok taxonómikus

rendje jelenti az ontológiák csontvázát, ám az ontológiák ehhez hozzáteszik még az izmo-

kat és a belső szerveket – kapcsolatok és tulajdonságok formájában. A taxonómiák az alap-

szerkezetet nyújtják, az ontológiák pedig a hiányzó többi részt (Gottdank, 77. oldal).


120

A taxonómia megismerése után következzen az ontológia bemutatása.

Az ontológia megegyezésen alapuló fogalmi rendszer formális,

egyértelmű leírása (Thomas Gruber, 1993).

Részletesen vizsgáljuk meg a definícióban rögzített részeket:

− megegyezésen alapul: az ontológiák a taxonómiákhoz hasonlóan szemantikai sza-

bályrendszerek, melyek dolgok rendezésére használhatók,

− fogalmi rendszer: osztály-alosztály szerkezetű, melynek fő jellemzője az öröklő-

dés,

− formális leírás: axiómák és meghatározások biztosítják a megkülönböztető tulaj-

donságok öröklődését.

Egy ontológia egész pontosan a következőkből áll (Gottdank, 78. oldal):

− Osztályok (általános dolgok)

− Példányok (adott dolgok)

− Osztályok és példányok közti kapcsolatok

− Osztályok és példányok tulajdonságai (és tulajdonságértékei)

− Osztályok és példányok függvényei és eljárásai

− Osztályok és példányok megkötései és szabályai

Ontológiákat használhatnak emberek, adatbázisok és olyan alkalmazások, melyeknek

doméninformációk megosztására van szükségük. Itt a domén vagy értelmezési tartomány

egy specifikus tárgyterület vagy tudásterület, mint pl. szociológia, integrált könyvtári rend-

szerek, villanyszerelés, a Bükk-hegység geológiája stb. Az ontológiák tehát az értelmezési

tartomány alapvető fogalmainak számítógép által használható definícióit és a köztük lévő

kapcsolatokat tartalmazzák.

Szükségünk van még ontológia nyelvre is ahhoz, hogy definiálni lehessen

− még több mindent a terminológiában az adott kontextuson belül,

− még több megszorítást a tulajdonságokon,

− a tulajdonságok logikai karakterisztikáját,

− a kifejezések azonosságát több ontológián keresztül (Gottdank, 78. oldal).

E nyelvnek egyensúlyra kell jutnia az értelmes alkalmazásokhoz tartozó gazdag sze-

mantikák között, valamint a megvalósíthatósági kérdések között. A fő technológiai irány-

vonal az RDFS-ből ered, képességeinek kiterjeszthetőségére koncentrálva.

Számtalan projekt indult (40. ábra), köztük a SHOE projekt, mely egy korai kísérlet

volt arra, hogy szemantikát adjunk a HTML-hez, vagy az amerikai DARPA, amely a

DAML-ONT nyelvet produkálta, vagy egy EU projekt az OIL nyelv kifejlesztésével, és

egy negyedik, amely az utóbbi két nyelv összefésülésére tett kísérletet (DAML+OIL). Az

ontológianyelvek piramisát a láthatjuk. Ezen kívül több koordináció történt az alap RDF

fejlesztések között is. (Gottdank, 79. oldal)


121

34_K40.jpg

40. kép A webalapú nyelvek és az ontológianyelvek „piramisa"

Az OWL egyébként a Web Ontology Language (webes ontológianyelv) kifejezés kez-

dőbetűiből adódik, de a jelentés miatt nem az eredti sorrenben. Ha ugyanis felcseréljük a

kezdőbetűket, akkor az angol owl, azaz magyarul bagoly szót kapjuk.

A DAML+OIL-ból kifejlődött OWL a jelenlegi ontológianyelvek közül a leginkább il-

lik a szemantikus web elképzelésbe. Az OWL célja túlmutat az információ számunkra

történő bemutatásán, a fő cél az információ tartalmának programokkal történő feldolgozá-

sa. Az OWL nyelv nagyobb mértékben segíti a webtartalom automatizált értelmezését,

mint az RDF és az RDFS, mert bővített szókészletet, illetve formális szemantikát kínál.

Az OWL nyelv a W3C támogatását élvezi. A W3C Webontológia Munkacsoport 2001

novemberében jött létre, az OWL első verziója 2003 elején jelent meg, 2003 augusztusá-

ban szabványnak jelölték, és 2004 februárjára már teljes értékű szabvánnyá is vált. A té-

makörhöz két honlap is kapcsolódik:

http://www.w3.org/2001/sw/WebOnt

http://www.w3. org/2004/OWL/).

Végezetül ismerkedjünk meg az OWL konkrét létezésének alapjaival. A már megismert

RDFS-ben képesek vagyunk a létező osztályok alosztályait képezni, de tovább nem tudunk

lépni. Az OWL alkalmas ugyanis a már létező osztályok alapján új osztályokat készítsünk,

ehhez meg kell határozni a tartalmát. A tartalom meghatározása a halmazelméletből ismert

metszet, unió, komplemens képzéssel, a tulajdonság szűkítésével történhet. Az OWL-ben

ehhez saját osztályok és egy Thing (Dolog) osztályt vezettek be, így képes megkülönböz-

tetni az egyedeket az osztálytól (41. kép).


122

34_K41.jpg

41. kép RDFS és OWL osztálykapcsolat

Az imént említettük, hogy az osztályok felsorolása az OWL-ben egyszerűbb, mint az

RDFS-ben. Ha egy tulajdonság lehetséges értékeit rögzíteni szeretnénk az RDFS-ben, ak-

kor egy viszonylag bonyolult XML Schema leszármaztatott típust kell definiálnunk (pl.

egy autóTipus típust), és erre kell hivatkoznunk. Vagyis az RDF világából kell kilépnünk,

ami sok nehézséggel jár.

Ehhez nyújt egy, egyszerűbb megoldást az OWL az „owl: oneOf” bevezetésével. Ezzel

az osztályok felsorolhatók lesznek. A 42. ábrán egy olyan megtekinthetünk egy példát, itt a

lehetséges tartalom explicit módon (egyértelműen) listázott. A gráf alatt annak az XML-

ben történő megvalósítása is látható

42. kép Példa az OWL-ben az „owl:oneOf”szerepére és annak

megvalósítása XML-ben


123

A következő példa az uniót mutatja be gráf és XML formában. Ehhez az OWL-ben az

„owl:unionOf” alkalmazása szükséges (43. ábra). Hasonlóan képezhető az OWL-ben a

komplemens (owl:complementOf) és a metszet (owl:intersectionOf) is.

43. kép Példa az OWL-ben az „owl:unionOf” szerepére és annak

megvalósítása XML-ben

10.4 ÖSSZEFOGLALÁS

A szemantikus web az internet egy lehetséges jövője, mely a jelenlegi webet olyan

többlet információkkal egészíti ki, hogy a leírtakat ne csak egy személy, de a számítógép is

megérthesse. Egy egységes leíró nyelv segítségével az alkalmazások emberi beavatkozás

nélkül képesek kommunikálni, információt megosztani. Teljesen automatikusan működő

programok nyújtanak segítséget vagy szolgáltatást, így a weboldalak tematikus leírását

kihasználó keresők sokkal hatékonyabban működhetnek.


1. Hasonlítsa össze az RDF és az RDFS ontológiákat!

2. Mi véleménye a szemantikus web elterjedéséről?


124

11. INTELLIGENS RENDSZEREK

11.1 CÉLKITŰZÉS

Az adatbányászat mögöti fogalmak megértése. Az adatbányászat folyamatának, céljának,

csoportosításának megtanulása. A leckében cél a tájékozódás, de nem cél még a gyakorlat

tevékenység kipróbálás sem, ahhoz sokkal komolyabb alapozó ismeretre lenne szükség.

11.2 TARTALOM

Üzleti intelligencia

Üzleti intelligencia az információellátás folyamatában

Az üzleti intelligencia és a könyvtár

Az üzleti intelligencia jövője

Adatbányászat

Az adatbányászat irányzatai

Iteratív folyamat

Webbányászat

Szövegbányászat


Intelligens rendszerek bemutatása. Az üzleti intelligenciából vett eszközök, mint az

adatbányászat (webbányászat) stb. vázlatos szerepének kifejtése. A jövő könyvtári tevé-

kenységeinek bemutatása az információforrás szemszögéből, mint pl. a szövegbányászat.

Az eszközöket kifejezetten az információ-szolgáltató oldala felől közelítjük meg, azok

működését, matematikai hátterét itt nem tárgyaljuk. A profitorientált szféra tőkeerős cégei-

nek menedzsmentje számára elérhető információk kinyerése a jövőben majd a könyvtár

eszközei között is szerepel.

11.3.1 Üzleti intelligencia

A fogalom pár éves múltra tekinthet vissza, ezért a megalkotásánál fontos, hogy milyen

szemszögből vizsgáljuk. Egy tanulmányban az üzleti oldalról megközelített meghatározása

szerepel (Krauth:2008):

Az üzleti intelligencia olyan technológiák és alkalmazások ösz-

szessége, amelyek adatok gyűjtésével, hozzáférhetőségével és elem-

zésével foglalkoznak egy vállalatban, hogy vezetői jobb üzleti dön-

téseket hozhassanak.

A fogalom megközelíthető az informatika oldaláról (Mozsik:2008): „Az üzleti intelli-

gencia (Business Intelligence, BI) gyűjtőfogalom, ami számos, az elemzéssel kapcsolatos

területet magában foglal, mint a vállalati adatvagyon összegyűjtését szolgáló adattárházak,

a lekérdezések és a jelentések készítésére szolgáló szoftvererek, a multidimenzionális ada-

tok nagy sebességű kezelésére szolgáló OLAP-eszközök vagy a rejtett összefüggések feltá-

rására és előrejelzésekre matematikai-statisztikai módszereket alkalmazó adatbányászati

megoldások.”


125

11.3.2 Üzleti intelligencia az információellátás folyamatában

A hazai vállalatok működésében az informatika hálózatra épülő struktúrája, és az in-

formatika alkalmazási rendszerei egyre fontosabb szerepet töltenek be. Több évtizede az

operatív szintű termelő-szolgáló folyamatok meghatározó elemét képezi, később egyre

jobban teret nyert a stratégiai szintű irányítási-döntési folyamatokban is. A vállalatok tipi-

kus, a vállalati információelőállítás szemszögéből adatelőállító szerepű alkalmazási rend-

szerei jól ismertek: ERP, CRM, SCM és egyéb alkalmazások. Az ERP (Enterprise

Resource Planning) az operatív vállatirányítási rednszert, a CRM (Customer (Relationship

Management) az ügyfélkapcsolati rendszert, az SCM (Supply Chain Management) a be-

szállítói lánc rendszerét jelenti. Ezek és az egyéb alkalmazások azonban az operatív folya-

matokat támogatják, azaz a cég szervezeti hierarchiájának alsó és középső szintjén dolgo-

zók napi tevékenységeihez kapcsolódnak.

A vállalati stratégiai döntések a felső vezetőkre, esetenként a középvezetők felső szint-

jére hárulnak, ezen döntések hatása befolyásolja és meghatározza a cég jövőjét, gazdasági

pozícióját, eredményeit, ezekhez a tevékenységekhez másfajta támogató rendszerek szük-

ségesek, amit összefoglaló néven üzleti intelligencia rendszereknek (BI) neveznek.

44. kép Az üzleti intelligencia szerepe a vállalati információellátásban

A vállalati információellátásban az üzleti intelligencia szerepe az információelőállító

rendszerek után jelenik meg, melynek alkalmazása napjainkban csak a profitorientált, je-

lentős tőkeerővel bíró szervezeteknél mindennapos. Az információellátás ciklusának a

rendszerezés, elemzés és hasznosítás szakasza kapcsolódik az üzleti intelligenciához. A

rendszerezés szakasza ma a vállaltoknál leginkább az operatív adatok összegyűjtését, majd

azok jól strukturált adattárakba, adattárházakba történő elhelyezését jelenti, és az adatok

konzisztenciáját egy, az adott eszközre specializált megoldással biztosítják. Kisebb vállala-

tok még adattárházat sem fejlesztenek ki. Az adattárház az általános adattártól leginkább

abban különbözik, hogy az adatok idősorait is tárolja, nem csak az aktuális értéket.

Az adatelemzés az adatok megjelenítését vagy a vállalati adatok eseti vagy feltáró jelle-

gű stratégiai szintű elemzéséig terjed, melyhez adatbányászati technikákat használnak a

cégek. A kisebb válallatoknál az adatelemzés leginkább a pénzügyi adatok jelentéskészítő

vagy táblázatkezelő alkalmazással történő összesítését jelenti. A hasznosítás szakasza a


126

vállalat teljesítményalapú irányításából (CPM), a döntéstámogatásból (DSS), és az üzleti

folyamatok felügyeletéből áll.

Az üzleti intelligencia az informatikai tevékenységek szemszögéből a fentiek alapján a

vállalati adatgyűjtő-, tároló-, elemző eljárások és alkalmazások együttese, ide tartoznak

többek között a vállalati információs rendszerek, döntéstámogató rendszerek, vezetői in-

formációs rendszerek, adatbányászat, adatmegjelenítés, geográfiai információs rendszerek

stb.

11.3.3 Az üzleti intelligencia és a könyvtár

Az üzleti intelligencia alkalmazása a könyvtárban, – mivel nonprofit szervezet – szinte

példa nélküli, leginkább az operatív munkát támogató integrált rendszerek egyes moduljait

alkalmazzák, de ehhez más, az intézmény tevékenységében jelentős rendszerek (pl. a kata-

lógus rendszer, a kölcsönzési rendszer stb.) nem integrálódtak, és ez a folyamat középtá-

von nem is várható. A könyvtárban ezért ilyen irányú rendszerezést és elemzést legfeljebb

néhány kutató végezhet, de nem minden esetben hasznosítja az eredményeket a könyvtár

vezetése.

Az Európai Unió ugyanakkor elvárja az összemérhetőséget, a fejlődést, így 2010-től a

Európai Tudásalapú Térség létrehozása a cél, melynek két fő pillére az Európai Kutatási

Innovációs Térség és az Európai Oktatási térség létrehozása. A fejlődés sok más terület

mellett elképzelhetetlen a felhalmozott, és a folyamatosan gyűjtött adatok hasznosítása

nélkül.

11.3.4 Az üzleti intelligencia jövője

Az üzleti intelligencia alkalmazása az eddigi elsődleges használók, a specializált szak-

értők kezéből fokozatosan kikerül, és a BI a vállalatok teljes információgazdálkodási tevé-

kenységének egésze lesz. A vállalatirányítási döntések várhatóan nem különülnek majd el

az előkészítéshez használt üzleti intelligenciától.

A BI nem marad meg a nagyvállalati keretek között, hanem a kisebb vállalkozások,

költségvetési és közigazgatási szervezetek használják majd integráló, rendszerező,

döntéselőkészítő funkcióit. Keresés oldalról a szövegbányászat egyre hangsúlyosabb sze-

repet kap, és az alkalmazott adatbányászati tevékenységeken belül megnő a szerepe, de a

két lehetőség integrációja is elképzelhető.

A mesterséges intelligencia elmozdulást mutat az emberközpontúság felé, ami nagyobb

felhasználói beavatkozás mellett együttműködést és rugalmasságot tesz lehetővé, az

együttműködés alapja az interaktivitás. Az adatokat kisebb szervezetek, így könyvtárak is

képesek lesznek saját igényeik szerint feldolgozni, a problémákra önmaguk adhatják meg a

választ, mellőzve ezzel az adott szervezetre előre konfigurált, tehát költséges rendszereket.

11.3.5 Adatbányászat

Az adatbányászat az üzleti intelligencia része, azon belül a vezetés döntéstámogató esz-

köze. Az adatbányászat (data mining) jelentősége az 1990-es években nőtt meg. Az adat-

bányászat egy folyamat, amelynek során intelligens műveleteket, műveletsort hajtunk vég-

re az adatminták kiemelése érdekében, vagyis az érdeklődésre számot tartó tudás nagy

mennyiségű adatból történő feltárása.


127

Az adatbányászat egy olyan iteratív folyamat, amelynek célja –

intelligens műveletek, műveletsorok végrehajtása során – a kezdeti,

sokszor struktúrálatlan adathalmazból adatminták kiemelése, azaz

a menedzsment döntéseit támogató tudás nagy mennyiségű adatból

történő feltárása.

Az intelligens műveletek különféle statisztikai alapú elemző technikákat jelentenek, pl.

neurális hálózat, faktoranalízis stb. Az adatbányászat a statisztika elemeit használja ugyan,

de messze túlmutat azon, egy igen mélyreható matematikai és informatikai alapot igényel.

A folyamat végén egy új tudáshoz juthatunk, ami az eddigi adatbázis-technológián alapuló

eszközökkel felfedezhetetlen.

A folyamat bemeneti adatai tárolhatók adatbázisokban, adattárházakban vagy más in-

formációtárakban. A folyamat végén egy új tudáshoz juthatunk, ami az eddigi adatbázis-

technológián alapuló eszközökkel felfedezhetetlen.

45. kép Tipikus adatbányászati-rendszer architektúrája

Jelenleg két piacvezető adatbányász programcsomag létezik. Az IBM-SPSS cég Modeler

nevű programja és a SAS Enterprise cég Miner elnevzésű programja. A termékek jelenlegi

árfekvése nem teszi elérhetővé a kis- és középvállakozások (kkv) számára. Tudomásunk

szerint a Modeler rendszert már használják a következő hazai vállalatok: OTP Bank, TÁRKI

DATA RESEARCH, Millward Brown (piackutató), T-Mobile, Bi Consulting.

Szükséges megemlíteni a nehézségeket is. Az első probléma, hogy az adatbányász, és

az azokat kiegészítő szövegbányász-, webbányász stb. programcsomagok az üzleti szférá-

hoz szabott, kiemelten magas áron érhetők el. A másik probléma a használathoz kötődik,

ugyanis a rendszer működtetésének elsajátítása jelentékeny szellemi erőfeszítést igényel,

tehát jelenleg még nem lehet önálló menedzsment támogató informatikai eszköz. További

gond, hogy egy adatbányászban jártas szakértő alkalmazása csak hosszabb távon hozza

meg a kívánt eredményt, hiszen kiválóan kell ismerni az elemzett vállalat vizsgált folyama-

tait, belső kommunikációs rendszerét.


128

11.3.6 Az adatbányászat irányzatai

Az adatbányászat minden olyan területen használható, ahol a tevékenység során nagy

mennyiségű adat keletkezik (pl. üzleti, államigazgatási, egészségügyi, oktatási, tudomá-

nyos stb.).

− adatbányászat a gazdaságban: hiteltörlesztési hajlandóság előrejelzése és hitelbírá-

lati irányelvek elemzése; fogyasztók célzott marketing szempontú osztályozása és

klaszterezése; pénzügyi bűncselekmények felderítése; reklámhadjáratok hatékony-

ságvizsgálata; vevőmegtartás: lojalitás-vizsgálat

− adatbányászat a távközlésben

− orvostudományi és DNS-adatok stb.

Az adatbányászathoz elengedhetetlen a hatalmas adathalmaz, akár a vállalat életciklusa

során tárolt összes adata, hiszen csak akkor bukkanhatunk értékes összefüggésekre. Az

ilyen adatok, – emberi léptékkel felfoghatatlan – halmazának adatbányászat nélküli feldol-

gozása a menedzsment számára információban szegény, költséges, időigényes, előítéletek-

re épített, félrevezethető tudást eredményezhet.

Az adatbányászat, mint multidiszciplináris tudomány az alábbi területekre támaszkodik:

− adatbázis-technológia, információ-visszakeresés,

− mesterséges intelligencia, neurális hálók,

− számítógépes tanulás,

− statisztika,

− alakfelismerés,

− tudás alapú rendszerek, tudásmegerősítés,

− nagy teljesítményű számítások,

− vizuális adatmegjelenítés.

Az adatbányászati feladatok két osztályba sorolhatók:

− leíró – az adatok általános jellemzőit tárja fel,

− előrejelző – meglévő adatokból következtet, prognosztizál.

11.3.7 Az iteratív folyamat

Az adatbázisokban végzett tudásfeltárást (KDD – Knowledge Discovery in Databases)

az adatbányászat szinonimájaként vagy annak részeként használják. Jelen munkában a

KDD szinonimája az adatbányászat. Az adatbányászat iteratív folyamatának lépései:

− adattisztítás – zajos, inkonzisztens adatok eltávolítása

− adatintegrálás – több adatforrás összekapcsolása

− adatkiválasztás – adatok kiolvasása az adatbázisból az elemzéshez

− adat-transzformáció – az adatok olyan formájának előállítása, hogy az bányászható

legyen

− adatbányászat – az adatminták kiemelése érdekében végzett eljárás

− minta kiértékelése – tudást reprezentáló, valóban érdekes minták meghatározása


129

− tudásmegjelenítés – a kinyert tudást tudáskifejező technikákkal tárja a felhasználó

elé

Az előállított, érdekes minta tudást reprezentál, de mikor lesz értékes a minta? Ha egy-

szerűen érthető, bizonyos megbízhatósággal érvényes új vagy kísérleti adatokon, potenciá-

lisan hasznos, újszerű. Egy minta akkor is értékes, ha olyan hipotézist igazol, amelyet a

felhasználó bizonyítani szeretne.

A folyamat bemeneti adatai tárolhatók adatbázisokban, adattárházakban vagy más in-

formációtárakban. A folyamat végén egy új tudáshoz juthatunk, ami az eddigi adatbázis-

technológián alapuló eszközökkel felfedezhetetlen.

Az előállított, érdekes adatminta, vagyis az eredmény tudást reprezentál, de az adatmin-

ta kizárólag akkor lesz érdekes, ha egyszerűen érthető, bizonyos megbízhatósággal érvé-

nyes új vagy kísérleti adatokon, potenciálisan hasznos, újszerű. Egy adatminta akkor is

érdekes, ha olyan hipotézist igazol, amelyet a felhasználó bizonyítani szeretne.

Példa:

Egy online hírportálnál rendkívül fontos a látogatók viselkedése, mert a hirdetéseket így

lehet a megfelelő áron és meggyőzően értékesíteni. Az adatbányászat (webbányászat)

során kapott, egy lehetséges értékes adatmintára példa:

a hétköznapokon 9.-11.00 közötti látogatók 60%-ka nem a portál főoldaláról indul, de

megnézi átlagosan 10 percig a baba-mama oldalakat, 2-3 percig a bulvár rovatot, 1 per-

cig az időjárást és a TV műsort. A látogatók 25%-a a sportot nézi meg, esetleg a friss

politikai híreket. A látogatók 10%-a tudományos oldalakat, azon belül is leginkább in-

formatikai híreket olvas ebben az időben, és ők gyakran megnézik az Autó-motor rova-

tot is. A látogatók 5% pedig teljesen kiszámíthatatlanul viselkedik ebben az idősávban,

de többnyire a híreket ők is megnézik.

11.3.8 Webbányászat

A látogatók szokásainak minél alaposabb megismerése állandó kihívás. Az online

kommunikációs csatornákat használó látogatók magatartását a hagyományos eszközökkel

nem, vagy nagyon nehezen lehet megismerni. Azonban ez a felhasználói réteg nagyon sok

nyomot hagy maga után, a kiszolgáló számítógépeken rögzített adatok kincset érnek, melyek

„felszínre hozhatók” a webbányászati eszközökkel. A látogatók igényeit kielégítő, individua-

lizált szolgáltatás csak abban az esetben valósítható meg, ha az online szokásaikat, magatar-

tásukat elemezzük a weboldalakon található linkeken át bejárt útvonalak alapján.

A webbányászat az adatbányászat része. A webhasználat-bányászattal tanulmányozhat-

juk a látogatók szokásait, magatartásmintáit. A webhasználat-bányászat nevezhető

webnapló bányászatnak is, hiszen ma még többnyire a webkiszolgálók által rögzített

webnapló-bejegyzéseken alapul. Jelen dolgozat vizsgálatait a webhasználat-bányászat esz-

köztárát alkalmazva végeztük el.

Az azonosíthatatlan felhasználók online tevékenységét a látogatásuk alkalmával rögzít-

jük, az adatgyűjtés az adott fogyasztóról a látogatás befejezéskor zárul le. Ez azt jelenti,

hogy a legközelebbi látogatás alkalmával ő már más fogyasztónak számít. Ha a látogatók

száma nagy, akkor a marketingmenedzsment honlappal kapcsolatos döntéseihez a vizsgá-

latok elégséges bemenetet jelentenek, hiszen minden elemzés az online látogatók teljes

populációjára alapul.

A vizsgálatokat néhány említésre méltó tény nehezíti (Han, Kamber, 2004):


130

− a web túlságosan bőséges tárolt adathalmaza,

− a weboldal strukturálatlansága, bonyolultsága,

− a weboldal dinamikusan változásai,

− a felhasználók azonosítási anomáliái stb.

A webbányászat feladatköre a vizsgálat tárgya szerint három területet fog át:

− webtartalom-bányászat (web content mining),

− webstruktúra-bányászat (web structure mining) és

− webhasználat-bányászat (web usage mining).

A webhasználat-bányászat használatával a látogatók szokásainak, magatartásmintáinak

tanulmányozása válik lehetővé. A webhasználat-bányászat nevezhető webnapló bányá-

szatnak is, hiszen a webkiszolgálók által rögzített webnapló-bejegyzéseken alapul. A

webnapló-bejegyzések (weblog fájl) vizsgálata során a weblapok hozzáférési mintáit lehet

feltárni, így a látogatók számára az interneten keresztül nyújtott szolgáltatások minősége

javítható, akár a webet kiszolgáló számítógépek (webszerverek) teljesítménye is növelhető.

Egy adott webnapló-bejegyzés mezői eltérőek lehetnek, de mindegyik webszerver tárolja a

következőket:

− a kérés kiindulási helyének IP címét,

− a kérés pontos idejét,

− a kért URL címet,

− és ezen kívül még néhány adatot.

A webnapló-bejegyzéseknél gyakorta a túlságosan is sok adat jelenti a nehézséget. A

rögzített adatokból, – amelyek leginkább technikai jellegűek – kell megtalálni a relevánsa-

kat. A felhasználók hozzáférési mintáinak ilyen osztott információs környezetben történő

kigyűjtését nevezik hozzáférési útvonalminta bányászatnak is.

A webbányászat eszköze egy adatbányász szoftverre épül. A két piacvezető adatbá-

nyász programcsomag rendelkezik webbányász kiegészítéssel is. A kutatásoknál használt

IBM-SPSS Modeler esetén ezt nevezik WebMining CAT modulnak.

A webbányászati technikák alkalmasak a felhasználók alaposabb megismerésére. Ter-

mészetesen az eddig elvégzett vizsgálatok, webstatisztikák, a látogatásokról, kattintásokról

szóló összesítések szükségesek, azonban az online vásárlók, látogatók igényeit individuáli-

san kielégítő szolgáltatás csak abban az esetben valósítható meg, ha felhasználók szokásait,

magatartását elemezzük, például a weboldalakon található linkeken át bejárt útvonalak

alapján. A vizsgálatok előnye, hogy a teljes populáción történik, azaz nincs vizsgált minta.

A rendszertervezés tökéletesítése során elérhető pl. az erősen korreláló objektumokhoz

történő hatékonyabb hozzáférés, de a fogyasztók individualizált, online kiszolgálása is

tökéletesedhet pl. egy hírszolgáltató website-nál.

Webbányászat: az üzleti szféra Internet-alapú szegmensében ki-

dolgozott igen erőteljes speciális adatbányászati megközelítés, az

adatbányászat alkalmazása a webhelyek forgalom-elemzésének

speciális területére.


131

A módszer a webhelyek üzemeltetőjének a szerverén képződő, a forgalomra jellemző

naplófájlok (az ún. logfájlok) kifinomult elemzésére épül és az adott webhelyek hatékony-

ságának a fokozását tűzi célul.

A különböző típusú naplófájlok (ún. weblog-ok) elvben a felhasználók tevékenységére

vonatkozó igen gazdag információ-források. Itt a probléma a szokásosnak éppen a fordí-

tottja: itt nem kevés, hanem túlságosan is sok információ áll rendelkezésünkre. A naplófáj-

lok mérete ugyanis az üzleti szférában – a látogatók számától és elemzett időszak hosszától

függően – gyakran a több száz MB vagy a GB nagyságrendjébe esik. Ezt a nagy mennyi-

ségű – és nagymértékben pusztán technikai jellegű – információt kell célszerű módon

megszűrni, átalakítani, feldolgozni úgy, hogy a kezdeti technikai információból a felhasz-

náló viselkedését és motivációját megalapozottan jellemző információkat nyerjünk.

Az interakció professzionális vizsgálata lehetővé teszi a tananyag tényleges használati

módjainak az azonosítását, amiből megalapozottan következtetni lehet a tananyag haté-

konyságára, illetve a hatékonyság konkrét akadályaira.

A web-bányászati technikák ezért a tananyag fejlesztésének a folyamatában – mintegy

az ipari gyártásközi minőségellenőrzés analógiájára – az egzakt közbenső „mérések” lehe-

tőségét nyújtják: a fejlesztés minden „mintavételezés” után attól függő irányokat vehet,

hogy a tanulók a megelőző lépésben hogyan fogadták a tananyag számukra rendelkezésre

bocsátott verzióját. A menet közben azonosított szakmai, didaktikai, használhatósági,

szoftver-ergonómiai (leggyakrabban a navigációval vagy az információmegjelenítéssel

kapcsolatos) stb. problémákra ilyen módon gyors áttervezési, javítási javaslat adható és az

így kialakított verzió egy újabb ciklusban tesztelhető.

Ez a megközelítés annyiban radikálisan más a korábbiakhoz képest, hogy itt a tanulók

és a tananyag vonatkozásában nem egyfajta mintavételezésről van szó, hanem valamennyi

tanuló valamennyi interakcióját elemezhetjük a teljes tananyagban a billentyűleütések és

egér-kattintások szintjének megfelelő finomságú felbontásban. Az elemzés tehát nem a

célpopulációból vett többé-kevésbé reprezentatív mintákra épül, hanem a célpopulációra

nézve teljes körű.

A sikeres web-bányászati elemzés feltétele, hogy a különböző modellekkel nyert ered-

ményeket az elemző képes legyen a felhasználói szintű élményekkel, illetve tapasztalatok-

kal összekapcsolni. Ez azt jelenti, hogy csak az lehet valóban sikeres, aki mind a web-

bányászati elveket és eszközöket, mind az elemzett konkrét anyagot, mind pedig a felhasz-

nálókat eléggé mélyen ismeri.

11.3.9 Szövegbányászat

Az előzőekben kifejtett (webes) szövegen alapuló keresésnél jóval többet hivatott nyúj-

tani a szövegbányászat egyes speciális keresőkérdés esetén. Míg a szöveges keresés eseté-

ben meglévő információkra kívánunk kis időbefektetéssel rátalálni (nagy relevanciájú talá-

lati eredmények által), addig a szövegbányászat során olyan tudásra, ismeretekre is szert

kívánunk tenni, ami explicite nem volt benne a rendelkezésre álló dokumentumállomány-

ban (korpuszban), csak indirekt módon, a szöveg közé rejtve.

A teljes szövegű keresés ugyan része a szövegbányászatnak, a szövegbányászat a kere-

sésnél jóval többet jelent, hasonlóan, ahogy az adatbányászat is jóval többet jelent az egy-

szerű adatkeresésnél.


132

A szövegbányászat (angolul text mining) a strukturálatlan vagy

kis mértékben strukturált szöveges állományokból kinyert ismere-

tek feltárásával foglalkozik.

Az új információ kinyerése olyan, különböző pl. webes dokumentumforrásokból szár-

mazó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és repre-

zentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt. A gép

számára azonban a humán segítség elengedhetetlen.

Példa:

Szeretnénk megtudni, hogy a fogyasztóknak mi a véleménye egy könyvről az interneten

megtalálható blogok, fórumok, hozzászólások szöveges anyagai alapján. Ehhez defini-

álnunk kell, hogy milyen karakterekből áll a könyv címe, szerzője, mit nevezünk jónak,

és mit nevezünk rossznak, mi lehet a jelző a leírt mondatokban.

Ezután a tudásfeltárás automatikusan történik, azaz megkapjuk, hogy hányan főnek volt

pozitív, illetve negatív véleménye, hányan bánták meg a vásárlást, hányan ajánlják má-

soknak stb. Ezt a tudást indexelt keresőkkel csak hatalma emberi munkaráfordítással

lenne elérhető, hiszen olyat is megtudhatunk, hogy akik ezt a könyvet dicsérték, azok

mit dicsértek még stb.

A szövegbányászat nagymértékben épít az adatbányászat eredményeire, ahol elsősorban

számszerű adatok feldolgozása történik intelligens gépi módszerekkel. Az adatbányászat

azon eredményeit, amelyek minták felismerésére, adatreprezentációra, előrejelzésre, sta-

tisztikai összefüggések kimutatására vonatkoznak, a szövegbányászat is nagymértékben

hasznosítja. A különbség abban mutatkozik, hogy míg adatbányászat esetében jól struktu-

rált számszerű adatokkal dolgozunk, addig a szövegbányászatban strukturálatlan szöveges

állományok képezik a kiindulási alapot.

11.4 ÖSSZEFOGLALÁS

Információkeresés magas szinten, intelligens rendszerek bemutatása. A profitorientált

szféra jelentős cégeinek menedzsmentje számára elérhető keresés a jövőben a könyvtár,

így a könyvtárosok eszközévé válik. Az eszközöket kifejezetten a tájékoztatás oldala felől

kezelítjük meg, hiszen azok működése, matematikai háttere egyetlen tárgy résztémakörénél

teljesíthetetlen. Megismertük az üzleti intelligenciából vett eszközök, mint az adatbányá-

szat (webbányászat) stb. vázlatos szerepét.


1. Értelmezze az adatbányászatot!

2. Hasonlítsa össze a webbányászatot a szövegbányászattal!


133

12. ÖSSZEFOGLALÁS

12.1 A KURZUSBAN KITŰZÖTT CÉLOK ÖSSZEFOGLALÁSA

A kurzus célja, hogy megismertesse a hallgatókat az interneten fellelhető adatok kere-

sésének lehetőségeivel, a keresés alapfogalmi felépítésével, a webes keresőszolgáltatások,

azon belül a webes keresőrendszerek működési mechanizmusával.

A tananyag kiemelten kezelte az online keresés adekvát eszközének kiválasztását, rá-

mutatva arra milyen esetben, és miként érdemes igénybe venni az internetes keresést. Ki-

emelt figyelmet kapott a keresés korszerű, a könyvtáros szakemberek számára nélkülözhe-

tetlen ismeretet jelentő, tudásalapú internet tárgyalása az online keresés vonatkozásában.

A jelenlegi és a jövő technológiáit egy bizonyos határig szükséges volt bemutatni mel-

lőzve a mély informatikai ismeretek. Cél volt ezen túlmenően a technológiák várható hatá-

sainak ismertetése, hiszen a folyamatos és gyors változás miatt a diploma megszerzése

után várhatóan évről-évre változó technikai- és szolgáltatás hátérrel kell kiszolgálniuk a

könyvtár személyes- és virtuális látogatóit.

12.2 TARTALMI ÖSSZEFOGLALÁS

A jegyzet gerincét az internetes keresőrendszerek egy szűk, de széles közösség által

használt részébe próbált betekinteni. A jegyzetben megismerte a keresőrendszerek kapcso-

latát a könyvtári tájékoztatással, a mai keresők fajtáit, azok használatát, működési mecha-

nizmusait, valamint kitekintést nyújtott a következő évtizedek várható technológiai válto-

zásaira.

12.3 A TANANYAGBAN TANULTAK RÉSZLETES ÖSSZEFOGLALÁSA

12.3.1 Információ szolgáltató eszközök fejlődése a könyvtáros szakmában

A könyvtáros szakma és a szaktájékoztatás eszközének átalakulása, megváltozása az

adatbázisok alkalmazásától az online információ-szolgáltató eszközökig. A online keresés

modellje. Az internetes találatok szakmai hitelessége. A találati listák elektronikus és ha-

gyományos kezelése, archiválása. A közeljövő operatív könyvtári munka kiegészülhet a

Web2.0-val jelzett technológiához köthető szolgáltatások keresési lehetőségeivel. Üzleti

információ.

12.3.2 A keresőszolgáltatások alapismeretei









134

12.3.3 A kulcsszavas keresés technikái








12.3.4 Google, mint kereső eszköz

A Google a keresőrendszerek között az utóbbi évtizedben egy külön fogalmat jelent az

utóbbi évtizedek alapján. A lecke bemutatta a megszokott, weboldalak és szöveges alapú

dokumentumok keresését biztosító keresőmotor sokszínű, állandóan fejlődő lehetőségeit

különböző aspektusból. A Google ezen kívül a speciális keresés terén is páratlan fejlődést

mutat, melyekre részletesen kitértünk. Külön boncolgattuk a Google a keresőrendszerek

használatában kivívott elsőségét.

12.3.5 Keresőrobotok

A keresőrobotok mechanizmusának megértése a hatékonyabb keresőkérdés összeállítá-

sa érdekében.A PageRank vázlatos bemutatása, szerepének megértése a webes keresésnél.

A keresőoptimalizálás attitüdjeinek elsajátítása.

12.3.6 Metakeresők

Metakeresők működési elve. A magyar és külföldi metakeresők használatának és mű-

ködésének leírása. Az Ariadnet használatának és a keresőmotor működésének részletes

bemutatása. A PolyMeta használatának és a keresőmotor működésének részletes bemutatá-

sa. A Miner használatának és a keresőmotor működésének részletes bemutatása. Egyéb

magyar metakereső szolgáltatások.

12.3.7 Speciális keresők

A témakörre specializált (vertikális) vagy egyetlen honlaphoz (site) kapcsolódó keresési

lehetőségek bemutatása. A témakörre specializált keresők közül a keresők kapnak kiemelt

figyelmet. A honlap saját keresési lehetőségeinek tárgyalása során bemutatjuk a Magyar

Tudományos Akadémia honlapjának keresőjét. Ezen kívül az alábbi témakörök keresőiről,

és azok korlátairól lesz szó: tudományos adatbázisok, tudástárak, szótárak, művészeti tá-

rak, rövidítésszótár, személykeresők, kapcsolat alapú rendszerek, kép- és mozgókép, tér-

kép, online szakmai újságok folyóiratok, jogszabályok, vezetékes és mobil telefonszámok,

szervezeteket kereső szolgáltatás.

12.3.8 Katalógusok

A katalógusok megismerése mellet egyéb más, a katalógusok és a kulcsszavas keresők

egye jellemzőit viselő tartalomszolgáltató oldalát ismertük meg. A katalógusok működési


135

mechanizmusa mellett a katalógusokban elérhető saját belső vagy külső kulcszsvas kere-

sőket mutattuk be.

12.3.9 Szemantikus web

A szemantikus web az internet egy lehetséges jövője, mely a jelenlegi webet olyan

többlet információkkal egészíti ki, hogy a leírtakat ne csak egy személy, de a számítógép is

megérthesse. Egy egységes leíró nyelv segítségével az alkalmazások emberi beavatkozás

nélkül képesek kommunikálni, információt megosztani. Teljesen automatikusan működő

programok nyújtanak majd segítséget vagy szolgáltatást. A weboldalak tematikus leírását

kihasználó keresők pedig sokkal hatékonyabban működhetnek.

12.3.10 Intelligens rendszerek

Információkeresés magas szinten, intelligens rendszerek bemutatása. A profitorientált

szféra jelentős cégeinek menedzsmentje számára elérhető keresés a jövőben a könyvtár,

így a könyvtárosok eszközévé válik. Az eszközöket kifejezetten a tájékoztatás oldala felől

kezelítjük meg, hiszen azok működése, matematikai háttere egyetlen tárgy résztémakörénél

teljesíthetetlen. Megismertük az üzleti intelligenciából vett eszközök, mint az adatbányá-

szat (webbányászat) stb. vázlatos szerepét.


136

13. KIEGÉSZÍTÉSEK

13.1 IRODALOMJEGYZÉK

13.1.1 Hivatkozások

Könyv

DÖMÖLKI BÁLINT (szerk.): Égen-földön informatika. Az információs társadalom technikai

távlatai. Tanulmánykötet. Bp., Typotex, 2008.

GEOszkóp. Médiatúladagolás? GEO. A világot felfedezni és megérteni. 2010.június p. 14.

GOTTDANK TIBOR: Szemantikus web. Bevezetés a tudásalapú internet világába. Bp.,

Computerbooks, 2005.

KISZL PÉTER: Üzleti információ, céginformáció és a könyvtárak. Bp., ELTE, 2005.

KOVÁCS JÁNOS: Interneten a középkori oklevelek. In.: Heves megyei Hírlap 2010. május

13. 5. oldal

MIKULÁS GÁBOR (SZERK.): Információból üzleti érték. Magyar Információbrókerek

Egyesülete. Bp., MIBE, 2006.

MISKI GÁBOR: Adatbányászat – közérthetően.In.: ItBusiness 2010. április 6. 10. oldal

UNGVÁRY RUDOLF – VAJDA ERIK: Könyvtári információkeresés. Bp., Typotex, 2002.

Elektronikus dokumentumok, források

A Google története. Webma, analitikus marketing. Cikk elérése:

webmarketing>keresőmarketing tudásbázis>keresők>google története [online

dokumentum] URL:

http://www.webma.hu/Keresomarketing_tudasbazis/Keresok/Google_tortenete.html

(letöltve: 2010. június 10.)

Ady Krisztián: Elindult a Google videokereső szolgáltatása. HWSW Online Informatikai

Hírmagazin. Eco@TECH rovat. 2005. június 28. [online dokumentum]

URL: http://www.hwsw.hu/hirek/29238/elindult-a-google-videokereso-

szolgaltatasa.html (letöltve: 2010. június 10.)

Alexa. The Web Information Company. (online webstatisztikai adatok)

URL: http://www.alexa.com/

Arcfelismerés a weben. Riya. Index.hu, Tech rovat. 2006. május 27. [online dokumentum]

URL: http://index.hu/tech/net/riya2931/ (letöltve: 2009. szeptember 15.)

Bodnár Ádám: A Google babérjaira tör az új kereső, a Cuil. HWSW Online Informatikai

Hírmagazin. Web rovat. 2008. július 28. [online dokumentum]

URL: http://www.hwsw.hu/hirek/36542/cuil_google_web_kereses.html (letöltve:

2009. szeptember 15.)

Boros Klára: Digitális könyvtárak szerepe. Irodalom – internet – napló. 2005. október 13.

[online dokumentum]

http://krono.inaplo.hu/index.php/inter/recenzio/273-digitalis-koenyvtarak-szerepe-

(letöltve: 2010. május 26.)

Csónaki Bogi: Katalogizálás az ókorban. Irodalom – internet – napló. 2009. január 19.

[online dokumentum]

http://www.webma.hu/Webmarketing.html

http://www.webma.hu/Keresomarketing_tudasbazis.html

http://www.webma.hu/Keresomarketing_tudasbazis/Keresok.html


137

URL: http://krono.inaplo.hu/index.php/inter/weblibrary/632-katalogizalas-az-

okorban (letöltve: 2010. május 26.)

Elindult az iGlue szemantikus kereső. Kereső Világ: minden a keresésről, keresőkről.

2009. november 12. [online dokumentum]

URL: http://kereses.blog.hu/2009/11/12/elindult_az_iglue_szemantikus_kereso

(letöltve: 2010. április 23.)

ERIC [online dokumentum]

URL: http://gep.dialog.com/instruction/workbook/2005_labwb_bluesheets.pdf


Google Goggles: lefordítani magyarra a szöveget, amit a mobil kamerája lát. Webisztán.

2010. február 19. [online dokumentum] URL:

http://webisztan.blog.hu/2010/02/19/google_goggles_avagy_leforditani_magyarra_a

_szoveget_amit_a_mobil_kameraja_lat (letöltve: 2010. június 10.)

Google képkeresés – fejlesztés alatt. SEO blog – LONGHAND. Cikkek

keresőoptimalizálásról, tanácsok webfejlesztéshez. [online dokumentum]

URL: http://longhand.hu/google-cikkek/google-kepkereses-fejlesztes-alatt.php


Google Scholar szócikk. Wikipédia. A szabad enciklopédia. [online dokumentum]

URL: http://hu.wikipedia.org/wiki/Google_Scholar (letöltve: 2010. április 10.)

Google szemantikus keresés. Webma, analitikus marketing. Cikk elérése:

webmarketing>keresőmarketing tudásbázis>keresők [online dokumentum]

URL:

http://www.webma.hu/Keresomarketing_tudasbazis/Keresok/Google_szemantikus_

kereses.html (letöltve: 2010. március 25.)

Google Unviersal Search. Webma, analitikus marketing. Cikk elérése:

webmarketing>keresőmarketing tudásbázis>keresők>google universal search

[online dokumentum] URL:

http://www.webma.hu/Keresomarketing_tudasbazis/Keresok/Google_Universal_Sea

rch.html (letöltve: 2010. június 10.)

Google webcímtár. [online dokumentum]

URL: http://www.google.com/Top/World/Magyar/Tudomány/ (letöltve: 2010.

április 10.)

Google: valós idejű keresés magyarul is. HVG.hu IT/Tudomány rovat. 2010. március 19.

[online dokumentum]

URL: http://hvg.hu/Tudomany/20100319_google_valos_ideju_kereses (letöltve:

2010. június 10.)

Google: valós idejű keresés magyarul is. HVG.hu, IT tudomány rovat. 2010. március 19.

[online dokumentum]

URL: http://hvg.hu/Tudomany/20100319_google_valos_ideju_kereses (letöltve:

2010. április 10.)

Jároli József: Metakeresők. [online dokumentum]

http://webni.innen.hu/SzabadszavasKeres_c5_91k

Katalógusok. Országos Széchényi Könyvtár [online dokumentum] URL:

http://www.oszk.hu/hun/konyvtar/szervfel/kulongy/zenemutar/zenemutar_katal_hu.

htm (letöltve: 2010. június 7.)

Magyar Elektronikus Könyvtár (MEK). URL: www.mek.hu

http://webisztan.blog.hu/2010/02/19/google_goggles_avagy_leforditani_magyarra_a_szoveget_amit_a_mobil_kameraja_lat







http://hvg.hu/Tudomany

http://hvg.hu/Tudomany/20100319_google_valos_ideju_kereses


138

Netbusiness Europe: Online marketing szótár [online dokumentum]

URL: http://www.netbusinesseurope.com/online-marketing-szotar

Online adatbázisok. [online dokumentum]

URL: http://www.baf.hu/guglesz/data/html/dbase.html (letöltve: 2010. május 15.)

Startlap termék. Sanoma Media. Cikk elérése: Termékek/Új média/Startlap. [online

dokumentum]

URL: http://www.sanomamedia.hu/termekek/startlap_hu/4978/?fid=391 (letöltve:

2010. június 12.)

Startlap.hu. [online dokumentum] URL: keresogepek.lap.hu

STING: Elérhető a Google új keresőindexe, a Caffeine. PC Fórum – On-line Informatikai

Magazin. [online dokumentum].

URL:

http://pcforum.hu/hirek/12057/Elerheto+a+Google+uj+keresoindexe+a+Caffeine.ht

ml (letöltve: 2010. június 9.)

Sting: Már képes az arcokat is felismerni a Facebook. PC Fórum – On-line Informatikai

Magazin. 2010. július 5. [online dokumentum]

URL:

http://pcforum.hu/hirek/12108/Mar+kepes+az+arcokat+is+felismerni+a+Facebook.h

tml (letöltve: 2010. május 11.)

Szakadát István: Keresőrendszerek a weben. [online dokumentum]

URL: http://mokk.bme.hu/archive/keres_pki_2003/pdf (letöltve: 2010. március 10.)

Szemantikus e-dosszié: metainformációk kinyerését és ontológiai alapú kezelését lehetővé

tevő, elektronikusan hiteles dossziékat kezelő rendszer fejlesztése. [online

dokumentum]

URL: http://www.scriptum.hu/static/edosszie.html (letöltve: 2010. május 15.)

The Free Dictionary by Farlex. [online dokumentum]

URL: http://encyclopedia.thefreedictionary.com

Tószegi Zsuzsanna: A hazai digitális könyvtárak szerepe a kulturális örökség

digitalizálásában és hozzáférhetővé tételében. Tudományos és műszaki tájékoztatás.

Könyvtár- és információtudományi szakfolyóirat. 49. évfolyam (2002) 4. szám

[online dokumentum]

URL: http://tmt.omikk.bme.hu/show_news.html?id=611&issue_id=40 (letöltve:

2010. június 15.)

Új tudományos kereső a Google-től. Index.hu, Tech rovat. 2004. november 23. [online

dokumentum]

URL: http://index.hu/tech/net/scholar1123/ (letöltve: 2010. június 1.)

Ungváry Rudolf – Vajda Erik: Az információkeresés szavai. Tudományos és Műszaki

Tájékoztatás. Könyvtár és információtudományi szakfolyóirat. 50. évfolyam (2003)

12. szám [online dokumentum]


2010. június 14.)

Ungváry Rudolf-Vajda Erik: Könyvtári információkeresés. Typotex, 2002. Kempelen

Farkas Digitális Tankönyvtár. Könyvek/Könyvtártudomány/Könyvtári

információkeresés [online dokumentum]

URL: http://www.tankonyvtar.hu/konyvtartudomany/konyvtari-080905-13 (letöltve:

2010. május 5.)

http://tmt.omikk.bme.hu/issue.html?issue_id=452


139

Zubreczki Dávid: A Google mint tudományos kereső. Tudományos és műszaki

tájékoztatás. Könyvtár- és információtudományi szakfolyóirat. 51. évfolyam (2004)

7. szám [online dokumentum]


2010. április 10.)

13.1.2 Külső URL hivatkozások

1. Altavista: http://altavista.com ............................................................................... 22

2. Startlap: startlap.hu ............................................................................................... 25

3. Google: google.hu ................................................................................................. 25

4. Yahoo!: yahoo.com ............................................................................................... 25

5. Altavizsla: altavizsla.hu (jelenleg működése bizonytalan) ................................... 25

6. Ungváry Rudolf-Vajda Erik: Könyvtári információkeresés:

http://www.tankonyvtar.hu/konyvtartudomany/konyvtari-080905-13 ................. 25

7. Startlapon: keresogepek.lap.hu ............................................................................. 25

8. Startlapon: kereso.lap.hu....................................................................................... 25

9. Kereső Világ blogon: kereses.blog.hu .................................................................. 25

10. Miner vertikális kereső: http://miner.hu ............................................................... 26

11. A MiniRank Magyarországi listája: http://www.minirank.com/tld/hu/0 .............. 29

12. Az Alexa listája a világ honlapjait tekintve: http://www.alexa.com/topsites ....... 30

13. A Heuréka kereső www.heureka.hu ..................................................................... 39

14. www.rovidites.hu: http://rövidítés.hu/ .................................................................. 48

15. A Morphologic cég szótár és webfordító szolgáltatása: http://webfordítás.hu ..... 55

16. A SZTAKI webszótára: http://dict. sztaki.hu. ...................................................... 55

17. Ariadnet metakereső: http://ariadnet.hu ................................................................ 78

18. PolyMeta metakereső: http://polymeta.hu ............................................................ 80

19. Startlap: kereso.lap.hu........................................................................................... 86

20. http://www.myheritage.hu/hiressegek .................................................................. 90

21. http://www.pictriev.com/facedb/fs2.php .............................................................. 90

22. http://www.avinashtech.com/hu/internet/search-similar-faces-web-face/ ............ 90

23. Magyarország első honlapja:

http://www.fsz.bme.hu/hungary/homepage_h.html .............................................. 91

24. Településkereső: www.telepuleskereso.hu ........................................................... 91

25. Utcakereső: utcakereso.hu .................................................................................... 91

26. Google Maps (bármilyen földrajzi egység kereshető): maps.google.com ............ 92

27. Google Maps (Magyarországra fókuszálva): www.terkep.google.hu .................. 92

28. Jó tudni: www.jotudni.hu...................................................................................... 97

29. Linkpark 2005-től: http://www.linkpark.hu/......................................................... 97

30. Port.hu: http://port.hu ............................................................................................ 97

31. HUDIR (www.hudir.hu) általános témájú kereső ................................................. 98

32. STARTLAP (www.lap.hu) általános témájú kereső ............................................. 98

33. RIGHRHEALTH (www.righthealth.com/ ) egészségügyi tematikus kereső. ...... 98

34. GOLIAT (www.goliat.hu) .................................................................................... 98

35. YAHOO (www.yahoo.com) ................................................................................. 98



http://tmt.omikk.bme.hu/show_news.html?id=3663&issue_id=452


140

36. Neumann-ház oldala: http://www.neumann-haz.hu ............................................. 99

37. (http://directory.wyw.hu/Internet/Katalogusok_Linkek/) ..................................... 99

38. http://www.hun-web.hu/Internet/Linkgyujtemenyek/ .......................................... 99

Documents

INTERNETES KERESRENDSZEREK MK ÖDÉSE · nek, azokat mindenképpen érdemes a gyakorlatban is megtekintenie. A példák mellett a hallgatónak szükséges az új, a jegyzetben nem