Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
Bóta László
MÉDIAINFORMATIKAI KIADVÁNYOK
INTERNETES KERESŐRENDSZEREK
MŰKÖDÉSE
Bóta László
Eger, 2011
Lektorálta:
CleverBoard Interaktív Eszközöket és Megoldásokat Forgalmazó és Szolgáltató Kft.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával
valósul meg.
Felelős kiadó: dr. Kis-Tóth Lajos
Készült: az Eszterházy Károly Főiskola nyomdájában, Egerben
Vezető: Kérészy László
Műszaki szerkesztő: Nagy Sándorné
Kurzusmegosztás elvén (OCW) alapuló informatikai curriculum és SCORM kompatibilis
tananyagfejlesztés Informatikus könyvtáros BA, MA lineáris képzésszerkezetben
TÁMOP-4.1.2-08/1/A-2009-0005
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
5
Tartalom
1. Bevezetés ..................................................................................................................... 11
1.1 Célkitűzés ........................................................................................................ 11 1.2 A kurzus tartalma ............................................................................................ 11 1.3 A kurzus tömör kifejtése ................................................................................. 11 1.4 Kompetenciák és követelmények .................................................................... 11 1.5 Tanulási tanácsok, tudnivalók ......................................................................... 12
2. Információ szolgáltató eszközök fejlődése a könyvtáros szakmában .................... 13
2.1 Célkitűzés ........................................................................................................ 13 2.2 Tartalom .......................................................................................................... 13 2.3 A tananyag kifejtése ........................................................................................ 13
2.3.1 Az információfeltáró eszközök története ............................................ 13 2.3.2 A könyvtári adatbázisok típusai .......................................................... 18 2.3.3 Az információfeltárás intellektuális eszközei ..................................... 19 2.3.4 Az információfeltárás informatikai háttere ......................................... 21 2.3.5 Az online tájékoztatás jellemzői ......................................................... 22 2.3.6 Az információfeltárás új eszközei ....................................................... 23
2.4 Összefoglalás................................................................................................... 26 2.5 Önellenőrző kérdések ...................................................................................... 26
3. A keresőszolgáltatásokkal kapcsolatos alapismeretek ............................................ 27
3.1 Célkitűzés ........................................................................................................ 27 3.2 Tartalom .......................................................................................................... 27 3.3 A tananyag kifejtése ........................................................................................ 27
3.3.1 A webes adatelérés története ............................................................... 27 3.3.2 Keresőrendszer fogalma ...................................................................... 28 3.3.3 Webes keresőszolgáltatások ................................................................ 29 3.3.4 Webes keresőszolgáltatások osztályozása ........................................... 31 3.3.5 Rejtett web .......................................................................................... 34 3.3.6 Az online hálózati keresés közvetített módszertana ............................ 34 3.3.7 A keresés önkiszolgálás modellje ....................................................... 35 3.3.8 Napjaink népszerű keresőrendszerei ................................................... 35 3.3.9 Keresés a jövőben ............................................................................... 36
3.4 Összefoglalás................................................................................................... 36 3.5 Önellenőrző kérdések ...................................................................................... 36
4. Keresőrobotok ............................................................................................................ 37
4.1 Célkitűzés ........................................................................................................ 37 4.2 Tartalom .......................................................................................................... 37 4.3 A tananyag kifejtése ........................................................................................ 37
4.3.1 A keresőrobotok története ................................................................... 37 4.3.2 A keresőrobotok fogalma .................................................................... 38 4.3.3 A keresőrobotok működése ................................................................. 39
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
6
4.3.4 Miért a Google a vezető indexelt kereső? ........................................... 41 4.3.5 PageRank algoritmus .......................................................................... 42 4.3.6 A PageRank képlete ............................................................................ 43 4.3.7 A keresőoptimalizálás ......................................................................... 45
4.4 Összefoglalás................................................................................................... 46 4.5 Önellenőrző kérdések ...................................................................................... 46
5. A kulcsszavas keresés technikái ................................................................................ 47
5.1 Célkitűzés ........................................................................................................ 47 5.2 Tartalom .......................................................................................................... 47 5.3 A tananyag kifejtése ........................................................................................ 47
5.3.1 Az online keresés jelentősége ............................................................. 47 5.3.2 Kulcsszavas keresés ............................................................................ 48 5.3.3 Online keresés lépései ......................................................................... 48 5.3.4 Az 1. lépés: a keresőkérdés értelmezése ............................................. 48 5.3.5 A 2. lépés: a keresőfelület kiválasztása ............................................... 49 5.3.6 A 3. lépés: A keresőkérdés összeállítása ............................................. 52 5.3.7 A 4-5. lépés: Stratégia és válasz .......................................................... 53 5.3.8 Keresés és szimbólikus logika ............................................................ 53 5.3.9 Online keresési stratégiák ................................................................... 59
5.4 Összefoglalás................................................................................................... 63 5.5 Önellenőrző kérdések ...................................................................................... 63
6. Google, mint kereső eszköz ........................................................................................ 64
6.1 Célkitűzés ........................................................................................................ 64 6.2 Tartalom .......................................................................................................... 64 6.3 A tananyag kifejtése ........................................................................................ 64
6.3.1 A Google keresőrobot háttértörténete ................................................. 64 6.3.2 A Google indexelő része ..................................................................... 66 6.3.3 Kucsszavas keresési alapok................................................................. 68 6.3.4 Összetett kulcszsvas keresés ............................................................... 70 6.3.5 Vertikális Google keresők ................................................................... 75 6.3.6 Legyőzni a Google-t ............................................................................ 77 6.3.7 Google, mint a jövő ............................................................................. 78
6.4 Összefoglalás................................................................................................... 79 6.5 Önellenőrző kérdések ...................................................................................... 79
7. Metakeresők ................................................................................................................ 80
7.1 Célkitűzés ........................................................................................................ 80 7.2 Tartalom .......................................................................................................... 80 7.3 A tananyag kifejtése ........................................................................................ 80
7.3.1 Metakeresők bemutatása ..................................................................... 80 7.3.2 Metakeresők csoportosítása ................................................................ 81 7.3.3 Idegen nyelvű metakeresők ................................................................. 82 7.3.4 Az Ariadnet bemutatása ...................................................................... 83 7.3.5 Az Ariadnet használata ....................................................................... 84 7.3.6 Az Ariadnet keresőmotor .................................................................... 85
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
7
7.3.7 A PolyMeta bemutatása ...................................................................... 86 7.3.8 A PolyMeta keresőmotor .................................................................... 86 7.3.9 A Miner bemutatása ............................................................................ 88 7.3.10 A Miner keresőmotor .......................................................................... 89 7.3.11 Egyéb magyar metakeresők ................................................................ 90
7.4 Összefoglalás................................................................................................... 90 7.5 Önellenőrző kérdések ...................................................................................... 90
8. Speciális keresők ......................................................................................................... 91
8.1 Célkitűzés ........................................................................................................ 91 8.2 Tartalom .......................................................................................................... 91 8.3 A tananyag kifejtése ........................................................................................ 91
8.3.1 A speciális keresők előnyei a könyvtáros számára ............................. 91 8.3.2 Vertikális magyar indexelt keresők ..................................................... 91 8.3.3 Tudományos keresők .......................................................................... 92 8.3.4 Termékkeresők .................................................................................... 94 8.3.5 Felhasználói vélemények keresése ...................................................... 95 8.3.6 Kép- és mozgókép keresők ................................................................. 95 8.3.7 Személykeresők, cégkeresők, településkeresők .................................. 96 8.3.8 Tudástárak ........................................................................................... 97 8.3.9 Humán alapú keresők .......................................................................... 98
8.4 Összefoglalás................................................................................................. 100 8.5 Önellenőrző kérdések .................................................................................... 100
9. Katalógusok .............................................................................................................. 101
9.1 Célkitűzés ...................................................................................................... 101 9.2 Tartalom ........................................................................................................ 101 9.3 A tananyag kifejtése ...................................................................................... 101
9.3.1 Az internetkatalógus fogalma ........................................................... 101 9.3.2 Horizontális katalógusok ................................................................... 102 9.3.3 Vertikális katalógusok ....................................................................... 103 9.3.4 Digitális könyvtárak .......................................................................... 103 9.3.5 Magyar Elektronikus Könyvtár (MEK) ............................................ 104 9.3.6 Neumann ház és a Webcat ................................................................ 104
9.4 Összefoglalás................................................................................................. 105 9.5 Önellenőrző kérdések .................................................................................... 105
10. Szemantikus web ...................................................................................................... 106
10.1 Célkitűzés ...................................................................................................... 106 10.2 Tartalom ........................................................................................................ 106 10.3 A tananyag kifejtése ...................................................................................... 106
10.3.1 Tudásmenedzsment, tudásprezentáció .............................................. 106 10.3.2 A szemantikus web ........................................................................... 108 10.3.3 A szemantikus web üzleti oldalról .................................................... 111 10.3.4 Ontológia ........................................................................................... 112 10.3.5 Az RDF ontológia fogalma ............................................................... 114 10.3.6 Webszolgáltatások ............................................................................ 114
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
8
10.3.7 Tématérképek és RDF ....................................................................... 115 10.3.8 Az RDF ontológia ............................................................................. 116 10.3.9 Az RDFS ontológia ........................................................................... 117 10.3.10 OWL (Web Ontology Language)...................................................... 118
10.4 Összefoglalás................................................................................................. 123 10.5 Önellenőrző kérdések .................................................................................... 123
11. Intelligens rendszerek .............................................................................................. 124
11.1 Célkitűzés ...................................................................................................... 124 11.2 Tartalom ........................................................................................................ 124 11.3 A tananyag kifejtése ...................................................................................... 124
11.3.1 Üzleti intelligencia ............................................................................ 124 11.3.2 Üzleti intelligencia az információellátás folyamatában .................... 125 11.3.3 Az üzleti intelligencia és a könyvtár ................................................. 126 11.3.4 Az üzleti intelligencia jövője ............................................................ 126 11.3.5 Adatbányászat ................................................................................... 126 11.3.6 Az adatbányászat irányzatai .............................................................. 128 11.3.7 Az iteratív folyamat .......................................................................... 128 11.3.8 Webbányászat ................................................................................... 129 11.3.9 Szövegbányászat ............................................................................... 131
11.4 Összefoglalás................................................................................................. 132 11.5 Önellenőrző kérdések .................................................................................... 132
12. Összefoglalás ............................................................................................................. 133
12.1 A kurzusban kitűzött célok összefoglalása .................................................... 133 12.2 Tartalmi összefoglalás ................................................................................... 133 12.3 A tananyagban tanultak részletes összefoglalása .......................................... 133
12.3.1 Információ szolgáltató eszközök fejlődése a könyvtáros
szakmában ................................................................................................. 133 12.3.2 A keresőszolgáltatások alapismeretei ............................................... 133 12.3.3 A kulcsszavas keresés technikái ........................................................ 134 12.3.4 Google, mint kereső eszköz .............................................................. 134 12.3.5 Keresőrobotok ................................................................................... 134 12.3.6 Metakeresők ...................................................................................... 134 12.3.7 Speciális keresők ............................................................................... 134 12.3.8 Katalógusok ...................................................................................... 134 12.3.9 Szemantikus web ............................................................................... 135 12.3.10 Intelligens rendszerek ....................................................................... 135
13. Kiegészítések ............................................................................................................. 136
13.1 Irodalomjegyzék ............................................................................................ 136 13.1.1 Hivatkozások ..................................................................................... 136 13.1.2 Külső URL hivatkozások .................................................................. 139
14. Ábrajegyzék .............................................................................................................. 141
15. Médiaelemek ............................................................................................................. 143
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
9
16. Tesztek ....................................................................................................................... 144
16.1 Próbateszt ...................................................................................................... 144 16.2 Záróteszt A. ................................................................................................... 148 16.3 Záróteszt B. ................................................................................................... 152 16.4 Záróteszt C. ................................................................................................... 156
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
11
1. BEVEZETÉS
1.1 CÉLKITŰZÉS
A kurzus célja, hogy megismertesse a hallgatókat az interneten fellelhető adatok kere-
sésének lehetőségeivel, az online keresés alapvető fogalmaival, a webes keresőszolgáltatá-
sok, azon belül a webes keresőrendszerek működési mechanizmusával, a felhasználói felü-
let felépítésével.
A tantárgy kiemelten kezeli az online keresés adekvát eszközének kiválasztását, rámu-
tatva arra milyen esetben, és miként érdemes igénybe venni az internetes keresést. Kiemelt
figyelmet kap a keresés korszerű, a könyvtáros szakemberek számára nélkülözhetetlen
ismeretet jelentő, tudásalapú internet tárgyalása az online keresés vonatkozásában.
A jelenlegi és a jövő technológiáit egy bizonyos határig szükséges megmutatni, ugyan-
akkor nem szerepelnek a tananyagban mély informatikai ismeretek. Cél továbbá a techno-
lógiák várható hatásainak ismertetése, hiszen a folyamatos és gyors változás miatt a hallga-
tóknak néhány év után már egy egészen más közegben kell kiszolgálniuk a könyvtár
látogatóit.
1.2 A KURZUS TARTALMA
2. Információ szolgáltató eszközök fejlődése a könyvtáros szakmában
3. A keresőszolgáltatásokkal kapcsolatos alapismeretek
4. A kulcsszavas keresés technikái
5. Google, mint kereső eszköz
6. Keresőrobotok
7. Metakeresők
8. Speciális keresők
9. Katalógusok
10. Szemantikus web
11. Intelligens rendszerek
1.3 A KURZUS TÖMÖR KIFEJTÉSE
A jegyzet gerincét az internetes keresőrendszerek széles közösség által használt részé-
nek leírása alkotja. A jegyzetben a hallgató megismeri a keresőrendszerek kapcsolatát a
könyvtári tájékoztatással, a mai keresők fajtáit, azok használatát, működési mechanizmusa-
it, valamint kitekintést nyújt a következő évtizedek várható technológiai változásaira.
1.4 KOMPETENCIÁK ÉS KÖVETELMÉNYEK
Megérti a hallgató a könyvtári információ feltárás eddigi szakaszait, nehézségeit, fejlő-
dését, tisztában lesz a keresés új tendenciáival, valamint eszközeivel.
A hallgató képes lesz a kurzus elsajátítása után a webes keresőrendszerek előnyeinek
figyelembe vételével a keresőkérdéshez a megfelelő keresési stratégiát kidolgozni, az on-
line kereső szolgáltatásokat kiválasztani. A konkrét keresők használatával tisztában lesz,
képes lesz azok kezelésére, valamint az összetett keresőkérdés kialakítására.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
12
A hallgató megtanulja a jövő évtized várható változásait a keresési technológiában, ké-
pessé válik a későbbiekben bekövetkező változások nyomon követésére.
1.5 TANULÁSI TANÁCSOK, TUDNIVALÓK
A leckék teszőleges sorrendben dolgozhatók fel, bár az első két lecke alapozó jellegű,
de az előzetes ismeretek birtokában bármelyik lecke feldolgozható a többi nélkül is. A
leckék legtöbbjénél a hallgató próbáljon meg a példákhoz újabbakat keresni, mivel így lesz
képes a keresőrendszerek összehasonlítására, ugyanakkor a példák önmagukban értéktele-
nek, azokat mindenképpen érdemes a gyakorlatban is megtekintenie.
A példák mellett a hallgatónak szükséges az új, a jegyzetben nem szereplő keresési le-
hetőségeket is megnéznie, erre azért kell képesnek lennie, mert az itt leírtak csak 2010-ben
maradéktalanul aktuálisak. Az utolsó két lecke jövőbe mutató, azok témakörein el kell
gondolkodnia, bár hozzá kell tenni a szemlélet kialakításának kedvéért, hogy a hallgató
tanulmányai alatt nem, de munkája során valószínűleg találkozik azokkal.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
13
2. INFORMÁCIÓ SZOLGÁLTATÓ ESZKÖZÖK FEJLŐDÉSE A
KÖNYVTÁROS SZAKMÁBAN
2.1 CÉLKITŰZÉS
A könyvtáros szakma információszolgáltató eszközeinek megismerése, átalakulásának
nyomon követése. A hallgató megtanulja, hogy az információkeresés és -szolgáltatás esz-
köze, lehetősége, tárgya, módszere állandóan változik, ugyanakkor a korábbi, hagyomá-
nyos apparátus egyes elemei részben megmaradnak, és a korszerű rendszerek kisebb-
nagyobb mértékben azokra építenek.
2.2 TARTALOM
Az információfeltáró eszközök története
Könyvtári adatbázisok típusai
Az információfeltárás intellektuális eszközei
Az információfeltárás informatikai háttere
Az online tájékoztatás jellemzői
Az információfeltárás új eszközei
2.3 A TANANYAG KIFEJTÉSE
2.3.1 Az információfeltáró eszközök története
A feltárás hagyományos eszközei
A régi korok emberéhez ugyan a mainál jeletősen kevesebb információ jutott el, ennek
ellenére már az ókortól beszélhetünk azinformáció rendszerezésének igényéről, nyilvánva-
lóan a későbbi hozzáférés megkönnyítése érdekében.
Az ókorból teljes egészében egyetlen könyvtári szakrendszer sem maradt fenn, de kata-
lógustöredékek alapján mégis nyerünk némi betekintést. A sumér fővárosnak, Ur város-
ának romjai között találták meg a legrégebbi ékírásos emléket. A sumérok égetett agyag-
táblákból készítették „könyveiket”.
A világ első könyvtári katalógusát Ninivében találtak meg. Az első rekonstruálható
ókori könyvtár az asszír birodalom uralkodójának, Asszurbanipálnak agyagtábla-gyűjte-
ménye volt. A könyvtár katalógusa két részből állhatott, az egyik a szerzői, míg a másik a
szakrendi felsorolást tartalmazta, az agyagtáblákat témakörök szerinti csoportosították.
Az ókori görög filozófusok nemcsak könyvgyűjtéssel foglalkoztak, hanem jelentős sze-
repük van az osztályozással kapcsolatos alapelvek kialakításában. Példaként említhető
Platón „hármas tudományfelosztása”, melyet a lelki képességekre alapozva vázolt fel: dia-
lektika-értelem, fizika-érzékelés, etika-érzelem és akarat. Ez a hármas felosztás nagy ha-
tással volt a tudományok osztályozására. Arisztotelész tudományfelosztása Platón gondola-
tain alapszik, de azt részletesebben tagolja, csoportosítja. Osztályozása alapjául a
tudomány célját emelve ki, elméleti és gyakorlati tudományokat különböztetett meg.
Az alexandriai könyvgyűjtemény megteremtését az ókori könyvtártörténet legjelentő-
sebb eseményének tekinthetjük a rendszerezés szempontjából is. A gyűjtemény kb.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
14
700 000 papirusztekercset tartalmazhatott. Az alexandriai gyűjtemény vezetését a tudo-
mány fő embereire bízták, elsőként a grammatikus-filológusra, az epheszoszi Zenodo-
toszra, ő kezdte meg a könyvállomány rendezését.
A történelem első, név szerint ismert könyvtárosa Kallimakhosz volt (i.e. 310–240), aki
Pinaches (táblácskák) címmel katalógust készített. Anyagát két fő csoportra osztotta: köl-
tőkre és prózaírókra. Ezeken belül hat-hat alcsoportot állapított meg aszerint, hogy az adott
szerző mely műfajban jeleskedett (pl. elégikusok, szatírikusok, epikusok, illetve történet-
írók, filozófusok, orvosok stb.). A leíró katalogizálás módszereinek kialakulása szempont-
jából is kiemelkedő jelentőségű Kallimakhosz műve: felvette a könyvek szerzőjének nevét,
címét, megadta a terjedelmet. Az egyes szerzőkről életrajzi adatokat is közölt. A Pinaches
hosszú ideig az ókor későbbi bibliográfiáinak alapjául szolgált.
A történeti vonatkozásokat az évszázadokon keresztül hosszasan lehetne még sorolni,
lépjünk előre az időben, és következzen egy jelentős mérföldkő, a papír alapú katalógusok
széles kürű elterjedése. A papír alapú katalógusok közül elsőként kötetkatalógust használ-
tak, majd ezt követte a cédulakatalógus. Azóta ugyan mindkettő penetrációja, így szerepe
is folyamatosan csökkent, de még 2000 után találunk példát az alkalmazásukra. A cédula-
katalógus az 19. század végén vált a könyvtárakban a másodlagos információk feltárásának
és keresésének fő eszközévé, és ezt a szerepet az 1990-es évekig töltötte be, de egyes kis-
könyvtárak a mai napig ezt használják. A cédulakatalógus egy-egy könyvtár állományát
tükröző szurrogátumok rendszerezésére, azon keresztül az állomány rendszerezett áttekin-
tésére szolgálnak, szerkesztésének szabványai 1980–86 között jelentek meg.
A katalógusok használatának szabályaival sokan, többek között elsőként az ókori görö-
gök is foglalkoztak. Példaként tekintsük át Cutter (1876) megfogalmazásában a katalógu-
sok alapján történő keresés elveit:
− tegye lehetővé, hogy az olvasó megtaláljon egy könyvet, amelynek a szerzője, a
címe, a tárgya ismert,
− mutassa meg a felhasználónak, hogy a könyvtár milyen dokumentummal rendelke-
zik: adott szerzőtől, meghatározott témában, és egy bizonyos irodalomban,
− segítsen az olvasónak egy könyv kiválasztásában annak bibliográfiai, tartalmi jel-
lemzői szerint.
Ma az online keresés alapelvei hasonlóak, ugyanis ma is keresünk konkrét elektronikus
dokumentumot, objektumot ismert adatok alapján, valamint keressük a dokumentumok,
objektumok listáját egy témakörrel kapcsolatban. Az információkresés formai szempontjai-
ról a Bibliográfiai adatfeldolgozás tanegységen belül, míg a tartalmi szempontjairól az
Információkereső nyelvek (IKNY) tanegység keretében tanultak részletesebben.
Feltárás mágnesszalagon tárolt adatbázisból
A mai adatbázisok történeti előzményei az egy-egy szakterület primér irodalmát feldol-
gozó, bibliográfiai-referáló folyóiratokra épülő adatbázisok, amelyek a kezdetektől fogva
kereskedelmi vállalkozásokként indultak az 1960-as években.
Az adatbázis a számítógépes adatfeldolgozó rendszer működé-
séhez szükséges, egymással logikai kapcsolatban levő adatok szer-
vezett halmaza. Segítségével összetett szerkezetű adatmodellt való-
síthatunk meg.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
15
A mágnesszalagos bibliográfiai adatcsereformátum szabványa (ISO 2709) 1973-ban,
míg az ezen alapuló magyar szabvány 1983-ban jelent meg. Az adatbázisok egyedi nevet
kaptak, ami egyértelművé tette a keresés lehetőségeit.
Példa:
Chemical Abstracts – CAS, ERIC. A referáló lapok többségét már számítógéppel állí-
tották elő, és innen már csak egy lépés volt, hogy egy-egy referátum adataiból és a hoz-
zá kapcsolódó információkeresést segítő keresőnyelvi eszközökből kialakuljanak a re-
kordok, a referáló lapok számítógépes változataiból az adatbázisok. Elsőként az
American Chemical Society referálólapja, a Chemical Abstracts (1961-től) és a Natio-
nal Library of Medicine (Bethesda, Wa.) Index Medicusa (1963-tól) éltek az új techni-
kai lehetőséggel.
Adatbázisokat a könyvtári munka könnyítése érdekében készítettek, és az adatbázisok
neve volt kiemelt jelentőségű. Ejtsünk néhány szót végre magáról a keresésről is. Az adat-
bázisokban való keresés jellemzői a mai szemmel nézve igen sajátosak a kezdeti mágnes-
szalagos adattárak közvetített kereséséhez képest. A felhasználó ugyanis a keresésben köz-
vetlenül nem vett részt. A keresést a professzionális kereső szakemberek végezték el, ők
fogalmazták meg a keresőkérdést.
A keresőkérdés a felhasználó eredeti, feltett kérdésének a számí-
tógépes keresőrendszer szintaktikája szerint átírt karakterlánca. A
keresőkérdés lehet egyszerű vagy összetett.
Kezdetben a keresőprogram számára kezelhető formában át-
alakított, természetes nyelvű keresőkérdést a keresőprofil jelentet-
te, de napjainkban a keresőkérdéshez társítjuk ezt a jelentést. Ösz-
szetett keresőkérdés beírásakor általában több szót adunk meg, és
Boole-operátorokkal (logikai operátorokkal) kapcsoljuk össze a ke-
resőkérdés szavait. Az összetett keresés számos könyvtári rend-
szerben parancsszavas formában történik (például CCL nyelven).
A keresőprofil használatát az adatbázisok specifikus, bonyolult, elágazó, paranccsal
vagy menüvel vezérelt keresőrendszerei indokolták, illetve az, hogy a gépidő és a hálózati
kapcsolódás igen drága volt. A keresőprofil szerkesztése a felhasználó által megadott
szempontok alapján, a megfelelő segédeszközök (tárgyszójegyzékek, tezauruszok stb.),
parancsnyelv és kereséstechnikai eszközök (Boole-operátorok, csonkolás stb.) segítségével
történt. Ezt a keresőprofilt hasonlította össze a gép az adatbázisban levő dokumentumok
profiljával. A gyakorlatias olvasók számára íme egy konkrét segédlet a keresőprofil össze-
állításához: http://gep.dialog.com/instruction/workbook/2005_labwb_bluesheets.pdf.
Az offline mágnesszalagos adatszolgáltatások a szelektív információterjesztés (SDI)
leggyakribb példáinak minősültek. A beszerzett mágnesszalagok alapján a szelektív infor-
mációterjesztési rendszer munkafolyamatai a következők voltak: a szolgáltatás szervezése,
infrastruktúraépítés, az információk számítógépes szelektálása, a felhasználók kiértesítése,
a találatok értékelése, a felhasználókkal való folyamatos kapcsolattartás, és igény esetében
dokumentumok, másolatok szolgáltatása.
E szolgáltatási formának alapvető szerepe volt a nemzetközi információcsere szabvá-
nyosításában, az egységes szabványos rekordszerkezetek használatában, a szolgáltatási
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
16
rendszerkoncepció elterjesztésében. Az 1970-es években Magyarországon 25 mágnessza-
lagos szolgáltatás honosodott meg (pl. Veszprémi Vegyipari Egyetem Központi Könyvtá-
ra, OMIKK).
A matematikai logikai alapokon nyugvó, adatbázisban történő keresés az adatbázis-
kezelő rendszerek része volt, magát a keresést különösebben nem írták körül, hiszen maga
az adatbázis csak a keresővel együtt használható, vagyis az adott adatbázishoz egy kereső
volt, és az általában csak egy adatbázisban tudott keresni.
1. kép Az információfeltárás eszközeinek fejlődése
Feltárás mágneslemezen és optikai tárolón rögzített adatbázisból
Az 1980-as évek második felében hazánkban is megjelentek a CD-ROM-os adatbázis-
ok, volt olyan, amelyet például témafigyelésre alkalmaztak (lásd MTA). A témafigyelséhez
kapcsolódó példa a PRESSDOK, ami az Országgyűlési Könyvtár hazai politikai, gazdasági
és részben jogi témájú sajtófigyelése. Másik példa a HUNDOK, ahol az Országgyűlési
Könyvtár állományában megtalálható, hozzávetőleg 50 mértékadó külföldi sajtóorgánum
Magyarországról szóló cikkeinek gyűjteménye.
Az 1990-es években bontakozott ki a helyi hálózaton keresztül történő keresés, és meg-
jelentek a weben az online könyvtári katalógusok (OPAC).
Az online szolgáltatások az ezredfordulóra erőteljes fejlődésnek indultak. Online háló-
zati szolgáltatóközpontok jöttek létre, amelyek biztosították az online adatbázisok hálózati
használatát. A szolgáltatók (pl.: Dialog, DataStar, STN) a szolgáltató-központokban ret-
rospektív adatbázis építés folytattak, ezekben az adatbázisokban parancsnyelv alapján ke-
restek. Az interneten erősödik az önkiszolgálás, és a keresés technikai eszközei a felhasz-
náló oldalán egyszerűsödnek. Az ezredfordulón a láthatatlan vagy mélységi web keresési
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
17
lehetőségeit tárták fel, ami az altalános, automatikus keresőszolgáltatás által nem indexelt
tartalmakra terjed ki, tehát a weben keresztül lekérdezhető adatbázisok adatainak feltérké-
pezését jelenti. A jövőben az intelligens webes keresés fejlődése várható, melynek elősze-
lei már most is megmutatkoznak. Az utóbbi témákról a későbbiekben részletesen is szó-
lunk.
A fenti gondolatmenet vázlatosan az 1. ábrán látható. Az alsó szaggatott vonal alatt a
papír alapú keresést segítő eszközöket, míg a felső szaggatott vonal felett a keresés ható-
körének, illetve a használók körének érdemi változását láthatjuk. A keresés hatóköre a
formai adatokról áthelyeződik a tartalmi jellemzőkre. A használók köre pedig egy szűk
szakmai réteg (könyvtáros, kutató stb.) helyett egyre inkább hazánk és a világ teljes lakos-
ságának a digitális írástudással rendelkező hányadát jelenti.
A felhasználó szempontjából az adatelérés fokozatosan vált nyitottabbá. A felhasználó
kezdetben csak a keresőkérdést tehette fel, később maga is használhatta az adatbázishoz
kapcsolódó keresőrendszereket. Az internetnek köszönhetően ez kiteljesedett, hiszen az
adatok elképesztően nagy tömegéből az egyes kutatóműhelyek, illetve később a cégek egy
adatbázist készítettek, amelyben lehetett keresni, és ezekre épültek az online keresőrend-
szerek, majd ezek egy része később nyitott keresőszolgáltatássá vált. Az említetteken túl,
az utóbbi évtizedben váltak jelentőssé az automatikus indexelőmotorra épülő általános
keresőszolgáltatások, például a Google, Yahoo, Bing.
Az interneten tárolt információk elérése
Valaha a könyvtárosok a keresőkérdésre informatikusok nélkül nem kaptak volna vá-
laszt, mivel a választ általában csak az adatbázishoz tartozó keresővel kaphatták meg. Az
informatikusok szerepe a későbbikeben háttérbe szorult, és a könytáros közvetlenül keres-
hetett az adatbázisokban. Az interneten fellelhető számos keresőrendszer azonban már nem
egységesen, nem azonos céllal, és időben is eltérő módon használható. Ennek következ-
ménye, hogy az ezredforduló után a könyvtárosok szaktájékoztató eszközei évről évre je-
lentős változáson mennek keresztül, emiatt a hatékony keresés érdekében érdemes elsajátí-
tani, majd állandóan frissíteni a használatukhoz szükséges ismereteket.
Az adatbázisban tárolt és kereshető adatok aktualizálása, frissítése az adatbázisok típu-
sától, illetve a szakterülettől függően változik. Az adatbázisokban először megjelentek a
korábban is használt deszkriptorok, tárgyszavak, de később az ún. szabad keresőszavak
vagy más néven kulcsszavak is rendelkezésre álltak. A keresés igénybe vehető módszerei,
és egyben eszközei az adatbázis keresőfelületén a következők:
− két fokozat: egyszerű keresés, haladó (összetett) keresés,
− böngészés,
− tezaurusz-üzemmód (az adatbázisok számottevő részében).
A jelenlegi webes technológia az állandó átalakulás következtében öt–tíz év távlatában
jelentős mértékben változik, lehetőségei kibővülnek. A hagyományos és számítógépes
technológiák lehetőségeinek kiaknázásával a korszerű könyvtárosi feladatkör kiegészül a
tudásfeltárással. Az átláthatatlanul nagy adattömegben a könyvtárosnak nem csupán egy
releváns információt kell megtalálnia, hanem a lehető legalaposabb információt kell átad-
nia a kívánt mélységig. Ehhez elengedhetetlen az új webes technológiák megismerése, a
web átalakulásának, fejlődésének megértése, és lehetőségeinek gyakorlati készség szintű
elsajátítása.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
18
2.3.2 A könyvtári adatbázisok típusai
A könyvtárakban az adatelérés szemszögéből a legnagyobb változást elsőként az adat-
bázisok jelentették. Adatbázisok nélkül nem beszélhetünk elektronikus keresésről sem. Az
adatbázisokat a szolgáltatott információk szempontjából a Carlos A. Cuadra által kialakí-
tott taxonómia alapján csoportosítjuk. Ez a csoportosítás azért is fontos, mivel az itt felso-
rolt adatbázis-típusok kezdetben meghatározták a keresés tárgyát. Az adatbázisoknak két
jelentős ága ismert: a referensz (másképpen bibliográfiai vagy forrástájékoztató) adatbá-
zisok, valamint a forrás adatbázisok.
Referensz adatbázisok
Jellemző rájuk, hogy az eredeti, elsődleges forrásokra vonatkozó ún. másodlagos in-
formációkat tartalmaznak. A referensz adatbázisoknak két fajtája van: a bibliográfiai adat-
bázisok és a forrástájékoztató adatbázisok.
A bibliográfiai adatbázisok elsődleges forrásai a kiadott vagy meg nem jelentetett do-
kumentumok (könyvek, időszaki kiadványok, folyóiratcikkek, szabadalmak, térképek,
zeneművek stb.). A másodlagos információk a rájuk vonatkozó leírások (bibliográfiai téte-
lek, referátumok, annotációk, tömörítvények stb.).
Példa a bibliográfiai adatbázisokra:
− könyvtári online katalógusok,
− online módon elérhető bibliográfiák (pl.: MNB),
− cikkadatbázisok (pl.: MANCI, PRESSDOK),
− online szakterületi adatbázisok (pl.: ERIC, MEDLINE).
A forrástájékoztató adatbázisok (referral-databases) személyek, szervezetek, szolgálta-
tások, folyó kutatások adatait tartalmazzák és teszik kereshetővé. A bennük található má-
sodlagos információk a forrásokra vonatkozó rekordok (leírások), amelyek alapján azok
elérhetők.
Példa forrástájékoztató adatbázisokra:
− cím- és céginformációs adatok (név- és címtárak, cégkatalógusok), például a KSH
cégnyilvántartása
− telefonkönyvek, pl.: „Arany Oldalak” szakmai telefonkönyv a weben
− termékinformációs adatbázisok, wapon (mobiltelefonon) és CD-ROM-on elérhető
adatbázisok.
Megjegyzés: a könyvtári adatbázisok leírásához használt forrással ellentétben a forrás-
tájékoztató adatbázis fogalma azonos a referensz (bibliográfiai) adatbázissal és tovább nem
bontható. Ez a három kifejezés: referensz-, bibliográfiai-, forrástájékoztató adatbázis
ugyanazt jelenti: csak bibliográfiai adatokat tartalmaz. Forrástájékoztató ugyanis az az
adatbázis, azaz bibliográfiai (referensz) adatbázis, amelyekben csak bibliográfiai adatokat
lehet keresni. Így a címtárak, telefonkönyvek stb. nem tekinthetők referensz adatbázisnak.
Forrás adatbázisok
A forrásadatbázisok elsődleges adat- vagy információforrások, amelyek önmagukban
tartalmazzák a keresett információt (számszerű, szöveges adat, vagy teljes szöveg formájá-
ban). Közvetlen választ adhatnak kérdéseinkre, ezért nevezik forrás típusú adatbázisoknak
is. Fajtái: numerikus, szöveges-numerikus, teljes szövegű adatbázisok.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
19
A numerikus adatbázisok eredeti statisztikai vagy más numerikus adatokat (például
termelési, ipari, fogyasztási, költségvetési, pénzügyi, választási, demográfiai adatokat)
tartalmaznak a legkülönfélébb (például idősoros, területi) rendezettségben. Adatbankoknak
is nevezzük őket, melyeknek egy része nem nyilvános. Kérdéseinkre közvetlen választ
adhatnak. Példák a numerikus adatbázisokra: a statisztikai hivatalok adatbázisai, a demo-
gráfiai adatbankok, a lakossági címnyilvántartás, az igazgatási (miniszteriális és önkor-
mányzati) adatbázisok (például a Defense Data Bank). Az ipari termelés és szolgáltatás
adatait tartalmazó adatbankok (például az USA mezőgazdasági adatait heti, havi és ne-
gyedéves idősorokban szolgáltató National Agricultural Statistical Service, a termelési,
fogyasztási és népességi adatokat tartalmazó PTS Time Series).
A szöveges-numerikus adatbázisok eredeti szöveges és számszerű adatokat felváltva
tartalmaznak. Életrajzi, vállalati, politikai stb. adatbázisok, olykor kézikönyvként nyomta-
tott formában is léteznek. llyen adatbázisok, például a Pályázatfigyelő, a CompAlmanach
Kft. Ki mit gyárt? vállalati katalógusa, a vegyi anyagokról szóló információkat szolgáltató
CHEMSEARCH.
A teljes szövegű adatbázisok eredeti szöveges dokumentumokat tartalmaznak, továbbá
kiegészülnek keresőnyelvi eszközökkel. A teljes szövegű adatbázisok esetében a dokumen-
tum teljes tartalma, s nem a róla szóló híradás, leírás kerül az adatbázisba, ezután annak
minden elemét visszakereshetővé teszik. Példák a teljes szövegű adatbázisokra: jogi adat-
bázisok (LEXIS), gyógyszerészeti, orvosi (Drug Information Fulltext stb.), gazdasági és
műszaki adatbázisok, elektronikus-digitális könyvtárak (például a Magyar Elektronikus
Könyvtár), a digitalizált enciklopédiák (például azEncyclopedia Britannica), az elektroni-
kus folyóiratok és lapok cikkeinek adatbázisai (például a Népszabadság, a Figyelő, a La-
káskultúra, a Times archívumai). A multimédiás adatbázisok a teljes szövegű körébe tar-
toznak, természetesen a „szöveg” fogalmát tágabban értelmezik.
2.3.3 Az információfeltárás intellektuális eszközei
A könyvtári adatbázisok alkalmazásainak kezdeteitől (1960-as évek) azok élen jártak
mind az információkereső nyelvek (aspeciális osztályozási rendszerek, tárgyszó rendsze-
rek, tezauruszok) fejlesztésében, mind pedig az igénybe vehető keresési lehetőségek bőví-
tésében (Boole-operátorok, helyzeti operátorok, csonkolás, felhasználói preferencia szerint
keresés, mezők szerinti keresés és szűkítés, böngészés lehetősége). A keresés elősegítésére
szavas, kifejezéses, kijelöléses, összetett és speciális (programozható) indexelési típusokat
fejlesztettek ki. Az indexgenerálásnak köszönhetően sokféle adattípus (szerzők neve,
tárgykörök, földrajzi helyek, intézmények neve, nyelv stb.) szerinti keresést tesznek lehe-
tővé, elősegítve a nagyobb pontosság elérését.
Az adatbázisok jellegzetessége, hogy többféle kereső nyelv használatát teszik lehetővé,
melyek az alábbi alapeseteket jelentik vagy ezekre épülnek:
− szabadszavas (kulcsszavas, szövegszavas) keresés,
− kötöttszavas (tárgyszavas) keresés,
− deszkriptor (tárgyszavak hiearchiájának leírása) szerinti keresés.
A szabadszavas keresés természetes nyelven alapuló, nem szab-
ványosított, azaz bármilyen szó szerepelhet a keresőkérdésben, sőt
annak a ragozott vagy csonkolt alakjai is.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
20
Az online keresőrendszerek a szabadszavas keresést biztosítják, melyek a keresés
kulcsszavai, ezért a kulcsszvas kereső elnevés is igen gyakori.
A kötöttszavas keresés szabványosított, így csak a szerkesztési
szabályoknak megfelelő (például csak alany esetben álló, egyes
számban lévő főnév) szavak szerepelhetnek a keresőkérdésben,
esetleg azok szinonimái.
A deszkriptor szerinti keresésnél csak a megfelelő jelzetek szerepelhetnek a keresésben.
Az online könyvtári rendszerek mindhárom keresést, és azok kombinációját is használják,
de a tananyagunkban csak a szabadszavas vagy a gyakrabban emlegetett kulcsszavas kere-
sés jelenik meg. A kulcsszavas keresésről, a tárgyszavazásról, a deszkriptorszerkesztés
szabályairól tanultakat érdemes felidézni az Információkereső nyelvek (IKNY) tanegység
tananyaga alapján.
Kereséstechnikai eszközök
A bibliográfiai és referáló adatbázisoknál a kereséstechnikai eszközök széles palettája
áll rendelkezésre, természetesen a felsoroltak mindegyike nem vonatkozik minden adatbá-
zisra:
− a keresőkérdésben fogalmi csoportok (fogalomkörök) kialakítása, megfelelő se-
gédletek alapján (tezauruszok, tárgyszójegyzékek, osztályozási táblázatok),
− ezek egymáshoz kapcsolása a Boole-operátorok segítségével (a teljesség növelésé-
re szolgál az OR, a pontosság növelésére az AND és NOT operátor),
− a keresőkérdésben helyzeti operátorok használata a keresőszavak egymáshoz vi-
szonyított előfordulásának meghatározására, a pontosság növelésére
− a keresőkérdésben a szó csonkolásának különféle változatai (szóvégi egy vagy
több karakter, szóközi, szókezdeti stb.) a teljesség növelésére,
− a keresés körének, helyének, tárgyának korlátozása stb. a pontosság növelésére
(például nyelvi korlátozás).
A felsoroltak mindegyike jellemző az online keresésre is, bár az első eszköz még na-
gyon kevés online kulcsszavas kereső sajátja.
Keresési segédeszközök
A korábban offline elérhető segédeszközök a keresőrendszer dokumentumai, például
parancsnyelv kézikönyve, adatbázisok dokumentumai, az adatbázis információkereső
nyelvének dokumentumai napjainkra online hozzáférhetővé váltak. Az online szolgáltatók
által a rendszerekhez biztosított „help” üzenetek; weblapjukról lekérhető információk;
kezdetekben hirdetőtáblák (BBS) stb. Az adatbázisokhoz megbízható, gyakorlatias tájé-
koztató felületek (súgó, GYIK – Gyakran Ismételt Kérdések). A tájékoztató felületek jó
példa az ERIC adatbázis (http://www.eric.ed.gov/), amelyhez a „blue sheet” segédlet kap-
csolódik, amelyek segítséget nyújtanak a felületéről elérhető, de éltérő keresési stratégiák-
ról.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
21
2. kép Online segédeszköz a Polymeta keresőrendszernél
2.3.4 Az információfeltárás informatikai háttere
Az adatmodell megvalósítása, az adatbáziselemek és kapcsolatok adatbázisba szervezé-
se adatbázis-kezelő rendszerrel történik. Ez biztosítja alkalmazói szinten az adatbevitellel,
karbantartással, kereséssel, kivitellel stb. kapcsolatos műveleteket.
Az első adatbázis-kezelők hierarchikus szerkezetűek voltak, ezután a hálós szerkezetű
adatbázisok következtek, míg az 1970-es évek közepétől a relációs adatbázis-kezelő rend-
szerek működtek, és részben ilyen alapon működnek napjainkban is (1980-as évek közepé-
től: ORACLE, TINLIB), de az utóbbi évtizedben egyre jelentősebb szerepet kapnak az ún.
objektumorientált rendszerek.
A relációs adatbázis-kezelő rendszerekre (MS Access) jellemző rájuk az adatelem-
rekord-fájl szerkezet és a mezők közötti, rekordok közötti és fájlok közötti kapcsolat, va-
lamint az adatelemek és rekordok azonosított kezelése (az adatelemet például az adat-
elemnév/mezőnév, a rekordot a rekordazonosító adatelem azonosítja), valamint az invertált
fájlok és a Boole-algebrai műveletek kitüntetett szerepe. Az adatok kezelésére (lekérdezé-
sére, frissítésére, törlésére, hozzáadására) adatkezelő nyelveket dolgoztak ki. Ezek közül a
legismertebb, szabványosként elfogadott formátumú az SQL (Structured Query Language).
Az SQL-nyelv logikai alapját a Boole-algebra adja.
A relációs adatbázisok kiválóan alkalmasak bibliográfiai adatok tárolásra a nem szöve-
ges szurrogátumok szintjéig, ugyanakkor a szöveges információkeresés szempontjainak
kevésbé felelnek meg.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
22
Ezért is jelentek meg az objektumorientált adatbáziskezelő rendszerek, melyek képesek
a dinamikus változás követésére, s ily módon jól alkalmazhatók az automatikus indexelés-
re, ahol újabb szöveg bevitele esetén automatikusan aktualizálni kell az indexkifejezések
listáját is. Az objektumorientált adatmodellel teljes dokumentum, sőt akár a teljes gyűjte-
mény is ábrázolható, de a dokumentumon belüli kognitívumok is, mégpedig az eredeti
logikai és szemantikai struktúra megtartásával. jövő
2.3.5 Az online tájékoztatás jellemzői
Az értékelés kérdései
Az adatbázisok tekintettel differenciált feltáró rendszerükre, egyaránt lehetőséget adnak
a nagyobb teljesség, illetve a nagyobb pontosság elérésére, arra, hogy a keresés minél több
relevánsabb találatot eredményezzen.
Releváns találat: A keresőkérdésekre adott választ tartalmazó
pontos találat.
A találatok között a témakörhöz nem kapcsolódó, vagy a témakörhöz kapcsolódó, de
pontos választ nem szolgáltató rekordok szerepe a keresés szempontjából értéktelen.
Teljesség: A kereső rendszer hatékonyságának jellemzésére
szolgáló, a releváns találatok kihozatalára jellemző mutató.
Az adatbázisok esetében az OR Boole-operátor, a csonkolás fontos eszközei a teljesség
biztosításának.
Pontosság: megtalált releváns találatok arányára jellemző muta-
tó (releváns találat/összes találat).
Nagyobb pontosságot biztosító eszközök: AND Boole-operátor, a különféle indexek
generálásának termékei, korlátozási módszerek, valamint az infromáció kereső nyelvek
célirányos használata.
A fentiek az online kulcsszavas keresés jellemzői is. Kiemelendő azonban, hogy a zaj, a
zsákutcás, halott, ismétlődő hivatkozások lehetősége sokkal kisebb az adatbázisok eseté-
ben, mint például a csaknem kizárólag szabad szavakat alkalmazó keresőrendszerek eseté-
ben.
Fejlesztési feladatok
Az internetes adatprezentációban egyre fokozott szerepet kap a verseny, a (könyvtári)
adatbázisoknak alkalmazkodni kell az internet fejlődéséhez. Az internet megjelenésével
fokozatosan megnőtt az igény jó minőségű, ingyenes vagy olcsó, a weben hozzáférhető
adatbázisok iránt, ami nagy kihívást jelentett a hagyományos, kereskedelmi online adatbá-
zisok számára.
A legtöbb adatbázis alkalmazkodni igyekszik a megváltozott körülményekhez. Egyes
adatbázistípusok erősen veszélyeztetettek ebben az új környezetben, de vannak olyanok is,
amelyek megerősödhetnek. Az utóbbira jó péla a hivatkozások feltárására épülő Science
Citation Index, amelynek jelentősége valószínűleg hosszú időn át megmarad, hiszen hasz-
nálata a tudományos teljesítmények mérésekor nélkülözhetetlen. A szöveges adatbázisok
közül a leginkább veszélyeztettek az alacsony feldolgozási fokúak, így jelentőségük hát-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
23
térbe szorulhat. Ezek például a csupán bibliográfiai hivatkozásokat és indexelő szakkifeje-
zéseket tartalmazó adatbázisok.
A változásokhoz azok az adatbázisok igazodhatnak a legjobban, melyek jelentős számú
rekorddal rendelkeznek, figyelési körük – akár egy szűk szakterületen belül is – széles, és
anyagukat gyakran, akár naponta frissítik. Ezek közül is csak a felhasználót legjobb minő-
ségben kiszolgáló (például lapozható könyvet kínáló), széles körű keresési sajátságokkal
rendelkező kereskedelmi változatok képesek a túlélésre. Az elmondottak igazak a nagy-
számú folyóiratot feldolgozó, és a folyóiratcikkek teljes szövegét elérhetővé tevő indexek-
re, ilyen például a Scopus.
Az elektronikus, különösen internetes hálózati környezet jellemző lett az adatbázisokra.
Ez segíti és ösztönzi a szellemi és technikai segédeszközök fejlesztését, a nyelvtechnológi-
ai módszerek és az automatizálás integrált alkalmazását.
Az online szolgáltatásként általában térítés ellenében lehetett és lehet igénybe venni,
ugyanakkor egyre több változat férhető hozzá ingyenesen a világhálón. A feltárás időigé-
nye, költségigénye a láthatatlan weben erősödő automatizálási eljárásoknak köszönhetően
jelentősen csökkent, minek következtében növekedhetett az ingyenesség, illetve csökken-
hetnek az árak.
Az archiválás kérdései
Az internetes találatok szakmai hitelessége egyes források esetén megkérdőjelezhető, a
találat valósághű voltáról több, akár papírlapú dokumentumból is érdemes meggyőződni.
A találatok, és a könyvtári állomány archiválása kiemelt jelentőségű a papíralapú és más
hagyományos, nem elektronikus dokumentumokkal szemben, ugyanis a mágneses adattá-
rolókat is beleértve azok biztos tárolóképessége már 4-5 év után megszűnhet, igaz ez csak
a rosszabb minőségű és párás, nagy hőmérsékletváltozások között tárolt optikai (CD,
DVD, BlueRay) tárolókra igaz.
A találatok elektronikus és hagyományos kezelése, archiválása ugyanakkor más akadá-
lyokba is ütközhet. A szerzői jog a szellemi alkotások jogának fő részterülete az iparjogvé-
delem mellett. A szerzői jog az irodalmi, tudományos és művészeti művek (a továbbiakban
együtt: szerzői alkotások) oltalmára hivatott. Emellett bizonyos szomszédos jogok oltalmát
is biztosítja. A könyvtárosnak tisztában kell lennie, hogy a webes keresőrendszerekkel
jogvédett tudományos és művészeti munkák sokaságát érheti el. A mindenki által, könnyen
megtalálható adat nem jelenti azt, hogy azt szabad minden esetben másoknak továbbkül-
deni, tárolni, kinyomtatni, esetleg sokszorosítani, legyen az szöveges-, állókép-, hang-
anyag-, mozgókép- vagy egyéb más tartalom. A törvények betartása akkor is kötelessége
egy állami alkalmazottnak, ha azokat nem írják ezen könnyen elérhető objektumok mellé.
2.3.6 Az információfeltárás új eszközei
Biztosan más eszközök és más fogyasztói réteg között végzi majd 10–20 év múlva
könyvtárosok többsége a feladatát. Az információs társadalom polgárai egyre nagyobb
mértékben szembesülnek a feléjük áramló információval. Az információ pontos mennyisé-
gét az University of California kutatói mérték meg egy médiafogyasztással kapcsolatos
vizsgálat során. 2008-ban összesen 3,6 zettabájt (3,6×1020
) adat jutott el az amerikai lako-
sokhoz, ami nyomtatott változatban majdnem két méter magasan terítené be az USA terü-
letét. Az amerikaiak átlagosan naponta 34 gigabájt adathoz jutnak (leginkább televízióból
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
24
és számítógépes játékokból). A 30 évvel ezelőtti állapothoz képest kétszer annyi szó kerül
az amerikai átlagpolgár elé, ami napi 100 ezer mondott, halott vagy olvasott szót jelent,
míg például Lev Toljsztoj Háború és béke című regényének angol fordítása úgy 460 ezer
szót tartalmaz.
A fent vázolt mennyiségű adat azt is jelenti, hogy a fogyasztók egyre inkább a számuk-
ra szükséges adatokat tekintik csak relevánsnak, így a tájékoztatás kiemelt szolgáltatás
lehet a jövőben. A jövő könyvtárosa a tájékoztatás számos útját járhatja majd. Bizonyára
lesznek, akik kizárólag a hagyományos, nem elektronikus dokumentumokra alapoznak, de
számuk egyre csökken. Vannak olyan kérdések, melyek csak ilyen módon kutathatók, de
az igény megvan arra, hogy a régi, többnyire papíralapú dokumentumokat is digitalizálják,
így azok keresése is online történhet.
Példa:
A Magyar Országos Levéltár honlapján (www.mol.arcanum.hu) 2010 tavaszától már
108 000 középkori irat érhető el. Ehhez csatlakozott a Heves Megyei Levéltár, a tároló-
iban őrzött, csak a Mohács előtti időkből fennmaradt 996 darab középkori iratot (okle-
velek, okmányok, dokumentumok) digitalizálják, és nyilvánossá teszik. A digitalizálás
és az internetes hozzáférés önmagában nem elég az iratok dokumentálásához, sőt még
az alapos latintudás sem elégséges, ugyanis az oklevelek sajátos, középkori szaklatin
nyelvében járatos személyek száma csekély. A Megyei Levéltár szakemberei ezért le-
fordítják magyarra, hogy tanulmányozható legyen.
A könyvtárosok tájékoztató munkájának egy másik részében hétköznapi emberek kü-
lönféle igényeit elégíthetik ki, melyek lehetnek tudományos, de teljesen átlagos kérések is,
de közös bennük, hogy a webes keresők kiemelt szerepet kapnak ebben a munkában.
A tájékoztatás harmadik útja pedig a cégek különféle igényeit kielégítő tájékoztatás le-
het, mint információbróker dolgozik, így a könyvtár kiemelt bevételhez juthat.
Rejtett web
A könyvtáros keresési tere jelentősen kitágult, de az internet adathalmaza sokszorosa
annak, mint amit a keresőrendszerekkel el lehet érni, így az interneten található dokumen-
tumok egy jelentős része egyáltalán nem vagy csak speciális tudással érhető el. A mélységi
réteg a jelenlegi keresőrendszerek számára láthatatlan kereshető adatbázisok hatalmas bi-
rodalma.
A felületi és rejtett vagy mély web globális integrációja elkezdődött. Az interneten, a
„mélységi weben” hozzáférhető adatbázisok feltárásában, keresésében új automatizált
technológiák érvényesülnek.
A kereső (böngésző) szolgáltatások új minősége valósul meg: új keresési formák kifej-
lesztése, illetve a hagyományos keresési formák és lehetőségek továbbfejlesztése folyik.
Ezek eredményeképpen a szöveges állományokban, a strukturált szövegekben, adatbázis-
okban és az audiovizuális tartalmakban közös fogalmi térben terjednek az egységesen ki-
terjesztett kereső alkalmazások (1. ábra).
Példa:
A könyvtárosok feladata például a magyarság eredetének, vagy egy családfa felkutatá-
sának kapcsán már nem csupán egy régi levéltári dokumentum megkeresése lesz, ha-
nem a történelmi releváns videotartalmak, állóképek, blogok, hírek stb. felkutatása is.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
25
Szemantikus web és a Könyvtár2.0
Az adatbázisokban, mint más internetes szolgáltatásokban egyre nagyobb hangsúlyt he-
lyeznek arra, hogy a visszajelzést kérjenek a felhasználótól, mennyire elégedett a kapott
találatokkal. A Web2.0-val jelölt technológiák egyik alapvető jellemezője a címkézés, a
vélemények kifejtése például hozzászólások, blogok, vlogok formájában. A könyvtárosok
a Web2.0 technikát saját munkájukhoz kötődő weboldalak esetén összefoglaló néven
Könyvtár2.0-nak nevezik.
Az említett adatok vagy a Könyvtár2.0-hoz kapcsolódó, speciális keresőkkel, vagy pe-
dig a jelenleg még drága és nehezen elérhető intelligens kereséssel érhetők el, melyek az
operatív könyvtári munkát az adott korszak technológiája mellett segíthetik. A következő
évtizedben a Könyvtár2.0-val jelzett technológia keresési lehetőségei lehetnek relevánsak.
Példák:
- egy magánszmély személyes, az élete webes tevékenységet összefoglaló weboldaláról
(portfóliójáról) feltett kérdésre a könyvtárosok válaszolnak, bloghoz kommentárt fűz-
nek, a Wikipediát ellenőrzik, kiegészítik fontos adatokkal stb.
- ugyanakkor a felhasználó cimkézese során részt vehet a katalógusszerkesztésben is,
erre kiváló példa az amerikai Darienlibrary
- személykeresés közösségi hálókon (osztálytársak, tanárok megkeresése osztálytalál-
kozóhoz)
- vizsgára szabad hozzáférésű online forrásokból adatgyűjtés
- válaszolhatnak egyszerűnek tűnő, de intelligens kereséssel megoldható kérdésekre:
a) Egy adott termékről mit mondanak az emberek?
b) Egy adott termékösszetevő hasznos vagy káros anyagokból áll?
c) Egy gyereknevelési problémára milyen megoldások találhatók a weben a cik-
kek, és a hozzászólások alapján? stb.
A Web2.0-hoz hasonlóan szintén az interneten található adatok megjelölésével próbál-
ják az adatokat szemantikailag is kezelhetőbbé tenni, melynek végeredménye az emberi
keresőkérdésre adott egzakt találat. A témakört egy későbbi leckében szemantikus web
címmel tárgyaljuk.
Intelligens webes keresés
A fejlődés egyik kulcsa az emberi gondolkodáshoz közelítő keresés (1. kép), amitől
ugyan még évtizedekre vagyunk, de a kezdeti szakasz már látható. A keresés eddig tárgyalt
eseteiben kizárólag a rögzített adatok prezentálására szorítkoztunk, ritkább esetben azok
számított értékeire (például valutaárfolyam, városok távolsága stb.). A nagy mennyiségű
adat azonban sajátos jellemzőkkel bír, ami további, a felhasználó elől rejtett információkat
is jelent. A nyelvi elemek összehasonlításával például a nyelvcsaládok rokoni szálainak
feltárása ma még elképzelhetetlen feladatnak tűnik, de kisebb elemzésekre már most is
képesek vagyunk.
A könyvtár, mint intézmény bizonyára tisztában szeretne lenni az olvasói szokásaival, a
honlapot használók viselkedésével. Az ehhez kapcsolódó adatokat a számítógépes rendsze-
rek rögzítik (mit kölcsönzött, mennyi ideig, milyen szolgáltatást használt, mit nézett a
weboldalon stb.), de azok alapján olykor még az egyszerű statisztikai mutatók sem készül-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
26
nek el, pedig az adatok sokkal több információt hordoznak. Az intelligens rendszerekről
később egy külön leckében lesz szó.
Üzleti információ
A könyvtárak egy része, vagy egyes munkatársai szolgáltathatnak üzleti információt is.
Az üzleti információ gyűjtőfogalom, olyan információk halmaza, amely szükséges egy
földrajzi területen a vállalkozások sikeres gazdasági szerepléséhez. A cégalapítástól kezdve
a stratégiai és az operatív döntések meghozatala a vállalkozás teljes életciklusa során ilyen
információk alapján történik. Ide tartoznak a gazdasági szabályozások, a jogi keretek, a
pénzügyi-, piaci-, termék-, (konkurens) cég- és műszaki ínformációk (szabványok, szaba-
dalmak).
Az üzleti (business) információ sajátos jellemzője, hogy a megrendelő első sorban nem
bibliográfiai, szakirodalmi forrásadatokat, hanem meghatározó mértékben tényadatokat,
ún. faktografikus információkat, tanácsadást, vagy esetenként elemzést igényel. További
lényeges eltérés, hogy az ilyen típusú szükségletek többnyire egyedi válaszokra tartanak
igényt, tehát itt nem lehet tömegszolgáltatást nyújtani. A céginformációhoz jutás piaci
előnyt jelent az információt birtokló vállalkozás számára.
Példa:
Céginformáció lehet: a konkurencia dolgozóinak végzettsége, szaktudása, a gyártott
termékek köre, a beszállítói lánc tagjai, az értékesítési lánc tagjai (nagykereskedők).
2.4 ÖSSZEFOGLALÁS
A könyvtáros szakma és a szaktájékoztatás eszközének átalakulása, megváltozása az
adatbázisok alkalmazásától az online információ-szolgáltató eszközökig. A online keresés
modellje. Az internetes találatok szakmai hitelessége. A találati listák elektronikus és ha-
gyományos kezelése, archiválása. A közeljövő operatív könyvtári munka kiegészülhet a
Web2.0-val jelzett technológiához köthető szolgáltatások keresési lehetőségeivel és az
üzleti információ szolgáltatásával.
2.5 ÖNELLENŐRZŐ KÉRDÉSEK
1. Mely korábbi kereskedelmi online adatbázisok veszélyeztettek az internetes
korszakban és miért?
2. Mutassa be a könyvtári adatbázisok szerepét az információ elérése szempont-
jából?
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
27
3. A KERESŐSZOLGÁLTATÁSOKKAL KAPCSOLATOS
ALAPISMERETEK
3.1 CÉLKITŰZÉS
A lecke célja, hogy egy kellően általános keretrendszeren belül leírja a hálózati keresés
tevékenységét. A keresés általános modelljének felvázolása után olyan kérdésekre próbál
meg válaszolni, hogy milyen típusú információkat, milyen információs tartományokban
lehet keresni, milyen felhasználói felületeken keresztül, milyen módon, milyen nyelvi
rendszerre támaszkodva lehet kielégíteni a különböző típusú információs szükségleteket. A
láthatalan web fogalma, valamint keresési lehetőségeinek megismerése.
3.2 TARTALOM
A webes adatelérés története.
Keresőrendszer fogalma.
Webes keresőszolgáltatások
Webes keresőszolgáltatások osztályozása
Rejtett web.
Az online hálózati keresés közvetített módszertana
A keresés önkiszolgálás modellje
Napjaink népszerű keresőrendszerei.
Keresés a jövőben.
3.3 A TANANYAG KIFEJTÉSE
3.3.1 A webes adatelérés története
Az internetes keresés az 1940-es, 1950-es évekre, a digitális számítógépek kezdeti ide-
jére vezethető vissza. Amint a számítógépek kezdtek átvenni olyan irodai háttérmunkákat,
mint a leltárnyilvántartás, bérszámfejtés, pénzügyi kalkulációk és tudományos adatkutatás,
az intézetek nagy mennyiségű adatot gyűjtöttek, és ebben az adatbázisban, az adatok digi-
tális jellegének megfelelően, vissza lehetett keresni az adatokat.
Enter Gerald Saltont, a Harward és a Cornell egyetemeken oktató matematikust, gyak-
ran emlegetik a digitális adatkeresés atyjának is. Saltont nagyon izgatta a digitális informá-
ció-visszakeresés; így az 1960-as évek végén kidolgozta a SMART – Saltons Magical
Automatic Retriever of Text (Salton Mágikus Automatikus Szöveg-visszakeresője) rend-
szert, ami az első digitális keresőgépnek tekinthető. Salton több olyan, jelentékeny fejlő-
dést elindító elvet vezetett be, amit ma is elerjedten használnak a keresőprogramok, köztük
azt is, hogy a keresési szándékot a kulcsszavak feldolgozásából képzett statisztikai, súlyo-
zás és relevanciaalgoritmusok alapján azonosítják.
Az első internetes keresőrendszer szinte az internettel együtt született. Az első interne-
tes kereső megalkotásának Alan Emtage egyetemistát, a McGill University hallgatóját
illeti, aki 1990-ben létrehozta az Archie-t, az első internetes kereső alkalmazást. Az Archie
az internet-fájlátviteli prorokoll (fájl-transfer protocol, FTP) szabványán alapult, ebben
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
28
hasonlított a legtöbb modern webkeresőhöz: végigpásztázta a forrásokat, indexe táblát
épített, és volt keresőfelülete, de az a web előtti korszak nem volt felhasználóbarát.
Azután kezdtek megjelenni a webes keresők. 1994-ben három, sokáig ismert kereső je-
lent meg: WebCrawler, Infoseek, Lycos. Az első és az utolsó érdemel az internetes keresés
fejlődése szempontjából kiemelt figyelmet. A WebCrawler mivel elsőként tette lehetővé
(indexelte) az interneten tárolt dokumentumok teljes szövegét. A Lycos pedig elsőként
vette figyelembe az oldalak relevanciájának meghatározásánál azt, hogy hány hivatkozás
mutat egy weboldalra. A Lycos lett egyébként 1999-ben a vilg legnépszerűbb online célhe-
lye. Egy évet (1995) kellett várni az első igazán jó keresőrendszerre, a neve AltaVista, ami
abban a korban a mai Google szerepét töltötte be.
Hivatkozásról hivatkozásra járta be a keresőmotor a honlapokat, és azok teljes tartalmát
kereshetővé tette, mindezt egy felhasználóbarát keresőfelülettel. Ehhez a munkához több
ezer crawlert alkalmazott, ami keresőmotor azon része, amelyik összegyűjti a webes ada-
tokat. Akkor a legteljesebb index állt elő 10 millió dokumentummal és több milliárd szó-
val, de 1995. december 15-én már 16 millió dokumentumot talált meg és indexelt. 1997-re
naponta több mint 25 millió kulcsszó érkezett, a világháló egyik legfontosabb célhelyévé
vált, és szponzori bevételekből 50 millió dollár bevételt könyvelhetett el. Az akkori
internetkatalógus Yahoo! és az AOL mellett az internet legkeresettebb helyévé vált.
A Lycos és az Altavista is a cégfelvásárlások és eladások süllyesztőjében fokozatosan
elvesztette vezető szerepét. Ebben az időben azonban még sokan nem hittek a keresőrend-
szerek elterjedésében, leginkább az internetkatalógusok szerepe volt jelentős. Közben
1998-ban elindult két egyetemista fiatal révén a Google keresőrendszer. A Google-t akkor
még nem tekintették nagy vetélytársnak. Történetéről még több helyen szólunk, előzetes-
ként annyit: több éve a világ vezető keresőrendszere, innovációi révén szinte megelőzhe-
tetlennek tűnik, ma a keresések három negyede a Google segítségével zajlik a világban. Az
5-10 éves távlatok szerint aligha fogj ezt a szerepét elveszíteni.
A tisztesség kedvéért említsük meg a mai vetélytársakat is, akik még versenyben van-
nak. 2004-ben vált a Yahoo! keresőrendszerré a Yahoo! Search révén, a Microsoft cég
keresője az MSN Search 2005-ben indult, majd 2009-ben nevet változtattak, így lett Bing
keresőrendszer belőle. Az Ask.com 2006-ban indult, és jelenleg még ezt a keresőt is jelen-
tős számú internetező használja.
3.3.2 Keresőrendszer fogalma
A keresőrendszer fogalmát tisztázzuk elsőként, ami a teljes tananyag címének kulcsfo-
galma.
A keresőrendszer a felhasználó szemszögéből egy online vagy
offline szolgáltatás. Az informatika szemszögéből megközelítve a
keresőrendszer olyan lokális offline vagy online (általában webes
felületű) szoftver, ami képes különböző, de meghatározott típusú
adatok találati listáját megjeleníteni a felhasználók számára, akik
egy szélesebb nyilvánosságot vagy egy szűk csoportot takarnak.
A háttérben az alábbi műveletek lehetnek szükségesek: dokumentumok rendszeres (au-
tomatizált) vagy kérésre történő gyűjtése, rendezése és esetleges tárolása, a változások
nyomon követése, az adatbázis kivonatolása, illetve a kivonatok megjelenítése (2. kép).
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
29
Keresőrendszer
Webes keresőrendszer
(webes keresőmotor
indexelt webes kereső
webes kulcsszavas kereső)
Nem webes programok
keresőrendszerei
keresés
Találati lista
(SERP)
indexeléswebpásztázás
indexweboldalak,
dokumentumok
3. kép A webes keresőrendszer szerepe, kiemelve az alapvető részeit
A megjelenítendő tartalomhoz keresőszóval jut el a felhasználó.
A keresőszó vagy kulcsszó a keresőkérdés alapvető eleme.
A keresőkérdést a felhasználó a keresőmezőbe írja be a kereső felhasználói felületén.
A keresőkérdés a kereső személy által megadott karakterekből
álló, összetett nyelvi kifejezés, amelynek részei: egy vagy több kere-
sőszó, logikai operátorok, egyéb attribútumok.
A keresőkérdés és a keresőszó fogalmát gyakran szinoníként használják.
A webes keresők mellett a keresőrendszerek legfontosabb példái az adatbázis-kezelő
programok keresőrendszerei, melyekkel már az olvasó is találkozhatott. A keresőrendszer
egy szolgáltatás, amely fizikai valójában egy program, amit keresőmotornak neveznek. A
keresőmotor szerepét, fogalmát a későbbikeben részletezzük, előljáróban leszögezzük: az
informatikában a felhasználó szempontjából egy olyan program, ami egy adott rendszer-
környezetben képes adatot keresni a megadott feltételek alapján.
A keresőmotor kifejezést a keresőrendszerek szinonímájaként használják. A webes ke-
resőmotorokról, azok részeiről még több leckében lesz szó. A webtől független kereső-
rendszerek az első leckében már szerepeltek, amikor a az adatbázisok szerepét emeltük ki.
A továbbiakban kizárólag a webes keresőrendszereket tárgyaljuk.
3.3.3 Webes keresőszolgáltatások
A weben fellelhető adatok elérésének kiváltképp időigényes módja a website-ok felüle-
tein található hiperhivatkozások (linkek mentén történő) böngészése, azaz a web pásztázá-
sa. Az online szolgáltatás említett lehetőségét naponta milliók űzik, az agyunk működésé-
hez ugyanis ez az elektronikus információtároló rendszer igazodott eddig a legjobban.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
30
Az internetes szolgáltatások alatt azon szolgáltatások együttesét
értjük, melyek az internet struktúráját használva, az adatátvitel
szabványait betartva (TCP/IP) nyilvánosan vagy zártan működnek.
Internetes szolgáltatásokra példa: ftp, gopher, e-mail, csevegés (chat), (video)tele-
fonálás, webböngészés stb. Az internetes szolgáltatások körének a legnépszerűbb eleme a
webböngészés. A weben fellelhető adatok a legtöbb esetben ma már egy böngészőprogram
ablakában kerülnek a felhasználó elé.
A webes szolgáltatások alatt azokat a szolgáltatásokat érjük,
melyek az internet webböngészés szolgáltatása segítségével vehetők
igénybe.
Tartalomszolgáltatók (online újság, tudástár…)
Online áruházak
Közösségi oldalak
…
Webes adatkeresés - keresőszolgáltatások
Keresőrendszerek
Katalógusok
Internetes szolgáltatások
Telnet
FTP
Elektronikus levelezés (e-mail)
Online szöveges (csevegés)
Online (video)telefonálás
…
Webes szolgáltatások
4. kép A webes keresőszolgáltatások és az internetes szolgáltatások kap-
csolata
A webes szolgáltatások köre meglehetősen nagy, ide tartozik online könyvtárak, online
képzések- és iskolák, online áruházak, online közigazgatás, de ide tartoznak a webes kere-
sés, az online sajtó, a blogok, és a közösségi oldalak is. stb.
A webes keresőrendszer (keresőmotor, indexelt kereső, szabad-
szavas kereső, címszavas kereső) a felhasználó keresőkérdése alap-
ján a weben keresztül elérhető adatok dinamikus halmazának egy
szűk részhalmazán képes automatikusan keresni, és a találati listát
egy algoritmus vagy szempont szerint rendezetten a keresőrendszer
felhasználói felületén megjeleníteni.
A webes keresőrendszert nevezik a keresőkérdés kialakítása alapján kulcsszavas webes
keresőnek, informatikai értelemben a programot tekintve webes keresőmotornak, illetve az
adatbázis kialakítása alapján indexelt webes keresőnek (3. kép). Az esetek többségében az
idő szűkössége folytán a keresőrendszerekhez fordulunk. A webes keresőrendszerek leg-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
31
népszerűbb szolgáltatóit a tananyagunk részletesen tárgyalja. Működnek már ún. kérdés-
válasz rendszerek, ezeket a Speciális keresőknél még megemlítjük. Léteznek továbbá teza-
uruszok, amelyek az ügyfeleket egy fogalmi térben barangoltatva segítik az eligazodásban.
A webes keresőrendszer mellett érdemes egy másik webes keresőszolgáltatást is bemu-
tatni, ez az ún. tematikus webes keresőszolgáltatás vagy más néven, az adatok prezentálása
alapján a webes internetkatalógus. A későbbiekben már csak a webes szolgáltatásokon
belüli keresési lehetőségeket fejtjük ki, ezért a „webes jelzőt” az elnevezésekből mellőz-
zük.
Az internetkatalógusok (katalógus, directories, browsing
services) hierarchikus osztályozási rendszert alkalmazó keresőszol-
gáltatások. Adatbázisaik többnyire intellektuálisan feldolgozott
HTML-dokumentumok rekordjait tartalmazzák, valamint kapcso-
latokat más adatbázisokhoz.
A tananyag szempontjából az internetkatalógusoknak annyi a szerepe, hogy éteznek
olyan internetkatalógusok is, melyek indexelőszolgáltatásként is működnek. (ilyen például
a Startlap), bár a Google keresőrendszert veszi igénybe. Van olyan oldal is ami
internetkatalógusként indult, majd keresőrendszer lett belőle (Yahoo!, Altaviszla).
1. Startlap: startlap.hu
2. Google: google.hu
3. Yahoo!: yahoo.com
4. Altavizsla: altavizsla.hu (jelenleg működése bizonytalan)
A két keresőszolgáltatásra építve a webes adatok elérése számos más módon megvaló-
sítható, ezeket a tananyagban összefoglaló néven speciális keresőknek nevezzük. Ezen
speciális adatelérési lehetőségek felsorolása hosszú listát eredményezne, ezért csak az álta-
lunk legfontosabbakra térünk ki két külön leckében, mind közül kiemelve a metakeresőket,
egy teljes lecke a metakeresők bemutatását célozza meg.
Az újabb lehetőségek, technikák iránt érdeklődők többek között a Startlap tematikus ke-
resőn, az egyes keresőrendszerek saját oldalain lévő tájékoztatók, valamint magyarul a
Kereső Világ blogon kaphatnak bővebb tájékoztatást, illetve az online is elérhető Könyvtá-
ri információkeresés című könyvből.
5. Ungváry Rudolf-Vajda Erik: Könyvtári információkeresés:
http://www.tankonyvtar.hu/konyvtartudomany/konyvtari-080905-13
6. Startlapon: keresogepek.lap.hu
7. Startlapon: kereso.lap.hu
8. Kereső Világ blogon: kereses.blog.hu
3.3.4 Webes keresőszolgáltatások osztályozása
A webes keresőszolgáltatások több szempontból is érdemes csoportosítani. Elsőként a
keresőszolgáltatások hatókör vagy lefedettség szerinti csoportosítását nézzük át:
− horizontális
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
32
– teljes web
– adott nyelv szerinti
− vertikális
– szakterület (például orvosi)
– témakör (például csengőhang)
Horizontális keresők a weben azokat az általános célú kereső-
rendszereket, amelyek a weben tárolt összes témakör nyilvános
adatából álló halmazon képesek találatokat megjeleníteni.
Vertikális keresőknek nevezik a weben azokat a keresőrendsze-
reket, amelyek csak adott területre (például képek, blog) speciali-
zált keresőmotorral rendelkeznek.
Példa:
A magyar Miner vertikális kereső blogok bejegyzéseiben, videomegosztó oldalak vide-
óiban keres és egyéb tartalmak keresését.
9. Miner vertikális kereső: http://miner.hu
A csoportosítást alkalmazzák a honlapokra, de ott nem egészen ebben az értelemben. A
félreértéseket elkerülendő érdemes áttekinteni a horizontális és a vertikális portál kifejezé-
seket.
Horizontális portál, angolul Horizontal Enterprise Portal (HEP): általános célú felhasz-
nálói portál, mely számos témájú és funkciójú elemet tömörít egyetlen weboldalon (példá-
ul www.index.hu, www.origo.hu ). Egyes szakértők szerint a következő minimumköve-
telményeket szükséges egy horizontális portálnak teljesíteni: hírek, internetes vásárlás, e-
mail, chat, időjárás jelentés, sport, térképek).
Vertikális portál, angolul Vertical Enterprise Portal (VEP vagy VORTAL): témakör kö-
ré csoportosított portálszerű szolgáltatások összessége egyetlen honlapon (például
www.eco.hu).
A keresőszolgátatásokat alapvetően működési mechanizmusuk szempontjából különítik
el. A webes keresőszolgáltatások két legnépszerűbb lehetőségét a tananyagunk részletesen
tárgyalja, konkrétan az általános célú, kulcsszavas keresőt (indexelt kereső, keresőmotor),
valamint a tematikus keresőszolgáltatás (internet-katalógus). A webes adatok elérése azon-
ban számos más módon megvalósítható, ezeket a tananyagban összefoglaló néven speciális
keresésnek nevezzük.
− indexelt (keresőrendszerek)
– egy keresőmotorhoz tartozó horizontális (pl.: Google)
– egy keresőmotorhoz tartozó vertikális (pl.: egy OPAC)
– több keresőmotorhoz tartozó (pl.: metakeresők)
(az adott keresőmotorok kiválasztók vagy sem)
– humán alapú (pl. Iglue)
− tematikus (katalógusok)
– nyilvános fejlesztésű (pl. Startlap)
– szakmai fejlesztésű
− speciális vagy sajátos működésű keresők
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
33
– vegyes működésűek (keresőrendszerek és katalógusok)
– nem saját keresőket használó kulcsszavas keresők (metakeresők, portálok ke-
resői)
– vertikális kulcsszavas keresők, ahol a keresés tárgya speciális (blog, kép, vi-
deó stb.)
– vertikális kulcsszavas keresők, ahol a keresés helye speciális, ugyanis képesek
egy speciális objektumon szöveget keresni (kép, videó, hang stb.)
– nem szöveg alapú keresők, melyeknél a keresés tárgya nem szöveges, de az
eredmény tetszőleges, példák:
a) fénykép alapján személyeket, azok nevét, adatait, telefonszámát, közösségi
hálózati oldalait, blogjait megkeresni
b) egy rajzról megmondani, hogy mit ábrázol, ki készítette, ha múzeumban
örzik, akkor melyikben pontosan
c) hang alapján egy videón megkeresni adott személyt, élőlényt
d) videorészlet alapján keresni filmet, konferenciaelőadást stb.
A keresett objektum, azon belül a találati lista (SERP) objektumai szerinti csoportosí-
tás:
− szöveg
– rekordlista (DBMS: database management system), pl. OPAC
– a dokumentum elérésnek találati rekordlistája (SE: search engine)
– dokumentumrész vagy dokumentumrész-lista (QAS: question answer system
– válasz vagy válaszlisták (QAS), pl. időjárás, statisztikai számítások stb.
− állókép vagy képlista (IBR: image based retrieval)
– kulcsszó szerint (az állomány nevében vagy a weboldalon)
– állóképen lévő objektum szerint (szöveg, személy, épület, jel stb.)
− hanganyag vagy hanganyag-lista (SBR: sound based retrieval )
– kulcsszó szerint (az állomány nevében vagy a weboldalon)
– hangállományban megadott szövegrészlet (pl. Budapest)
– hangállomány részlete alapján (pl. egy lejátszott zeneszám szerzője, címe)
− mozgókép
– kulcszsó szerint (az állomány nevében vagy a weboldalon)
– állóképen megadott objektum szerint (szöveg, személy, épület, jel stb.)
– mozgókép részlete alapján (pl. a film rendezője, címe, szereplői)
A keresőszolgáltatásokat csoportosíthatjuk a találati lista vizuális megjelenítése szerint:
− rangsor szerinti szöveges rekord lista (pl. Google)
− kulcsszó szerinti grafikus (pl. Google Varázskerék)
− kulcsszó szerinti idősíkban megjelenő rekord lista (pl. Google Timeline)
− témakör szerinti szöveges link (pl. Startlap)
− lista és katalógus alapú (pl. Yahoo!)
− Web 2.0-ás, multimédiás felület (pl. Iglue)
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
34
A webes keresőrendszereket számos egyéb szempont szerinti csoportosítják, melyről az
adott részeknél esik több-kevesebb szó: találati lista megjelenítésének gyorsasága (keresési
idő), adott, de népszerű kulcsszóra kapott válaszok mérete (találati lista száma), adott idő-
szak alatt a szolgáltatást igénybe vevő felhasználók vagy keresések száma (népszerűségi
toplisták), hol keres pl. blogban
3.3.5 Rejtett web
Az interneten fellelhető adatok jelentősebb részét a felhasználó nem találja meg,
mivel még a kereső szolgáltatások sem képesek a web összes adatát „átlátni”.
A rejtett web az általános célú kereső motorok által nem találha-
tó website-ok halmaza.
Az angol elnevezés nem egyértelmű, több fogalmat használnak, így magyarul is több
fordítása fogadható el: láthatatlan web (invisible web), rejtett web (hidden web), a web
mélye (deep web), a világhálózat mélysége (deep net).
5. kép A rejtett web bemutatása
Egy konkrét felhasználó számára a kereső szolgáltatások alkalmazásának nem kielégítő
ismerete is jelentheti a rejtett adatok bővülését, ugyanis hiába kereshető a kívánt adat, ha
nem ért hozzá a felhasználó, de ezen ismerethiány mögötti adatok nem részei a rejtett web-
nek.
A web többi adata a rejtett web ellentéteként a látható vagy a nyitott web elnevezést
kapta. A nyitott web természetesen az általános célú keresőmotorok számára megtalálható
és indexelhető adatokat jelenti, így a felhasználók számára is elérhetővé válik, ha a kere-
sőmotorok webes felületén megjelenő website-ok tételeit kiválasztja.
3.3.6 Az online hálózati keresés közvetített módszertana
A mágnesszalagos, majd a mágneslemezese adattárak közvetített keresésénél a felhasz-
náló nem vett részt közvetlenül a keresésben. Helyette, nevében a keresést a professzioná-
lis kereső szakember végezte el. Az adatbázisok specifikus, bonyolult, elágazó, paranccsal
vagy menüvel vezérelt keresőrendszerei indokolták, illetve az, hogy a gépidő és a hálózati
kapcsolódás igen drága volt.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
35
A keresőprofil szerkesztése a felhasználó által megadott szempontokat alapján, a meg-
felelő segédeszközök (tárgyszójegyzékek, tezauruszok stb.), parancsnyelv és kereséstech-
nikai eszközök (Boole-operátorok, csonkolás stb.) segítségével történt. Ezt a profilt hason-
lította össze a gép az adatbázisban levő dokumentumok profiljával.
Az online hálózati közegben a keresés folyamata interaktívabb lett, már megszokott ke-
resőprofil helyett keresési stratégiáról beszélhetünk, melyről egy külön leckében szólunk.
Az online információkeresés soktényezős folyamata két fő fázisra osztható: előkészítésre
és végrehajtásra.
− Az előkészítés a felhasználói kérdés tisztázásától a keresőprofil megtervezéséig
tart. Az online környezetekben a keresőprofilt helyesebben keresési stratégiának
nevezik.
− A végrehajtás hosszú, több lépcsős folyamat.
Ez az új keresési modell rugalmasabb és hatékonyabb:
− A hálózati kapcsolattal bármely szükséges adatbázishoz hozzá lehetett férni.
− Visszamenőleges, retrospektív keresésre nyílt lehetőség.
− A felhasználói témát leíró keresési stratégiák módosítása könnyebbé vált, a fel-
használó a professzionális közvetítővel együtt részt vehetett a „terminálülésen”.
− Gyorsabb, interaktív és pontosabb keresést tett lehetővé az adatbázisokban.
3.3.7 A keresés önkiszolgálás modellje
A helyi hálózatba kapcsolt személyi számítógépek, és terminálok révén a felhasználók
önkiszolgáló módon, tömegesen férhettek hozzá a központi gépen kezelt helyi adatbázis-
hoz, majd a külső országos adatbázisokhoz. Az adatbázisszolgáltatók fokozatosan egysze-
rűbbé, felhasználóbaráttá tették a kereső felületeket. Ma már a felhasználók az esetek zö-
mében maguk végzik az adatbázisban való keresést, az otthoni, vagy munkahelyi
számítógépről.
A web gyorsabb, ablaktechnikát alkalmazó grafikus felülete megjelent a helyi rendsze-
rek keresőfelületein is. A keresőkérdés értelmezése, a teljesség / pontosság előzetes meg-
határozása, aránya, az adatbázis (ok) és szolgáltató (k) kiválasztása. /ehhez szükséges: az
adatbázisok minőségének ismerete, használatuk ismerete, a használat esetleges költségei-
nek ismerete/. Képesnek kell lennie a keresési stratégia megtervezésére: a teljes-
ség/pontosság előzetesen eldöntött viszonyát tekintve a keresendő fogalomkörök, a kereső-
szavak meghatározására, az operátorok (Boole, helyzeti) alkalmazására, a csonkolásra stb.
3.3.8 Napjaink népszerű keresőrendszerei
A keresőrendszerek népszerűsége több összetevő függvénye. A legfontosabb a kereső-
motor technológiája nyomán gyorsan megjelenő releváns találat, de számít a felhasználói
felület kezelhetősége, a kiegészítő szolgáltatások, adott nyelvnél, szakmánál a konkrét
nyelvi vagy szakmai közeg kiszolgálása. Kezdetben a találati lista nagysága is fontos volt,
de napjainkra ez mellőzött szempont.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
36
A legnépszerűbb négy keresőrendszer 2009-ben a web összes keresésének 98 százalé-
kát bonyolítja le. Jelenleg a Google a legnépszerűbb keresőrendszer, angolszász területen
már igeként is használják a webes keresésre. A közösségi szolgáltatásoknak, és nem a talá-
latok relevanciájának köszönhetően kiemelkedő a népszerűsége a Yahoo! és a Bing (MSN
Search) kulcsszavas keresőknek.
A Google már több éve a legelső, amely a 2009. májusi adatok szerint a keresések 74
százalékát, a második helyezett Yahoo! Search a keresések 15,55 százalékát tudhatja ma-
gáénak, harmadik a Bing 5,64 százalékkal, míg negyedik az Ask 3,81 százalékkal. A har-
madik helyen álló Bing a Microsoft cég keresőrendszere, a márkanévváltás előtt MSN Live
Search néven vált ismertté.
Érdemes azonban kiemelni, hogy a Yahoo! és a Bing (MSN Search) kulcsszavas kere-
sők a közösségi szolgáltatások miatt népszerűek, és nem a találatok relevanciájának kö-
szönhetően, ami azt prognosztizálja, hogy a Google népszerűsége évről évre növekszik a
riválisaival szemben.
A népszerű keresők mellett érdemes megemlíteni a legnépszerűbb oldalak keresőit.
Ezek olykor meglepőek, ugyanakkor sok esetben tanulságosak is, hiszen nagyon sokat
lehet tanulni azok meglátogatásából. A népszerű weboldalakról többek között az Alexa és
a MiniRank oldalain tájékozódhatunk, az utóbbi országonként jelenít meg a weboldalak
teljes népszerűségi listáját, sőt akár egy konkrét site-ra rá is kereshetünk.
10. A MiniRank Magyarországi listája: http://www.minirank.com/tld/hu/0
11. Az Alexa listája a világ honlapjait tekintve: http://www.alexa.com/topsites
3.3.9 Keresés a jövőben
A keresési igények könyvtárosi szemszögből nézve is folyamatosan változnak. A tárgy,
téma szerinti keresés jelentősége egyre növekszik. A mélyebb tárgyi feltárás iránti igény
egyszerűen megoldható lehetne, ha a bibliográfiai rekordot kibővítenék, szabványosítanák.
A digitális források számának örvendetes növekedése magával hozza azok integrálásá-
nak, és keresési integrálásának igényét. A keresőrendszerek használatának kényelmével
általában összefüggő igények egyre erősebbek.
3.4 ÖSSZEFOGLALÁS
A keresőrendszerek történetének és fogalmának tárgyalása után annak csoportosítása,
tulajdonságainak leírása, gyakorlati példákkal alátámasztott hasznossága következik a
könyvtártudomány oldaláról. Az internetalapú keresőrendszerek főbb típusának részletes
bemutatása, melyben kitérünk a kulcsszavas keresők vezető szerepére és korlátaira, a tema-
tikus keresők könyvtárosokat segítő lehetőségeire, a kevés találati elemszám esetén ki-
emelten hasznos metakeresőkre, a könyvtári keresők taglalására, a toplisták szerepére a
könyvtári menedzsment szemszögéből.
3.5 ÖNELLENŐRZŐ KÉRDÉSEK
1. Mutassa be a keresés önkiszolgálás modelljét!
2. Jellemezze a népszerű keresőrendszreket!
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
37
4. KERESŐROBOTOK
4.1 CÉLKITŰZÉS
A keresőrobotok mechanizmusának megértése a hatékonyabb keresőkérdés összeállítá-
sa érdekében.A PageRank vázlatos bemutatása, szerepének megértése a webes keresésnél.
A keresőoptimalizálás attitüdjeinek elsajátítása.
4.2 TARTALOM
A keresőrobotok története
A keresőrobotok fogalma
A keresőrobotok működése
Miért a Google a vezető indexelt kereső?
Page Rank – a hivatkozási index
A PageRank algoritmusa és kiszámítása
A keresőoptimalizálás
Vertikális magyar indexelt keresők
4.3 A TANANYAG KIFEJTÉSE
4.3.1 A keresőrobotok története
A webes keresőmotorok története igen rövid időszakra, csupán 1993-ra nyúlik vissza,
amikor elkészült az első keresőmotor Wandex néven, de ez ma már nem használható. Még
ugyanebben az évben készült el az Aliweb, a nevét az Archie Like Indexing for the Web
(Archie, mint a web indexe) kifejezésből kapta, napjainkban még elérhető
(www.aliweb.com).
Egy évvel később jelent meg a Lycos kereső (www.lycos.com), ami már üzleti vállal-
kozásként működött. A későbbiekben több keresőmotor jelent meg (WebCrawler, Hotbot,
Excite, Infoseek, AltaVista...) mind ekkortájt születtek.
A következő nagy lépés 1996-ban történt. Larry Page és Sergey Brin elindította a
Google-t (google.hu), a Stanford Egyetem két diákjaként. A siker ekkor még távolinak
látszott, de egyre népszerűbb lett, és 2001-re a világ legismertebb és leggyakrabban hasz-
nált keresőmotorjává vált, üzleti vállalkozásként pedig a világ egyik legsikeresebb befekte-
téseként tartották számon. A Google más módon rangsorolta és jelenítette meg a találati
listát, mint a társai, ami valószínűleg a siker alapja.
2002-ben a Yahoo! (www.yahoo.com) megvásárolta az Inktomit, egy évre rá az
AlltheWebet és az AltaVistát, majd 2004-ben megindította saját keresőszolgáltatását. A
keresés technológiáját tekintve megjelentek újabb keresők is, de nem váltak még széles
körben elfogadottá.
A 2000-ben megjelent Teoma keresőmotor a tárgyspecifikus hivatkozási népszerűséget
(ExpertRank technológia) használja, amit az Ask Jeeves (www.ask.com) keresőszolgálta-
tás használ. Ez a technológia eltér a Google PageRank technológiájától.
A klaszterezés a másik újabb technológia, amit a többek között a Clusty (clusty.com) és
a magyar fejlesztésű Polymeta (www.polymeta.hu) metakeresőrendszerek is használnak.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
38
4.3.2 A keresőrobotok fogalma
A weben a keresőszolgáltatások, így a katalógusok egy része használ keresőmotort, de
napjainkban a keresőmotor kifejezést leginkább csak weben történő kulcsszavas keresés,
azaz a keresőrendszerek szinonímájaként használják. Léteznek azonban más keresőmotor-
ok is, például az intraneten kereső vállalati keresőmotorok, a személyi számítógép állomá-
nyai között kereső személyi keresőmotorok.
A keresőmotor egy olyan program, amely bizonyos feltételeknek
(keresőkérdés) megfelelő információkat keres valamilyen számító-
gépes környezetben. A keresési feltételek egyediek lehetnek, de a
keresőmotorok többségénél a keresőkérdés kulcszsóra épül.
A többnyelvű keresések miatt megadjuk a keresőmotor néhány is-
mert nevét: search engines, web crawler (angol), Suchmaschienen
(német).
A keresőmotorokkal kapcsolatban nagyon sok szakmai kifejezés olvasható a cikkekben
és a könyvekben. Elsőként a fogalmak kapcsolatát tekintjük át. A weben számos keresési
lehetőség áll rendelkezésre, azonban a találatok szempontjából az egyik legjelentősebb
szolgáltatás a kulcsszavas, vagy más néven szabadszavas kereső.
A webes kulcsszavas keresőszolgáltatás keresőmotorra épül, ami a link-alapú pásztá-
zással eléri a weben a tárolt tartalmakat, és indexeli azokat. Nem véletlenül szerepel a
kulcsszavas kereső szinonimájaként sokszor a keresőmotor, illetve az indexelt kereső elne-
vezés. A keresőmortor egy hatalmas gráfnak tekinti a webet, az weben fellelhető dokumen-
tumok jelentik a gráf csomópontjait, míg a linkekkel megvalósított kapcsolatok a gráf éleit.
Ugyanakkor a keresőmotor és a kulcsszavas kereső fogalma nem köthető kizárólag a
webes kereséshez, hiszen már az internet létezése előtti időktől a programok is rendelkez-
nek hasonló lehetőséggel. Az indexelt keresés sem csupán az internet sajátossága, hanem
egy alapvető eljárás az adatbázis-kezelésnél, ami a rögzített adatok gyorsabb visszakeresé-
sét teszi lehetővé.
Ezen túl még használják a keresőrendszer kifejezést is, aminek egy részét fedi le a we-
bes keresés. Napjainkra azonban a webes keresés, mint általános tevékenység jelenik meg,
így leginkább kizárólag a web leggyakrabban használt, a fentiekben taglalt szolgáltatására
használják a keresőmotor, a keresőgép, a kulcsszavas kereső, címszavas kereső és az inde-
xelt kereső kifejezéseket. Ebben a leckében is szinonimaként szerepelnek.
A keresőkérdés meghatározása gyakran egy szó, kifejezés megadását jelenti, de kiegé-
szülhet a keresőmotor által értelmezhető operátorokkal (pl. logikai operátorok), valamint
egyéb jelekkel, attribútumokkal is. Általában kulcsszavas (címszavas) keresés történik,
vagyis a rendszer a weben a bekért kulcsszó ismeretében megjeleníti az általa rögzített
rekordokat, vagy más környezetben esetleg mezőket, aggregát mezőket.
SERP (Search Engine Results Page): a kereső motorok organi-
kus (rendezett, összefüggő) találati oldala, ami találati rekordokat
tartalmaz.
A rekordok azon tartalmi egységek, amelyek a keresőrendszer szerint kapcsolódnak a
kulcsszóhoz, a rekordok halmaza tulajdonképpen a találati lista. A keresőmotorok ezért
kapták a kulcsszavas vagy címszavas kereső nevet is.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
39
Találati rekord: azon honlap adatainak tömör megjelenítése,
amelyeket a keresőmotor a felhasználó egy adott keresőkérdése
után megtalált. A találati rekordok alkotják a találati listát vagy
röviden SERP-et.
4.3.3 A keresőrobotok működése
A teljes keresőszolgáltatás működése összetett tevékenység, hozzátartozik a weben ta-
lálható adatok állandó és automatikus gyűjtése, rendszerezése, prezentálása a felhasználók
kérésére, és azok automatikus aktualizálása. Az utóbbira azért van szükség, mivel a webol-
dalak tartalma és weben fellelhető dokumentumok az idő tényezőt tekintve nem állandóak.
Az előbbiek alapján a webes keresőmotorok működése három lényeges részből áll össze:
1. webpásztázás,
2. indexelés és
3. keresés.
A webpásztázás (első rész) során összegyűjti az adatokat a weboldalak tartalmáról vagy
a weben található állományokról. Ez valójában egy automatizált böngészés, hiszen a web-
oldalakon található linkeket követve halad az oldalak között, és letölti a tartalmukat. A
wbepásztázó rész további feladatai: a már nem létező (halott), illetve a linket nem tartal-
mazó (zsákutcás) dokumentumra mutató kapcsolatok feltárása, a tükrözések (site(rész)
másolatok) felismerése, a szerveren alkalmazott relatív címek átírása abszolút címekké.
A webpásztázást az angol kifejezés alapján robot, webrobot, spider (pók), webspider,
crawler, web crawler néven is emlegetik, sőt sokszor helytelenül a keresőmotor egészét, a
teljes tevékenységét értik alatta.
3. keresésTalálati lista
(SERP)
2. indexelés
1. webpásztázás
index
webes keresőrendszer
keresőmotor
indexelt
kereső
kulcsszavas
kereső
automatikus
(program végzi)
felhasználói
kérésre
- (web)robot
- (web)spider (pók)
- (web)crawler
6. kép A webes keresőmotor működésének vázlata
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
40
Az indexelésnél (második rész) elemzi, rendszerezi a begyűjtött oldalakat tartalmát
(szöveg szavai, állókép, videó) beleértve a metaadatokat, újabb metaadatokat társít hozzá-
juk, végül indextáblát készít, ami egy formális relevancia-ellenőrzést is jelent, így a kere-
sési kritériumok ismeretében gyorsan elkészíthető a hatékony találati lista. A gyorsaság az
indexelés miatt, míg a hatékonyság a relevancia-ellenőrzésnek köszönhetően domborodik
ki. Az indexelés elképzelhető egy speciális tárgymutatóként, hiszen a gyűjtés után az ada-
tokat visszakereshetővé kell tenni. Az index készítése nem más, mint a dokumentum lexi-
kális elemzése után előállt szavak táblázatai a dokumentumbeli elérhetőségükkel, esetleg
egyéb attribútumokkal, kiemelve ezzel a webes dokuementum jellegzetes, fontos kifejezé-
seit. Az indexelésnél az ún. tiltott szavakat (stop words) figyelmen kívül hagyja, meggátol-
va ezzel a csaknem minden dokumentumban megtalálható szavak (kötőszavak, névelők
stb.) indexelését. A tiltott szavaknak tehát nincs szerepe a találatok kialakításánál, ráadásul
még nyelvenként sem teljesen egységesek.
Példa:
magyar nyelven tiltott szavak lehetnek egy keresőrendszerben: egy, az, a, is, ne...
angol nyelven tiltott szavak lehetnek egy keresőrendszerben: the, to, be, and, or...
német nyelven tiltott szavak lehetnek egy keresőrendszerben: der, die, das, und...
A keresés (harmadik rész) természetesen a felhasználó vagy más program kérésére tör-
ténik. A keresőmotor ezen részét angolul runtime systemnek is nevezik. Ekkor az indexlis-
tából kikeresi a felhasználó által beírt, vagy más programtól kapott kulcsszóhoz vagy
keresőkifejezéshez tartozó website-ok rekordjait, amiket a hozzájuk társított metainfor-
mációk alapján állít sorrendbe, amit a jellemzően jelentős számú találati lista megjelenítése
zár le. A találati lista (SERP) első néhány rekordja látható a felhasználó számára.
Relevancia
A keresőszolgáltatást nyújtó weboldalak üzemeltetői számára lehetetlen cél a látható
web akár egy jelentős részének a felhasználó számára hasznos, tartalmi szempontból teljes
bemutatása, ezért a keresőmotorok nem a találatok mennyiségében, hanem a relevanciájá-
ban, azaz informatikai oldlaról a keresőmotorok működésében képesek jobbat nyújtani a
másiknál. A szolgáltatásonként eltérő technológia teszi lehetővé, hogy egy keresőszolgálta-
tás hatékonyabb legyen a másiknál, bár a relevancia a találati listák esetén igen szubjektív.
A relevancia kialakítása több úton is megvalósítható:
− mikroszint módszer: az egyén explicit módon kinyilvánítja saját preferenciáit, de
ez az adatok hatalmas mennyiségére, és a kereső személyek jelentős száma miatt
nem alkalmazható a keresőrendszereknél
− automatizált rendszerfüggő módszer: a keresőrendszertől függő elemzési szem-
pontok alakalmazása, ez társítható a mai (2010) keresőrendszerek többségéhez, a
következőkben erről részletesebben is szólunk.
− mezoszint módszer: a közösségek tagjainak hálózati tevékenységében megnyilvá-
nuló erős vélemények kivetítése a közösségre. A módszer egyfelől a közösség tag-
jai által a weboldalakba beleírt utalásokra, a linkekre, másfelől a közösségi tagjok
cselekvéseinek elemzésére épül.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
41
− implicit profilhozzárendelés módszere: napjainkban (2010) még nem automatizál-
ható teljesen, az automatizáltság erősebb szintjeit elérve vélhetően a jövő kereső-
rendszereinek része lesz. Alapelemei: humán osztályozás, gépi klaszterezés, adat-
bányászat. Az egyénhez közreműködése nélkül próbálnak preferenciaítéleteket
kapcsolni.
A relevanciát befolyásoló automotizált, rendszerfüggő módszernél három jelentős tech-
nikát emelhetünk ki:
1. Kleinberg-féle HITS-modell: a hiperlinkeken alapuló téma szerinti keresés
(Hyperlink-Induced Topic Search) egy kapcsolatrendszerből (például weboldalak
közötti linkekből) nyer ki információt az egyes csomópontok fontosságáról. Az al-
goritmust 1998-ban publikálta Jon Kleinberg, eszerint a keresett téma szempontjá-
ból a mértékadó (authoritative) és központi (HUB) oldalakhoz két számot rende-
lünk. A mértékadó oldal lehet például egy szaktekintély weboldala, a központi
oldal lehet például hírportál. Az oldalak kapcsolatának feltérképezési folyamata
rekurzív: a központi oldalak azok, amik sok mértékadó oldalra mutatnak, a mér-
tékadó oldalak pedig azok, amikre sok központi oldal mutat. A közösségen belülre
vagy azon kívülre mutató linkek elemzésével lehet megállapítani az önszerveződő,
egymásra hivatkozó közösségek határait. Eredményként pontos és releváns talála-
tok várhatók, de minden kérdésnél újra kell számolni, így nem hatékony.
2. oldalra mutató hivatkozások számán alapú algoritmus, ami a Google sikerét hozta,
és saját nevet is kapott PageRank. Ezt részletesen tárgyaljuk ebben a leckében.
3. klickstream alapú relevanciakivonatolás. A felhasználók kattintásainak sorozatára
(clickstream) alapozott adatok elemzésével a felhasználók szokásai, valódi visel-
kedése tárható fel, ami a következő keresés találati listájánál már felhasználható.
Egy primitív módja, ha a felhasználó értékeli a találatot, hogy releváns volt számá-
ra vagy sem. A keresőrendszereknél az elemzés makroszintű, azaz a globális háló-
zati társadalom szintjén történik, tehát igen sok felhasználó viselkédése alapján ke-
letkeznek az új, a találati listát befolyásoló információk. Ez nem önálló keresési
módszer, többnyire kiegészítésként alkalmazzák a keresőrendszerek.
4.3.4 Miért a Google a vezető indexelt kereső?
A Google több év óta a legnépszerűbb keresőrendszer, több százmillió keresési kérés
érkezik hozzá és társlapjaihoz naponta. Az okokat nem is kell olyan sokáig keresnünk. A
rendszer legfontosabb eleme az a gyors, szünet nékül hibátlanul működő, az innováció
révén egyre relevánsabb találati listát szolgáltató keresőmotor, amelynek köszönhetően a
Google találati listájának első néhány rekordja – a Google osztályozási módszere révén –
nagyon gyakran tükrözi a kereső személy elvárásait.
Az ún. PageRank osztályozási módszer teljes működési mechanizmusát a cég éppen
ezért titokban tartja, ugyanakkor a módszert jogilag védetté tették. A siker másik oka talán
az oldal hirdetések nélküli, puritán megjelenésének köszönhető, ami a felhasználók több-
ségének igen vonzó.
A Larry Page és Sergey Brin alapította cégre egészen szokatlan, a munkatársak ötleteit
tiszteletben tartó munkamódszer jellemző, ami annak köszönhető, hogy egyetemi hallgató-
ként alapítták a céget. A Google munkahelyein a munkatársak részére különféle termeket
rendeztek be, hogy munka közben kikapcsolódhassanak (játéktermek, relaxációs termek
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
42
stb.). A belső fejlesztők minden ötletét megvizsgálják, és vannak olyan napok, amikor csak
az új ötleteken kell fáradozniuk. Ezek után nem véletlen, hogy a Stanford Egyetemen vég-
zett két diák olyan cég tulajdonosa, ahol az újítások naponta jelennek meg.
Ma már része a Google-nek például a képkeresés, a videokeresés, a fórumtémák keresé-
se, a beépített számológép, a beépített mértékegység váltó, az árucikkek keresése, a föld-
rajzi hely keresése stb. A weblapok tartalmában végzett kereséseken túl lehetőség van azok
fordítására, vagy a már nem létező eredeti tartalom megtekintésére a Google tárolt adatai-
ból.
A népszerűséget az bizonyítja legjobban, hogy 2003-ban a „google” szóból egy új angol
szó keletkezett, a „to google” ige jelentése: keresni az interneten (a Google segítségével).
Ezzel egyébként azóta is csak a Google büszkélkedhet.
4.3.5 PageRank algoritmus
A page ranking (e.: pédzs renking) tömören egy olyan algoritmus, amely hiperlinkekkel
összekötött dokumentumokhoz számokat rendel azoknak a hiperlink-hálózatban betöltött
szerepe alapján a webes keresőrendszereknél. Jelentése magyarul: oldalak rangsorolása.
A PageRank a Google internetes keresőmotor alapja, amit a Google alapítói, Larry Page
és Sergey Brin fejlesztettek ki 1998-ban a Stanford Egyetemen. A PageRank egy ún. re-
kurzív algoritmus, de magát a weboldalhoz rendelt számot is PageRanknek nevezik. A
PageRank 2001 szeptemberétől a Google bejegyzett védjegye.
A PageRank segítségével a Google – szemben az akkori vetélytársaival, amelyek az ol-
dalak sorrendezését kizárólag azok tartalma alapján határozták meg – elemezni tudja a
különböző oldalak közötti kapcsolatokat, és ennek segítségével sokkal relevánsabb talála-
tokat tud visszaadni, mint más keresők.
A PageRank algoritmus és index. A Google alapítóinak elgondo-
lása szerint a weboldalak készítői a saját lapjukon elhelyezett lin-
kekkel általában a számukra értékes weboldalakra mutatnak, ezál-
tal az összes hiperlink felfogható egy szavazatként a céloldalra.
Minél több szavazatot kap egy oldal, annál fontosabb, de azt is fi-
gyelembe kell venni, hogy a szavazatot leadó oldal mennyire fontos.
Az algoritmus által előállt valós szám a weboldal PageRank indexe.
A definíció rekurzív: az a fontos oldal, amire fontos oldalak mutatnak. Egy adott site
PageRank-je havonta változik, mert ennyi időnként a Google újra indexeli az internetes
oldalakat. A fenti alapötlet szerint kezdetben minden oldalnak egy egységnyi szavazata
van, amit egyenlően szétoszt azok között az oldalak között, amikre hivatkozik, és a más
oldalaktól kapott szavazatokat is ugyanígy továbbosztja. Egy oldal PageRankje megegye-
zik a kapott szavazatok számával, ami sok esetben nem egész szám. A PageRank képletét
később közöljük.
A PageRanket az alkotók szinkronizált PageRank nevezték, különlegessége tehát abban
áll, hogy képes figyelembe venni mind az adott honlapra mutató hivatkozások számát,
mind a hivatkozások forrásoldalára vezető hivatkozások számát. Ez a tudományos cikkek,
közlemények idézeteinek előfordulását számláló algoritmus fordítottja volt, de az ötlet
működött.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
43
A PageRank egy demokratikus, nehezen manipulálható rendszer, de a technológiának
vannak hibái, amit egyesek üzleti célból megpróbálnak kiaknázni, hiszen minden linket
működőnek fogad el. A manipulálás egyik kedvelt módszere a tetszőleges felhasználó által
szerkeszthető oldalakon (vendégkönyvekben, blogokban vagy wikikben) való spam (com-
ment spam) elhelyezése, ami jelentősen megnövelheti egy weboldal mutatóját. Néhány
ilyen link elenyésző mértékben növeli meg a kívánt weboldal PageRankjét, de nagy meny-
nyiségben alkalmazva már jelentős növekedést lehet elérni. A Google emiatt a közelmúlt-
ban egy új HTML attribútumot (rel="nofollow") javasolt a weboldalak forrásszövegébe,
ezzel kiszűrve a „comment spam” beírásokat.
A másik jellemző módszer a linkfarmok használata. A linkfarmok olyan weboldalak,
ahol nagyszámú „szolga” oldal van, amelyek egyetlen haszna az, hogy a kezdetben kapott
szavazatukat átadják a főoldalnak. A Google a PageRank érték 0-ra csökkentésével sújtja
azokat a linkfarmokat, amikről tudomást szerez. Vélhetően számos más módosítást is al-
kalmaz a Google, de ezeket jelentős részét vélhetően eltitkolja.
A Google szemszögéből kivédhetetlen probléma, hogy a magas mutatójú címek értéke-
sek lettek, és ezek eladása folyamatosan zajlik. A technológia igazán nagy vesztesei az új
weboldalak, hiszen rájuk biztosan nem mutat egyetlen link sem.
4.3.6 A PageRank képlete
A hibás szavazásos képlet
Az alapötlet szerint kezdetben minden oldalnak egy egységnyi szavazata van, amit
egyenlően szétoszt azok között az oldalak között, amikre hivatkozik, és a más oldalaktól
kapott szavazatokat is ugyanígy továbbosztja. Egy oldal PageRankje megegyezik a kapott
szavazatok számával, ami általában nem egész szám.
Az eljárás működőképessége miatt bevezetett d csillapító tényező (damping factor) sze-
repe: az oldalak a szavazatukból csak d részt osztanak tovább, (1-d)-t pedig megtartanak. A
mástól kapott szavazatokat teljesen továbbosztják. Így a PageRankre a következő képlet
adódik (7. kép).
7. kép A PageRank képelete
A 7-es képen szereplő jelölések:
− PageRank(i): az i. weboldal PageRank indexe
− M(i) az i. oldalra mutató linket tartalmazó weboldalak halmaza
− L(j) pedig a j. oldalról kimenő linkek száma.
− d a csillapító tényező
Normális esetben (a lógó linkek kizárása után), ha a vizsgált hálózat N oldalból áll, ak-
kor az egyes oldalak PageRankjeinek összege N lesz. Így a PageRank szavazás helyett úgy
is elképzelhető, mint a kezdetben a weblapok között egyenletesen elosztott fontosság át-
csoportosítása.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
44
Sztochasztikus szörföző
A PageRanket úgy is felfoghatjuk, mint annak a valószínűségét, hogy odatalálunk az
oldalra. A valószínűséget a sztochasztikus szörfözővel modellezzük, aki a weben bolyong,
és minden lépésben véletlenszerűen, egyenletes eloszlás szerint kiválaszt egyet az oldalon
található linkek közül, és azon halad tovább. (Más szóval véletlen bolyongást végez a
hiperlinkek alkotta irányított gráfon.) Hogy ne essen csapdába valamelyik olyan részgráf-
ban, amiből nem vezet kifelé link, a modellt kiegészítjük egy további elemmel: a szörföző
minden lépésben 1-d valószínűséggel elunja magát, és egy (egyenletes eloszlás szerint)
véletlenszerűen választott weblapra ugrik.
8. kép Az oldalakon tartózkodás esélyének számai
Így, ha az n.-ik lépésben az egyes oldalakon tartózkodás esélyét a 7. képen látható szá-
mok adják meg, akkor a következő lépés utáni valószínűségeket a 19-es képen látható kép-
lettel kapjuk.
9. kép A PageRank sztochsztikus képlete (valószínűségek alapján)
Az egyes lépésekben felvett pozíciók mint valószínűségi változók sorozata egy
irreducibilis és aperiodikus Markov-láncot alkot, tehát létezik határeloszlása. (Ehhez szük-
séges a csillapító tényező: ha a gráf nem lenne erősen összefüggő – márpedig egy véletlen
gráf 1 valószínűséggel nem az –, akkor a lánc reducibilis lenne.) Az oldal PageRankjét a
határeloszlásban hozzá tartozó valószínűségként definiáljuk. Ez a következő rekurzív kép-
letet adja a PageRankre:
10. kép A PageRank rekurzív képlete
Ez nem azonos a szavazásos képlettel: az 1-d tényező itt le van osztva az összes oldal
számával, tehát az így definiált PageRank az előzőnek éppen N-edrésze. Brin és Page ere-
detileg a sztochasztikus szörföző modelljéből vezette le a PageRank képletét, de eltévesz-
tették a képletet, és az N nélküli változatot publikálták. Bár a későbbi cikkekben kijavítot-
ták, mégis a „hibás” változat terjedt el, mert a gyakorlatban könnyebben számítható: N-t
nehéz meghatározni, mert a kereső a folyamatosan változó világhálónak egyszerre mindig
csak egy kis részét látja.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
45
A sztochasztikus szörföző modellel definiált PageRank tehát egy valószínűségi eloszlás
lesz: egy oldal PageRankje annak a valószínűsége, hogy nagyon sok véletlenszerű kattintás
(és ugrás) után éppen arra az oldalra érkezünk. (A PageRank reciproka az oldal várható
visszatérési ideje, azaz annak a várható értéke, hogy az oldalról elindulva hány lépés múlva
érünk vissza oda.)
Lógó linkek
A Google a html típusú dokumentumokon kívül más fájlformátumokat is indexel, ezek
többsége nem tartalmaz linkeket. Ezen túl a Google a web feldolgozását valós időben vég-
zi, így a letöltetlen vagy feldolgozatlan weboldalakat üresnek látja.
A lógó link (dangling link) egy zsákutcára mutató hivatkozás.
A zsákutca egy olyan weboldal, amelyen nem szerepel link.
Ezek a linkek gondot okoznak a PageRank számításakor, mert ha a zsákutcáknak is
adunk PageRanket, akkor a rendszerben levő összes szavazat kevesebb lesz az oldalak
számánál. A Google a PageRank-számítás idejére átmenetileg kitörli ezeket a linkeket.
PageRank a GoogleBarban
A GoogleBar által használt, 10-es skálájú értékelést gyakran összekeverik a
PageRankkel. A GoogleBar által mutatott érték jelentése valójában nem ismeretes – sokak
szerint a PageRanknek a 0–10 intervallumra logaritmikusan átskálázott és kerekített értékét
mutatja. (Ugyanez érvényes a Google Directory által mutatott értékekre is, csak ott 0–7-ig
van a skála.)
A GoogleBar néha olyan oldalakra is ad eredményt, amik nem szerepelnek a Google
indexében. Az ilyen eredmények valószínűleg a közeli oldalak PageRankjeire alapozott
találgatások.
4.3.7 A keresőoptimalizálás
A website lehet non-profit vagy üzleti jellegű, a legfontosabb cél ugyanaz, hogy arra
minél többen rátaláljanak. A statisztikák szerint a legtöbb weblapot a keresőoldalakon ke-
resztül találják meg, ezért lehet fontos a keresőoptimalizálás, ami a keresőmarketing része.
A keresőoptimalizálás (Search Engine Optimization, SEO) az a tevékenység, melynek
célja, hogy egy weboldalt a webes kulcsszavas keresők megtaláljanak, és a találati listában
a lehető legkedvezőbb helyre sorolják. Informatikai megközelítésben ez a tevékenység a
weboldalak szövegének változtatását, többnyire a metaadatok módosítását, illetve hozzá-
adását jelenti, hogy a kulcsszavak elhelyezésével a találati listán feljebb kerüljön az oldal.
Ez a fajta megjelenés ráadásul a legolcsóbb és egyik leghatékonyabb fajtája az oldalak
népszerűsítésének. Az is általánosan elismert tény, hogy a keresés eredményei közül az
első 10-20 találatnál, vagyis a találati lista néhány első oldalnál többet ritkán néznek meg a
felhasználók. A webes keresők adatbázisába ezért nem elég csak bekerülni, ugyanilyen
fontos a számunkra lényeges kulcsszavakra rákeresve a találati listában az előkelő helye-
zés.
A kereső optimalizálás egyik szakmai ága az ún. kiemelt keresők optimalizálása, ezek
között a Google Optimalizálás az egyik piacvezető irányzat. A Google Optimalizálás azért
az egyik közkedvelt szakterület, mert a Google piacvezető szerepéből adódóan a felhaszná-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
46
lók jelentős számban használják és üzleti érték, hogy hol található a weboldalunk a
Google-ben.
Az oldal látogatottságának növelésénél elsősorban arra a Google találatai közötti helye-
zést érdemes figyelni, amit jelentősen befolyásol, hogy hány és milyen látogatottságú web-
oldalról oldalról mutat a honlapunkra link.
12. Optimalizálási tippek: http://hungarianseo.com/
4.4 ÖSSZEFOGLALÁS
A keresőrobotok fogalma, szerepe, működése. A hivatkozási index (page ranking) je-
lentőségének vázolása a szolgáltató, a felhasználó és a könyvtárak honlapjainak keresése
szempontjából. Keresőoptimalizálás. A láthatatlan web fogalma, keresési lehetőségeinek
megismerése.
4.5 ÖNELLENŐRZŐ KÉRDÉSEK
1. Mutassa be a keresőroborokat!
2. Értelmezze a PageRank algoritmust! Vázolja jelentőségét!
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
47
5. A KULCSSZAVAS KERESÉS TECHNIKÁI
5.1 CÉLKITŰZÉS
A kulcsszavas keresés technikájának megismerése. A keresés hátterének elsajátítása a
matematikai logika szemszögéből. Összetett keresések készítése, kifejezések keresése, kulcs-
szavak összekapcsolása. A kulcsszavas keresők vezető szerepének, korlátainak megértése.
5.2 TARTALOM
Az online keresés jelentősége
Szabadszavas keresés
Keresés az OPAC rendszerekben
Online keresés lépései
Az 1. lépés: a keresőkérdés értelmezése
A 2. lépés: a keresőfelület kiválasztása
A 3. lépés: A keresőkérdés összeállítása
A 4-5. lépés: Stratégia és válasz
Keresés és szimbólikus logika
Online keresési stratégiák
5.3 A TANANYAG KIFEJTÉSE
5.3.1 Az online keresés jelentősége
Információt kereshetünk kulcsszavak (szabadszavak) alapján. A kulcsszavas keresők
technológiának lényege, hogy lehetővé teszi az indexelt információhalmazban (Például
weboldalak, képek stb.) a kulcsszavak, kereső-kifejezések alapján történő keresést. A sza-
badszavas keresők a Céltudatosan kereső felhasználók által messze leggyakrabban használt
keresési formát jelentik. A szabadszavas keresők minőségét elsősorban a kereső adatbázis-
ok mérete, az adatbázisok frissessége és a találati rangsor rangsorolásának minősége hatá-
rozza meg. Emellett olyan szolgáltatásokkal is segíthetik a keresést, mint a klaszterezés.
Az internetes keresés másik gyakori formája a tematikus katalógusok segítségével történő
keresés.
Nemzetközi szabadszavas kereső programok. Manapság már csak pár cég rendelkezik
annyi erőforrással, hogy a rengeteg weboldalon található tartalomról kielégítő méretű és
rendszeresen aktualizált adatbázist tarthasson fel. Becslések szerint a Google Inc. több
százezer személyi számítógépet használ. Nemzetközi viszonylatban fontos keresőknek
tartják a Google kereső, Yahoo! kereső, a Microsoft Bing keresője (régen MSN), Ask.com
szabadszavas keresőit. Említésre méltó még a Youtube videokereső, amelyet a Google
felvásárolt, illetve az Amazon.com könyvkereső rendszer, ami egyben online könyvesbolt
is. Pár éve még szerepe volt a Gigablast vagy a Wisenut keresőnek is.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
48
5.3.2 Kulcsszavas keresés
A kulcsszavas keresőrendszerek automatikusan (emberi beavatkozás nélkül) osztályoz-
zák a weboldalakat, felkeresik a számukra előírt weboldalakat, majd azok adataiból, objek-
tumaiból, esetleg a teljes szövegük alapján saját maguk készítenek egy adatbázist.
Keresés az OPAC rendszerekben
A keresési szokások, készségek alapvetően meghatározzák a keresés idejét. Az OPAC
hatékony használatához a szükséges technikai készségek mellett fontos az előbb felsorolt
lehetőségek ismerete.
A kereséssel összefüggő követelmények, a teljesség és pontosság fogalmát, és össze-
függéseit, a keresőkérdés, keresési stratégia összefüggéseit, az alkalmazható IKNY-ket, a
keresés két fő fázisának – az előkészítésnek és végrehajtásnak az elemeit, teendőit, az
igénybevehető kereséstechnikai eszközöket.
5.3.3 Online keresés lépései
Először a keresési folyamat lépésekre bontását kell megismernünk, utána tudunk a stra-
tégiáról beszélni. A folyamat ott kezdődik, hogy elkezdünk érdeklődni téma iránt, választ
szeretnénk kapni egy konkrét kérdése mi magunk, vagy egy olvasó, aki tőlünk, könyvtá-
rosoktól várja a segítséget. A lépések röviden:
− első lépés: a keresőkérdés értelmezése
− második lépés: a keresőfelület kiválasztása
− harmadik lépés: a keresőkérdés összeállítása
− negyedik lépés: a keresési stratégiája
− a stratégia és a keresőkérdés ciklikus módosítása (bővítés, csonkolás, kizárás stb.)
− ötödik lépés: a válasz összeállítása
5.3.4 Az 1. lépés: a keresőkérdés értelmezése
Első lépés a keresőkérdés értelmezése, pontosítása. Minél szisztematikusabban közelí-
tünk meg egy kérdést, annál nagyobb esélye van a sikeres találatoknak, ezért tisztázni kell
milyen eredményt várunk a kereséstől:
− bibliográfiát szeretnénk a témából (például a csecsemőgondozással kapcsolatban
milyen műveket érdemes beszerezni),
− a témához kapcsolódó cikkeket szeretnénk visszakapni (például a könyvtárunkról
megjelent cikkek),
− vagy pedig konkrét adatokat várunk (pl. hogy változott az euro árfolyama az el-
múlt egy évben?)
Ha más számára végezzük a keresést, akkor nagyon fontos további részletek pontosítá-
sa: Vannak-e korlátozások:
− adott időintervallum érdekli-e?
− milyen nyelvű anyagok lehetnek a találatok között?
− mit keresünk (a keresés tárgya):
pl: szabadszavas metaadat kereső: http://www.terport.hu/main.php?folderID=3108
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
49
Magyar nyelvű keresés esetén nem használható több kereső, például az Ask.com illetve
más angolszász környezetben népszerű említett feltörekvő kereső (Gigablast,Wisenut), mivel
se magyar nyelvű keresőfelületük nincs, se magyar nyelvre nem lehet leszűkíteni a keresést.
A Google kereső és a Bing Kereső saját oldalain nyújtja mindezt, de a magyar kereső-
rendszer (pl. ok.hu) jó választás lehet, ha magyar nyelven keresünk. A saját fejlesztésű a
magyar nyelvet figyelembe vevő keresést megvalósító oldalak közül a két legrégebben
működő szolgáltatás közül az egyik, a goliat.hu használhatatlanná vált; míg a másik oldal,
a heureka.hu használhatóságát is lekörözi sok újabb fejlesztésű rendszer, mint pl. a
tango.hu, vagy a kurzor.hu, melyek jobb találatokat és érdekesebb szolgáltatásokat nyújta-
nak. Sajnos azonban egyik magyar fejlesztésű oldal sem közelíti meg a fontos keresők
használhatóságát, kivéve talán a 2005 végén indult új keresőt, a tango.hu-t.
5.3.5 A 2. lépés: a keresőfelület kiválasztása
A keresőkérdés pontosítása után kiválasztjuk a keresőrendszert, a keresés terepét. Fi-
gyelemmel kell lennünk a következőkre:
− az előfizetett adatbázisok listája. Ha nincs, akkor a keresést elkezdhetjük egy általá-
nos keresőrendszerrel (pl. Google, Altavista), de sokkal hatékonyabbak lehetünk, ha:
– gondoljuk át, hogy milyen területekhez tartozik a keresett adat, pl gazdasági,
pedagógiai, politikai, jogi. Ha biztosak vagyunk az adat szakterületi vonatko-
zásában, akkor érdemes szakterületi vertikális keresőrendszert felkeresni.
– ha híreket, tudományos cikket, térképet, menetrendet stb. várunk találatként,
akkor célszerű egy speciális vertikális keresőhöz fordulni.
Példa:
Keresett témakör: diszlexia
Pedagógiai vonatkozásnál: pedagógiai adatbázis (pl: PAD – Pedagógiai Adatbázis,
mely cikkek bibliográfiai adatait tartalmazza
(http://opac.opkm.hu/index.php?fn=search/osszker )
11. kép Pedagógiai Adatbázis kereső felülete a diszlexia keresése esetén
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
50
Orvostudományi vonatkozásnál: orvosi adatbázis (pl. www.doktor.info.hu „betegség in-
formációk” menüpont; vagy drinfo.hu egészségmagazin anyagában)
12. kép dr.Info oldalán az oldal saját keresőmezője
Fogalom egy tudástárból: pl: Wikipédia
Általános áttekintés katalógus alapján: pl. Startlap
13. kép A keresőmező Startlapon keresésre állítva (egyébként a Goggle-t
használja)
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
51
Blogok keresése, mások megoldásinak keresése esetén: blogkereső segítségével
Valamilyen speciális szempont szerint: általános kulcsszavas kereső (pl. Google), ahol
fontos a keresőkérdés: diszlexia ÉS (gyógyítás OR kezelése) a Google esetén
Az összetett lépés miatt egy újabb példa következik:
Példa:
Példa:
Keresett témakör: diákhitel maximális összege
Hallgatói vonatkozásnál: pl. a felsőoktatási intézmény honlapja, kormányzati portál
vagy egy gazdasági hiteles online hírportál, pl. a HVG folyóirat (hvg.hu) lehet a jó ki-
indulás.
14. kép HVG találati listájának dátum szerinti szűkításe a „diákhitel”
kulcsszó esetén
Jogi vonatkozás: a pontos adathoz a jogszabály (pl. a Jogtár-ban (CD-ROM-os teljes
verzióval, vagy annak hiányában a Webjogtárban (ami nem tartalmazza a módosításo-
kat!): http://mkogy.complex.hu/jr/sf/startfrnp.html, ahol kiadjuk a Keres menü Összetett
keresés parancsát.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
52
15. kép Webjogtár összetett kereső felülete
5.3.6 A 3. lépés: A keresőkérdés összeállítása
Ha tudjuk, milyen felületen fogunk keresést végezni, akkor jöhet a keresőkérdés össze-
állítása. Először természetes nyelven megfogalmazzuk az igényünket, majd összeállítjuk a
keresőkérdést alapelemeit, ezután kialakítjuk a keresőkérdést.
Természetes nyelv
Elsőként természetes nyelven átfogalmazzuk a felhasználó kérését. Növelhető a haté-
konyság, ha a kérdés centrikus gondolkodást elvetjük, és inkább válasz centrikusan gon-
dolkodunk. A keresőkérdésben nem szerencsés kérdőszót használni, hiszen a keresőrend-
szerek tartalom alapján indexelik az oldalakat.
Példa:
Hány tanár van Egerben? kérdés helyett gondoljunk a válaszra, ami a weboldalakon
előfordulhat. Pl. Tanárok száma Eger iskoláiban…
A keresőkérdés alapelemei
Kiválasztjuk a keresőkérdésben használt kulcsszavakat. Megkeressük a keresett téma
központi fogalmait, ezek lesznek a kulcsfogalmak. A szinonimákat nem mellőzhetjük,
jelentőségét az adja meg, hogy a honlapokon egy számunkra releváns oldalnál lehet, hogy
éppen azt használják.
A következőkre érdemes még ügyelni:
− az egyes és a többes szám használatánál az egyes számot preferáljuk,
− a helyesírási változatok használatára (file, fájl)
− a szóvariációkra (gyerek, gyermek)
− ha létezik, akkor a mozaikszó is kulcsszó lehet (Oktatási Minisztérium, OM)
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
53
− a tárgyszavakra (köznyelvben: újság, sajtó, lap, preferált szava: periodikum, tárgy-
szava: időszaki kiadvány, vagy: szentírás, tárgyszava: biblia)
− olykor a gyakori gépelési hibákat is érdemes egy kulcsszóban meghagyni, mert sok
weboldalon szintén elírhatták (például „telefon” helyett „telfon”)
− a fiatalokkal kapcsolatos témáknál az SMS-ből átvett összevont szórövidítéseket is
érdemes kulcsszóként szerepeltetni, melyeket egy rövidítés szótárból nézhetünk ki.
13. www.rovidites.hu: http://rövidítés.hu/
A keresőkérdés összeállítása
Az összeállítás az utolsó lépés a konkrét keresőkérdés kialakításához, ezután a végleges
formát a keresőrendszer weboldalán a keresőmezőbe írjuk. A keresőrendszerhez kapcsoló-
dó beszélt nyelv (hazánkban többnyire magyar, esetleg angol) kiemelt fontosságú lehet,
különösen a vertikális keresők esetén.
A szolgáltató lehetőségeit megismerhetjük a súgó rendszerből. Itt megtudhatjuk, hogy
használhatók a logikai vagy a helyzeti operátorok. Mindenképpen tudjuk meg, hogy szük-
séges a csonkoló jelek használata, vagy automatikus csonkolást használ a rendszer.
5.3.7 A 4-5. lépés: Stratégia és válasz
A negyedik lépés a stratégia kialakítása. A gyorskeresés a keresés legegyszerűbb for-
mája, amikor egyetlen keresőszót írunk be. A keresőkérdést kulcsszavaik bontva az ún.
építőkockák segítségével a találatunk már pontosabb lehet. A találatokra alapozó keresés
akkor lehet hasznos, ha birtokunkban vannak a keresés tárgyával kapcsolatban releváns
adatok.
A találati eredmény természetesen még ezután is számtalan módon javítható: a sok talá-
lat szűkíthető, egyes elemek a keresésből kizárhatók. Ha kevés találat van, akkor csökkent-
hető a kulcsszavak száma, használhatjuk a szó szinonimáit stb.
Ha nem kapunk ezután sem releváns találatokat, akkor elképzelhető, hogy az egész ke-
resést újra kell kezdeni, egészen más stratégiával. A stratégiákról részletesen szól egy önál-
ló fejezet.
Az ötödik lépés a válasz összeállítása. A választ a kérdést feltevő számára közölni kell.
alatt értjük a végső anyag összeállítását, melyet befolyásol a kiindulási lépésünk: kinek és
milyen céllal végeztük a keresést.
Ha bibliográfiai adatokat gyűjtöttünk, akkor a találatainkat egységesíteni, majd rendezni
kell. Ha pedig tényadatokat gyűjtöttünk, akkor is érdemes egy anyagban összefoglalni,
hogy hol és mit tudtunk kideríteni a témában, ki és hogyan definiálja a fogalmat, pontos
hivatkozásokkal ellátva.
A legutolsó lépés pedig, ha szükséges, elindítani a találatok alapján az eredeti cikkek,
művek beszerzését.
5.3.8 Keresés és szimbólikus logika
A logikai operátorok megalkotása – a 19. század közepén – George Boole nevéhez fű-
ződik, ezért gyakran nevezik Boole-operátoroknak is. A szabatos keresőszó kialakítása
ritkán nélközi, a kulcsszavas keresés nélkülözhetetlen részévé vált. Az itt tárgyalt operáto-
rok a szimbólikus logika tárgyalási alapjául szolgálnak. Az operátorok jelentésének szem-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
54
léltetésére a halmazelméleti megközelítés a legegyszerűbb, amit a bemutatásnál rendre
megteszünk. Egy-egy kulcsszót tartalmazó weboldal vagy más dokumentum keresőrend-
szerbeli rekordjai egy-egy halmazt jelenteni, ezen halmazokból halmazműveletekkel ké-
pezhető, és szemlélesen Venn-diagramon ábrázolható a találati lista rekordjainak halmaza.
Az informatikában, így a kulcsszsvas keresésnél is a következő logikai operátorok sze-
repe hangsúlyos: AND (és), OR (megengedő vagy), NOT (nem), XOR (kizáró vagy). Több
kulcsszó is összefűzhető, a kulcsszavak számának korlátai keresőrendszerenként eltérőek
lehetnek.
A magyar nyelvű keresőrendszerek sem engedik meg minden esetben az angol helyett
vagy mellett a magyar nyelvű operátorok alkalmazását, erről a használat előtt szükséges
tájékozódni. A felsorolt operátorok használatát és a logikai művet kapcsán azok tuljdon-
ságait fejtjük ki a leckében.
AND operátor
Az AND operátor a találati lista pontosítására, szűkítésére szolgál. Az AND a keresés-
nél a leggyakrabban használt logikai operátor, magyarul „ÉS” operátor, mely több kereső
szó együttes előfordulását követeli meg. Jelölése két kulcsszó (emlős, tenger) esetén:
− angol nyelvű operátorokkal: „emlős AND tenger”
− magyar nyelvű operátorokkal: „emlős ÉS tenger”.
− gyakran előforduló, rövid operátorral: „emlős + tenger”
− operátor nélkül: „emlős tenger”
Példa:
Kulcsszavak: könyvtár, informatika
Keresőkérdés: „könyvtár ÉS informatika”
Eredményhalmaz elemei: a könyvtár informatikával kapcsolatos, továbbá az informati-
kával kapcsolatban lévő könyvtárak (pl. a Windows operációs rendszerben a mappa)
weboldalai, dokumentumai. Ugyanakkor a két témakörrel kapcsolatba hozható számos
más találatra is számíthatunk, pl. informatikai kiállítás a könyvtárban.
Az AND operátor értelmezése halmazelméleti szempontból: két halmaz elemeinek met-
szete azon elemek halmaza, melyek az első és a második halmaz (esetleg több halmaz)
mindegyikének eleme, vagyis az AND operátor megfeleltethető két halmaz közös részének.
16. kép AND operátor találati halmaza
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
55
Több kulcsszó is összefűzhető, a kulcsszavak számának korlátai keresőrendszerenként
eltérőek lehetnek. Az AND operátor egyes keresőrendszerek esetén alapértlemezett, így a
keresőmezőbe gépelt, szóközzel elválasztott, operátorok nélkül keresőszavak alapértelme-
zésben AND operátorral összekepcsolt kulcsszavak a keresőkérdésben.
Példa:
Keresőrendszer: Google
Kulcsszavak: drágakő, kiállítás, ár
Keresőkérdés: „drágakő kiállítás ár” vagy „drágakő AND kiállítás AND ár”
A legtöbb adatbázis keresőkérdésében az AND operátor az alapértelmezett, ami érthető,
hiszen a legtöbb esetben használt operátorról van szó.
Példa:
Keresőrendszer: ScienceDirect adatbázis
Kulcsszavak: bone, genetic
Keresőkérdés: „bone genetic” vagy „bone AND genetic”
Keresőrendszer: ERIC adatbázis
Kulcsszavak: knowledge, management
Keresőkérdés: „knowledge management” vagy „knowledge AND management”
OR operátor
Az OR operátor a találati lista bővítésére szolgál. Az OR operátor eredményhalmaza a
kulcsszavak közül legalább egyet tartalmazó találatokat szolgáltatja, ebbe beletartoznak
azok a honlapok és dokumentumok is, amelyekben több, vagy akár az összes kulcsszó is
megtalálható. Magyarul megengedő VAGY operátornak nevezték el, mivel a találalati
listába kerüléséhez a dokumentumban elég csak egyetlen kulcsszónak szerepelnie Jelölése
két kulcsszó (emlős, tenger) esetén:
− angol nyelvű operátorokkal: „emlős OR tenger”
− magyar nyelvű operátorokkal: „emlős VAGY tenger”.
Példa:
Kulcsszavak: könyvtár, informatika
Keresőkérdés: „könyvtár OR informatika”
Eredményhalmaz elemei: tartalmazzák a könyvtár, vagy az informatika, vagy mindkét
kifejezést:
- könyvtári vonatkozású találatok
- az informatika könyvtáron kívüli ágai pl. informatika oktatás, informatikai biztonság
stb. (ha szerepel az informatika szó a weboldalon vagy az oldal metaadatai között)
- könyvtár AND informatika találatai
Az OR operátor értelmezése halmazelméleti szempontból: két vagy több halmaz uniója
azon elemek halmaza, melyek legalább az egyik halmazban megtalálhatók, azaz a halma-
zok összes eleme.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
56
17. kép OR operátor találati halmaza
NOT operátor
A NOT operátor a találati lista pontosítására, szűkítésére szolgál. A keresőkérdésben
fogalmakat zárhatunk ki a NOT operátorral, így a találati listában a NOT utáni kulcsszót
tartalmazó weboldalak, dokumentumok egyáltalán nem szerepelnek. Jelölése két kulcsszó
(emlős, tenger) esetén:
− angol nyelvű operátorokkal: „emlős NOT tenger”
− magyar nyelvű operátorokkal: „emlős NEM tenger”.
18. kép NOT operátor találati halmaza
Példa:
Kulcsszavak: könyvtár, informatika
Keresőkérdés: „könyvtár NOT informatika”
Eredményhalmaz elemei: azon rekordok, melyekhez tartozó weboldalak vagy doku-
mentumok tartalmazzák a könyvtár kifejezést, ugyanakkor azokban biztosan nem sze-
repel az informatika kifejezés.
XOR operátor
Az XOR operátor az AND operátor helyett a találati lista sajátos szűkítésére szolgál. Az
XOR (exclusive OR) operátor azon rekordokat szerepelteti a találati listáján, melyek do-
kumentumai csak a kulcsszavak egyikét tartalmazzák, de a kettőt együtt nem. Az XOR
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
57
operátor magyar neve kizáró VAGY, mivel kizárja azon weboldalakat, dokumentumokat,
melyek a kulcsszavakat együtt tartalmazzák. A kizáró kifejezésnek az OR operátorral ösz-
szevetve értelmezhető. Jelölése két kulcsszó (emlős, tenger) esetén:
− angol nyelvű operátorokkal: „emlős XOR tenger”.
19. kép XOR operátor találati halmaza
Példa:
Kulcsszavak: könyvtár, informatika
Keresőkérdés: „könyvtár XOR informatika”
Eredményhalmaz elemei: olyan rekordok, melyek dokumentumai tartalmazzák a
könyvtár, vagy az informatika, de mindkét kifejezést biztosan nem.
A keresőrendszerekben nem minden esetben találjuk meg az XOR operátort, mert he-
lyettesíthető a fentebb ismertett három Boole-operátor használatával.
Példa:
A helyettesítés lehetséges két esete:
Kulcsszavak: könyvtár, informatika
Keresőkérdés: „könyvtár XOR informatika”
Keresőkérdés: „(könyvtár OR informatika) NOT (könyvtár AND informatika)”
Keresőkérdés: „(könyvtár NOT informatika) OR (informatika NOT könyvtár)”
Operátorok prioritása
Ahhoz, hogy helyesen tudjuk használni a logikai operátorokat a kereső kifejezések ösz-
szekapcsolására, fontos ismernünk az operátorok jellemzőit. Legfontosabb jellemző a a
prioritás (kiértékelési sorrend). Ha egymás után több azonos operátort használunk, akkor a
kiértékelés balról jobbra haladva történik:
Példa:
Keresőkérdés: „tanulás AND zavar AND kezelés AND középiskola”
Operátorok proiritása: elsőként a „tanulás AND zavar” kereső kifejezések metszete ha-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
58
tározódik meg, majd ezt szűkíti a keresőrendszer a kezeléssel is foglalkozó találatokra,
végül leszűri a középiskola kifejezéseket tartalmazó találatokat.
Ha különböző operátorokat használunk, akkor a kiértékelési sorrend:
4. AND operátor és NOT operátor (egyenrangúak),
5. OR operátor.
Példa:
Keresőkérdés: „felnőttképzés OR pedagógus AND továbbképzés”
Operátorok proiritása: elsőként a „pedagógus AND továbbképzés” kereső kifejezések
metszetét veszi, ezután annak eredményhalmaza OR felnőttképzés következik.
keresőkérdésben először a találatait kapjuk meg, majd ennek az.
Példa:
Nézzünk meg még egy példát, mely szemléleti miért olyan fontos odafigyelni erre a
szabályrendszerre!
Keressünk irodalmat a tanulási zavarokkal, problémákkal küzdők kezelésére. Ha a ke-
resőkérdést így írjuk be:
tanulás AND zavar OR probléma AND kezelés
akkor a kiértékelése a következő:
A rendszer leszűri a tanulás AND zavar keresőkérdés találatait;
majd leszűri a probléma AND kezelés találatait;
ezután veszi a két eredmény halmaz unióját, tehát a találataink tanulási zavarral vala-
mint a problémakezeléssel lesznek kapcsolatosak, melynek része a keresőkérdésünk
irodalma is, de mellette a problémakezelés minden válfajának irodalmát is megkapjuk.
A kiértékelést felülbírálhatjuk zárójelek használatával!
Az előző példa helyesen: tanulás AND (zavar OR probléma) AND kezelés. A kiértéke-
lés sorrendje: a keresőrobot veszi a zavar OR probléma eredményhalmazát, melyhez hoz-
zákapcsolódik a tanulás AND operátorral, és ennek az egésznek eredményét szűkíti a keze-
lés kifejezést is tartalmazó találatokra.
Megjegyzés: Nagyon ritkán előfordulhat olyan adatbázis, mely ettől eltérő kiértékelési
sorrendet használ, ezért új adatbázis használat esetén érdemes megnézni a leírását, súgóját
a keresőfelületnek. Pl. ScienceDirect-nél a kiértékelési sorrend:
1. Zárójel
2. OR operátor
3. AND operátor
4. NOT operátor
Operátorok kommutativitása
A kommutativitás (felcserélhetőség) tulajdonság egyező operátorok használata esetén
nem befolyásolja az eredményt a kulcsszavak sorrendje. Az AND, OR, XOR operátorok
kommutatívak. Legyenek a, b karakterek tetszőleges kulcsszavak, akkor igaz, hogy
a OR b = b OR a
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
59
a AND b = b AND a
Példa
könyvtár AND informatika ugyanazon találatokat adja, mint az informatika AND
könyvtár.
Operátorok asszociativitása
Az asszociativitás (csoportosíthatóság) több kereső kifejezést azonos logikai operátorral
összekapcsoló keresőkérdésben tetszőlegesen elhelyezhetünk zárójeleket, anélkül, hogy az
eredményt befolyásolná. Az asszociativitás az AND, OR, XOR operátorokra jellemző tu-
lajdonság. Legyenek a, b, c karakterek tetszőleges kulcsszavak, akkor igaz, hogy
a OR b OR c = a OR (b OR c) = (a OR b) OR c
a AND b AND c = a AND (b AND C) = (a AND b) AND c
Operátorok disztributivitása
Az AND operátor disztributív az OR operátorra nézve, ami azt jelenti, hogy
a AND (b OR c) = (a AND b) OR (a AND c),
ha a, b, c karakterek tetszőleges kulcsszavak.
Bár a valós számok halmazán csak a szorzás disztributív az összeadásra nézve, a hal-
mazoknál kölcsönös disztributivitásról beszélhetünk, azaz az OR operátor is disztributív az
AND operátorra nézve:
a OR (b AND c) = (a OR b) AND (a OR c),
ha a, b, c karakterek tetszőleges kulcsszavak.
Példa:
információ AND (visszakeresés OR története) keresőkérdés megfelel a
(információ AND visszakeresés) OR (információ AND története) keresőkérdésnek.
Érdekel minden történelemmel kapcsolatos mű, de a magyar egyetemek története külö-
nösen. Erre megoldást hoz az alábbi keresőkérdés:
(magyar AND egyetem) OR történelem
Ugyanazt a találati halmazt hozza a
(magyar OR történelem) AND (egyetem OR történelem)
5.3.9 Online keresési stratégiák
Melyik keresőt érdemes használni? Ha pontosan tudjuk mit szeretnénk keresni, akkor a
Google kereső és a startlap.hu szolgáltatásaival élhetünk. Ha itt nem találtunk rá a keresett
információra, akkor próbáljuk meg a Yahoo! keresővel vagy a Bing keresővel.
Ha magyar nyelvű közegben keresünk, akkor megfelelő lehet még a tango.hu, kurzor.hu
és az ok.hu találati listái is.
Az alábbiakra érdemes odafigyelni:
− a keresés lépéseinek betartása
− a keresőkérdés nem biztos, hogy elsőre megfelelő, hiszen annak finomítása több-
lépcsős folyamat
− több keresőrendszert is igénybe vehetünk
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
60
− adott tudományághoz, iparághoz szorosan kapcsolódó keresésnél az adott szakmai
keresőket érdemes használni
− nem minden kereső alkalmas a magyar nyelvű találatok megjelenítésére
Gyorskeresés
A keresés legegyszerűbb formája, amikor egyetlen keresőszót írunk be. Ekkor nagy és
pontatlan találati halmazra számíthatunk. Ezt a keresési stratégiát briefsearch-nek (egysze-
rű gyorskeresésnek) nevezik. A módszert akkor érdemes használni, ha ismerkedünk a té-
mával, vagy nincs ötletünk a pontosabb keresésre, így elvégezzük előbb a gyorskeresést,
majd a találatok türkében pontosítunk.
Keresés egy általunk nem ismert nyelven
Az idegen nyelvű kulcsszavak megállapításához, majd a találatok megértéséhez hasz-
nálhatunk szótárat, illetve fordító szolgáltatást.
Példa:
A Google az angol (és sok más) nyelvű találat fordítását is elvégzi
A Morphologic cég webfordítás.hu oldala szótárként és weboldal fordító szolgáltatás-
ként használható
A szótárak közül egy fiatalos, kiejtéseket is tartalmazó a dict. sztaki.hu.
14. A Morphologic cég szótár és webfordító szolgáltatása: http://webfordítás.hu
15. A SZTAKI webszótára: http://dict.sztaki.hu.
20. kép A Google fordítási lehetősége a találati lista egy rekordjánál, ke-
resőkérdés „rent a bike”
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
61
21. kép A Webfordítás.hu weboldal fordítási lehetősége a találati lista egy
rekordjának URL címér átmásolva
22. kép A SZTAKI webszótára
Fogalmi építőkockák módszere
A keresőkérdést kulcsszavaira bontjuk, ezek képeznek egy-egy építőkockát. Minden
építőkockán belül összegyűjtjük a kulcsszavak szinonim kifejezéseit, és egyéb előfordulási
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
62
lehetőségeit. A keresőkérdés összeállítása pedig: az építőkockán belül található elemeket
OR operátorral kapcsoljuk össze, minden építőkockányi részt zárójelezzük és az egyes
építőkockákat kapcsoljuk össze a megfelelő logikai operátorral.
Példa:
Keresendő: Informatika oktatása a fejlett Egyesült Államokban gyermekek számára.
Kulcsszavak: informatika, oktatás, Egyesült Államok, gyerek, mivel a „fejlett” szó nem
releváns, a „számára” kifejezést pedig nem hasznos szó.
Szinonimák, alternatív kifejezések a kulcsszavakhoz:
- informatika kulcsszóhoz: számítástechnika, programozás, algoritmizáslás
- oktatás kulcsszóhoz: tanítás, képzés
- Egyesült Államok kulcsszóhoz: USA, US, amerikai
- gyerek kulcsszóhoz: gyerek, diák
Keresőkérdés (csonkolással):
(informatika* OR számítástechnika* OR programozás*) AND
(oktatás* OR tanítás* OR képzés*) AND
(Egyesült (W) Államok OR USA OR US OR Amerika*) AND
(gyerek* OR gyermek*)
Megjegyzés: acsonkolást a * karakterrel jelöltük, ami keresőrendzsrenként eltérő lehet.
Találatokra alapozó keresés
Ha találunk egy releváns információt, vagy weboldalt, akkor ezt az információt felhasz-
nálva határozzuk meg a következő lépést, abból meríthetünk ötletet.
A további keresés kiindulópontja lehet: a mű szerzőjének neve, az oldalon található, a
témához kapcsolódó elismert nevek és azok művei. Ezt sok esetben a hivatkozások között
találjuk meg, így az új kucsszvakkal pontosítható keresőkérdés és a találat hitelesebb lehet.
A találati eredmény javítása
A keresés alapvető problémája a túl szűk vagy ellenkezőleg az igen bő találati lista.
Nagy mennyiségű találat esetén érdemes a szűkíteni azt a keresőkérdés átfogalmazásával.
Néhány ötlet:
− a keresőkérdés módosítása új fogalmak hozzáfűzésével az ÉS (AND) operátorral
− találatokat kizárása a DE NEM (NOT) operátorral
− az operátorokat szerepének átgondolása, például „Minőségbiztosítás az oktatásban,
iskolákban” kérdés keresőkérdése lehet: „minőségbiztosítás AND (oktatás OR is-
kola)”. Zárójel nélkül magas találati számra számíthatunk, hiszen magkapjuk a mi-
nőségbiztosítás az oktatásban, valamint az összes iskola témájú művet.
− konkrét kifejezések használata (adótörvények helyett pl: SZJA, adókedvezmények
2010, egyéni vállalkozó adója keresőkérdés alaklmazása
− tárgyszavak, szakkifejezések alaklmazása a keresőkérdésben, (pl. „bolognai képzé-
si rendszer a felsőoktatásban”, vagy „integrált könyvtári rendszerek”.
A találatok csekély száma még módot sem ad a témakörben történő elmerülésre,
öteletek a a keresőkérdés bővítéséhez:
− a keresőszavak számának csökkentése
− újabb keresőszavak a keresőkérdésben VAGY operátorral
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
63
− a kulcsszavak szinonimáinak, más helyesírási változatainak szereepltetése a kere-
sőkérdésben VAGY operátorral
− csonkolás
− a fogalmi strúktúra magasabb szintéről egy fölérendelt kifejezés alkalmazása a ke-
resőkérdésben, pl. vadvizi kajakozás helyett extrém sportok
Ha ezután nincs releváns találat, akkor a keresőkérdést részben vagy teljes egészében
meg kell változtani, tovább konkretizálhatjuk, illetve a fölérendeléssel cserélhetjük a kere-
sőszavakat. A keresőrendszer váltás különosen a magyar nyelvű találatok esetén hozhat
sikert a vertikális keresőrendszerek kipróbálásával
5.4 ÖSSZEFOGLALÁS
Az internetalapú keresések stratégiájának részletes, példákon keresztül bemutatott je-
lentősége. A találatok szűkítési, bővítési és pontosítási lehetőségei. Összetett keresések
bemutatása, kifejezések keresése, kulcsszavak összekapcsolása. Az internetalapú keresés
jelenlegi korlátai, a jövőben várható, az emberi gondolkodáshoz jobban igazodó keresők
működésének elvi alapjai.
5.5 ÖNELLENŐRZŐ KÉRDÉSEK
1. Mutassa be a keresés lépéseit!
2. Mutassa be a Boole operátorokat!
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
64
6. GOOGLE, MINT KERESŐ ESZKÖZ
6.1 CÉLKITŰZÉS
A Google, mint az interneten elérhető legösszetettebb keresőszolgáltatás alapvető szol-
gáltatásainak megismerése, használatának elsajátítása.
6.2 TARTALOM
Google történet és a könyvkereső
Google keresőrobot
Új index
A Google indexelő része
A kulcsszavas keresés használata
Egyéb kereső szolgáltatások
Legyőzni a Google-t
Google Map és a Web20.
Google, mint a jövő
6.3 A TANANYAG KIFEJTÉSE
6.3.1 A Google keresőrobot háttértörténete
Egy kissé szokatlan történet, hiszen nem a Google fő termékéről szól, de ez az alapja a
Google keresőrendszer működésének is, azaz a hivatkozások figyelembe vétele a tsalálati
lista kialaíkátásánál.
A BackRub névre keresztelt projekt a Google alapítása előtt indult. 1996-ban, a Google
alapítói, Sergey Brin és Larry Page frissen végzett informatikus hallgatók voltak, akik a
Stanford Digital Library Technologies Project által támogatott kutatómunkában vettek
részt. Céljuk az volt, hogy működő digitális könyvtárakat hozzanak létre, ötletük pedig a
következő: a jövendőben, amikor majd a könyvgyűjteményeket óriási mennyiségben fog-
ják digitalizálni, az emberek egy „feltérképező robotot” fognak használni a könyvek inde-
xelésére, és a közöttük lévő kapcsolatok elemzésére, bármely adott könyv relevanciáját és
hasznosságát olyan módon határozva meg, hogy a más könyvekben lévő idézetek számát
és minősítését követik figyelemmel.
Az elkészült feltérképező robot akkor még a BackRub nevet viselte. A hagyományos
idézet-elemzést ez teljesen megváltoztatta, amely a Google PageRank algoritmusait ihlette.
Meddig tartana a világ minden könyvét digitálisan beolvasni? Kiderült, hogy senki sem
tudta. Larry Page eldöntötte: saját maga fogja ezt kikísérletezni. Egy napon módszeresen
átlapozott egy 300 oldalas könyvet, amihez 40 perc kellett.
A világszerte folyamatban lévő számos kiemelkedő digitalizálási projekt – a Kongresz-
szusi Könyvtár American Memory projektje, a Gutenberg projekt, a Million Book projekt
és a Universal Library, hogy csak néhányat nevezzünk meg – hatása kapcsán több helyszí-
ni látogatáson tájékozódnak a projektek menetéről.
A tényfeltáró küldetés részeként Larry Page kapcsolatba lép a Michigani Egyetemmel,
itt végzett ő maga is, és ez az egyetem úttörőnek számít a könyvtár-digitalizálási erőfeszí-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
65
tések terén, például a JSTOR és a Making of America révén. Amikor megtudja, hogy a
jelenlegi becslések szerint az egyetemi könyvtár hétmillió kötetének beolvastatása 1000
évbe telne, kijelenti a rektornak, Mary Sue Colemannek, hogy szerinte a Google ezt hat év
alatt teljesítené.
2003-ban a csapat egyik tagja elutazik egy jótékonysági könyvvásárra Phoenix-be, Ari-
zona államba, hogy könyveket szerezzen be a roncsolásmentes beolvasási technikák teszte-
léséhez. Számtalan kísérletet követően a csapat kidolgoz egy olyan beolvasási módszert,
amely sokkal finomabban bánik a könyvvel, mint az aktuálisan elterjedt nagy sebességű
eljárások.
A csapat szoftvermérnökei is előbbre lépnek a műszaki problémák megoldása terén.
Ezek a problémák akkor merülnek fel, amikor a 430 különböző nyelvű, eltérő formájú,
szokatlan betűtípusokkal írott, vagy más, váratlan sajátosságokkal bíró könyvekből szár-
mazó információkat akarják feldolgozni.
2004-ben a csapat látogatást tesz egy neves könyvtárban, és lenyűgözi őket az a meleg
fogadtatás, amelyben részesülnek. Az Oxfordi Egyetemen 1602-ben Sir Thomas Bodley
által alapított Bodley-féle könyvtár küldetése mindig is az volt, hogy ne csupán az egyete-
mi közösséget, hanem az egész világot szolgálja. Mialatt a polcok között sétálnak, a
könyvtárosok olyan évszázados „felvágatlan” könyveket hoznak elő, amelyek csak ritkán
látták a napvilágot. Mióta Shakespeare a drámáit megírta, először tűnik úgy, hogy az ezen
könyvekhez hozzáférő irodalomtudósok szűk köre exponenciálisan bővíthető. A látogatás
ihlető erejű, és az azt követő találkozók és megbeszélések formális partnerséghez vezetnek,
amelynek keretében három éven belül digitalizálni fogják a könyvtár szellemi köztulaj-
donban lévő, 19. századi, egymillió kötetes, egyedülálló gyűjteményét.
Eközben a világ legnagyobb kiadóival folytatott előzetes megbeszélések sora kezdi
meghozni gyümölcsét. Októberben Larry és Sergey bejelenti a „Google Print”-et, a német-
országi Frankfurti Könyvvásáron. A programhoz elsőként csatlakozó kiadók: Blackwell,
Cambridge University Press, a University of Chicago Press, Houghton Mifflin, Hyperion,
McGraw-Hill, Oxford University Press, Pearson, Penguin, Perseus, Princeton University
Press, Springer, Taylor & Francis, Thomson Delmar és a Warner Books.
Decemberben bejelentjük a „Google Print” könyvtárprojekt indulását. Ezt a Harvarddal,
a University of Michigannel, a New York Public Libraryval, Oxforddal és Stanforddal
kötött partneri megállapodások teszik lehetővé. Ezeknek az egyedülálló könyvtáraknak az
összesített gyűjteménye a becslések szerint meghaladja a 15 millió kötetet.
2005-ben a „Google Print” csapat visszatér a Frankfurti Könyvvásárra, és bejelenti,
hogy a „Google Print” most már nyolc európai országból is fogad partnereket: Ausztriából,
Belgiumból, Franciaországból, Németországból, Olaszországból, Hollandiából, Spanyolor-
szágból és Svájcból.
Annak érdekében, hogy a világ információinak megszervezésére és általánosan hozzá-
férhetővé tételére irányuló küldetésünknek megfeleljenek, 3 millió dollárt adományoznak a
Kongresszusi Könyvtárnak, hogy segítsék felépíteni a Világ Digitális Könyvtárát, amely
bárhonnan hozzáférést fog nyújtani a ritka és egyedi tételekhez. Kiterjesztjük a Könyvtár
tesztelési célú beolvasóprogramját, amely most már magában foglalja a Kongresszusi
Könyvtár jogi könyvtárában lévő történelmi értékű művek digitalizálását is. A Google
átnevezi a „Google Print”-et Google Könyvkeresőre, amely jobban tükrözi használatának
módját. A csapat megválaszolja a könyvtárprojekt vitás kérdéseit is, nyilvános vitát vállal-
va az alapelvekről.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
66
2006-ban Mary Sue Coleman, a Michigani Egyetemen rektora, az Amerikai Kiadók
Szövetségénél (Association of American Publishers – AAP) tartott megindító beszédében
elmondja, hogy az egyetem miért döntött a velünk kötött partneri megállapodás mellett a
könyvtárprojektben, aláhúzva a könyvek digitalizálásának fontosságát olyan természeti
katasztrófák tükrében, mint például a Katrina hurrikán. Röviddel ezt követően felkérték
partnereiket, hogy mondják el, kívánnak-e olvasóiknak közvetlenül a böngészőprogramok-
ból teljes online hozzáférést nyújtani a könyvekhez. Ez az első a számos új lehetőségből,
amelyet a kiadókkal szorosan együttműködve fejlesztettek ki, segítve őket abban, hogy
megtapasztalják a könyvek online eladásának újszerű módjait.
Egy sor termékfejlesztést indítunk útjára, hogy a Könyvkeresőt hasznosabbá és köny-
nyebben kezelhetővé tegyük. Először is kiterjesztjük a hozzáférést a már beolvasott, szel-
lemi köztulajdonban lévő művekre úgy, hogy egy PDF-letöltés gombot adunk hozzá a
szerzői jog alá nem eső könyvekhez. Néhány hónappal később kiadjuk az új böngészőfelü-
letet, amellyel könnyebb böngészni és tájékozódni a Könyvkeresőben. Az új felülethez új
Infó erről a könyvről oldalak is társulnak, amelyek a Google algoritmusait használják fel,
hogy az oldalakat a könyvhöz tartozó gazdag tartalommal lássák el – kezdetben a kapcso-
lódó könyvek, kiválasztott oldalak és a tudományos munkákból származó hivatkozások
kerülnek ide. Ősszel négy új könyvtár társul a könyvtárprojekthez: a Kalifornia Egyetem, a
madridi Complutense Egyetem, a Wisconsin – Madison Egyetem, valamint a Virginia
Egyetem.
2007-ben az új felhasználói felületet kiindulópontként használva új módszereket kísér-
leteztek ki arra, hogy az emberek a könyvekhez jussanak:
− a könyvben lévő földrajzi helyek helyek összekapcsolása a Google Térképekkel,
később a fordítottját is tervezik: a felhasználó kiválaszt egy helyet, és megkapja a
társított könyveket.
− népszerű szakaszok követése a könyvek közötti navigálás új módja, egyetlen sza-
kasz használatát a könyvek egész gyűjteményén keresztül végigkövethetjük
− saját könyvtárral a Google keresés a saját könyvgyűjteményükön belül használtó,
mivel a felhasználók saját maguk kezdik gondozni és másokkal megosztani szemé-
lyes könyvtáraikat, ismertetőiket és osztályzataikat.
Marissa Mayer az Egyesült Államokban bemutatja az Univerzális Keresőt, és a Könyv-
kereső a Google keresés még szervesebb részévé válik. Májusban a Lausanne-i Kantoni és
Egyetemi Könyvtár, valamint a Genti Egyetemi Könyvtár csatlakozik a Könyvkereső prog-
ramhoz, nagy mennyiségű francia, német, flamand, latin és más nyelvű könyvvel szaporít-
va az állományt. Az európai könyvtárpartnerek száma ezzel hatra nő.
Júliusban hozzáadtuk a „Megtekintés egyszerű szövegként” hivatkozást az összes, szer-
ző jog hatálya alá nem eső könyvhöz. T.V. Raman elmagyarázza, hogyan nyitja meg ez a
könyvet az adaptív technológiák, például a képernyőolvasók és Braille-megjelenítők szá-
mára, lehetővé téve a látássérült felhasználóknak, hogy éppolyan könnyen olvassák ezeket
a könyveket, mint a látó felhasználók.
6.3.2 A Google indexelő része
A Google számos innovációja a keresőrendszer minden elemét érinti. Az indexelő rész
a keresőmotor újításaira alapozva leginkább a rejtett web egyre nagyobb szeletét igyekszik
feltárni. Ezek közül felhasználói szemszögből a három legjelentősebbet mutatjuk be, de
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
67
előtte a felhasználók minél teljesebb kiszolgálását célzó törekvések egyik legújabb elemét
említjük meg.
2009. márciusi fejlesztésként jelent meg a szemantikus keresés egy próbaváltozata, ahol
a Google megpróbálja értelmezni a keresőkifejezést, összefüggést találni a keresőmezőbe
írt szavak között, és intelligensen válogatni a találatok között. Az így kapott eredmények
egyelőre csak angol nyelvű felület találati listájának alján jelennek meg.
Törekvések a rejtett web adatainak feltárására
A Google a HTML-en kívül tíznél több állománytípust is rendszerez és tárol. A jelentő-
sebbek: PDF, Word-dokumentumok, Excel-táblázatok, Flash- (SWF) animációk, szöveg-
fájlok stb. A szöveg és SWF fájlok kivételével a tartalmat HTML-re konvertálva tárolja a
Google, így azok böngészővel is megtekinthetők.
A Google keresési technológiája a legrelevánsabb információkat kutatja fel valamennyi
internetes tartalomtípus között, így a találatokban képek, térképek, videók, hírek, könyvek
és még sok egyéb megjelenhet, azaz a találati lista egy-egy rekordjában a keresés integrált
eredményeit láthatjuk.
A cég állandó fejlesztéseinek köszönhetően 2007 májusában vezették be az univerzális
keresés funkciót (Google Universal Search), így a Google a weblapok mellett a videók,
képek, hírek, blogok, térképek és könyvek között is keres.
Google Universal Search
A Google alapvető változáson megy keresztül: egybeolvasztja vertikális és horizontális
keresőmotorjait, és ezentúl a különböző Google szolgáltatásoknak – Google Hírek, Videó,
Kép, Könyv, Térkép stb. – tartalmát egyazon találati listában jeleníti meg. Az egyelőre
csak a www.google.com oldalról elérhető Universal Search („egységes keresés”) névre
keresztelt vállalkozás tehát átformálja a találatok típusát és sorrendjét, így az eddigi kere-
sőoptimalizálási módszereket is.
A fejlesztésre több szempontból is szükség volt. Egy 2005. végén készült felmérés sze-
rint míg az internetes keresők arra jók, hogy az óriási adatbázist rangsorolják relevanciájuk
szerint, arra viszont nem, hogy a felhasználónak testreszabott listát biztosítsanak. Hozzáve-
tőlegesen a kereső személyek ötöde képes értelmezni a keresési eredményeket, és még
ennél is kevesebben találják meg a számukra fontos információt a legelső találatokban.
Ugyanakkor vitathatalan, hogy a keresések harmada eredménytelen. A Google 2001. óta
dolgozik új algoritmusokon, szoftvereken és hardvereken, melyek segítségével megoldható
lesz a különböző forrásokból származó tartalmak összehasonlítása és osztályozása.
Új index
A Google 2010 júniusában végre éles üzemre kapcsolta Caffeine kódnevű, következő
generációs indexét. Az új index a korábbiaknál relevánsabb és frissebb találatokat ígér a
webezők számára. A Caffeine két fontos újdonsággal rendelkezik a Google által korábban
használt indexelőhöz képest. Ezek közül az egyik a magasabb fokú párhuzamosság, ami-
nek köszönhetően az új motor a korábbiaknál gyorsabban képes a tartalmakat leindexelni,
és ezzel összefüggésben azok szintén előbb jelennek meg a találati listákban is. A Google
szerint a Caffeine-nel gyakorlatilag feleződik az új oldalak a keresőbe kerüléséhez szüksé-
ges idő.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
68
A másik fontos újítás, hogy az új keresőindex nagyságrendekkel több ún. meta-
információt tárol a begyűjtött weboldalakról, mint elődje. Ezek a nem-tartalmi adatok a
Google szerint segítenek még relevánsabbá tenni a találatokat.
A Caffeine aktiválását a felhasználók nem vehettek észre semmit, csak a megszokott
módon kell keresniük a Google segítségével. A változás a találati listát érinti, a találatok
frissességének és relevanciájának jelentős javulása várható.
6.3.3 Kucsszavas keresési alapok
A felhasználói felület
A Google sikerének egyik titka a fehasználói felület puritán volta. A Google semmi
mást, csak a keresés eszközeit jeleníti meg a kezdőoldalo, itt még a hirdetések sem kaphat-
nak helyet, pedig igen értékes felület lenne.
23. kép A Google keresőrendszer felhasználói felületén a keresőmező hir-
detések nélkül
A Google magyar nyelvű felhasználó felülete a keresőrendszerhez egy igen jó, magyar
nyelvű súgóval rendelkezik:
16. Felület súgója:
http://www.google.com/support/websearch/bin/answer.py?hl=hu&answer=35891
A fejléc tartalmazza a Google-termékek sávját, a Keresési beállítások és egyéb lehető-
ségeket. A Keresési beállításokat választva megváltoztatható pl. a keresés nyelve vagy az
egy oldalon látni kívánt találatok száma.
A Keresősáv tartalmazza a keresőmezőt, a Keresés gombot, a Speciális keresés és a
Nyelvi eszközök linket. Mindkét linkról lesz még bővebben is szó.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
69
Az oldal alján a Kapcsolódó keresések, a További találatok, a Találatok szűkítése és a
Visszajelzés linkek találhatók. A keresés folyamátához szorosan kapcsolódó középső két
lehetőség több helyről is elérhető. A felsoroltakat a következőkben kifejtjük.
Kapcsolódó keresések: időnként a keresett dologra vonatkozóan a legjobb keresési kife-
jezések valójában kapcsolódnak a ténylegesen megadott kifejezéshez. Ha rákattintunk
ezekre a kapcsolódó keresési kifejezésekre, alternatív keresési találatokat jeleníthetünk
meg.
További találatok: ha a keresett weboldal vagy információ nem található az első találati
oldalon, kattintsunk az oldal alján látható Következő linkre a további találatok megtekinté-
séhez.
Találatok szűkítése: ha a keresési találatok elsőre nem egészen egyeznek meg azzal,
amit keresünk, kattintsunk a keresősáv alatt található Találatok szűkítése linkre. Ezután
adjunk meg további szavakat a keresés szűkítéséhez.
Visszajelzés: ha nem elégedett a Google által végzett kereséssel vagy van egy jó ötlete
a keresés fejlesztéséhez, akkor ezeket és minden más véleményt megoszthat a Google
munkatársaival a Küldjön visszajelzést! linkre kattintva a keresősáv alatt.
Keresőkérdés
A Google keresőkérdésének egyes elemei maganyni példában szerepeltek már. Az egy-
szerű keresés menete minden hallgató számára ismert, így a Google összetett keresését
nézzük át aprólékosan. Az egyszerű keresésnél a Google fejlesztései nyomán a keresőkér-
dés kiegészül újabb keresőszavakkal, ezzel is segítve a találati relevancia növelését (24.
kép).
24. kép Automatikus kulcsszó ajánlatok a Google keresőrendszerben
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
70
6.3.4 Összetett kulcszsvas keresés
A pontosabb keresések érdekében a keresőrendszerek összetett keresést is kínálnak, bár
a tapasztalatok szerint ezt a kereső személyek szinte mindegyike mellőzi A Google össze-
tett keresésfunkciója a keresőmezőben az operátorok (speciáliskulcsszavak) begépelésével
vagy felhasználóbarát felületen keresztül vehető igénybe. A keresés specifikálásának utóbb
említett lehetősége a keresőmező utáni, Speciális keresés (Advance Search) link kiválasz-
tása után megjelenő felületen keresztül érhető el (25. kép).
25. kép A Google keresőrendszer összetett keresése (a Google-ban a Spe-
ciális keresés) párbeszédablakban
Haladó operátorok
A keresőkérdésben speciális kulcsszavak használatával adhatunk meg összetettebb le-
kérdezéseket. A Speciális keresés szűrő funkciója mellett számos könnyen megjegyezhető
utasítással könnyíthetünk a keresésen. Az alábbiakban erre adunk néhány megoldást. A
leírás nem teljes, a részletekről és a további operátorokról a Google súgójában olvashat.
A felhasználói felület felső harmada leginkább a Boole-operátorokkal kapcsolatos:
− Tartalmazzák a következő szavak mindegyikét (AND operátor): csak olyan oldalak
közül kereshetünk, amelyek tartalmazzák az összes kifejezést, amelyek a keresési
mezőben szerepeltettünk.
− Tartalmazzák a következő kifejezést: csak a pontos kifejezést tartalmazzó oldalak
találatai jelennek meg
− Tartalmazzák a következő szavak egyikét (OR operátor): tartalmaznak legalább
egy szót a leírtakból
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
71
− Nem tartalmazzák ezeket a szavakat (NOT operátor, jele: -): egyik szót sem tar-
talmazzák a leírtak közül
Oldalon belüli keresés
Ha egy oldalon belül szeretnénk keresni, akkor írjuk be a Speciális keresés Domain me-
zőjébe a doméin nevét vagy a keresőmezőbe a kulcsszó után a „site:<URL>”kifejezést.
- Keresőkérdés: tagok site:mta.hu
Ha az MTA tagjai érdekelnek bennünket, a feltétel megadásával gyorsan egy listán lát-
hatjuk a külső, levelező, rendes stb. tagok sorát. Használatakor csak a rögzített honlap-
hoz (mta.hu) kapcsolódó alsite-okon keres.
Speciálisan a site:domain.hu beírásával megtudhatjuk, hogy az adott domainből hány
oldalt indexelt be a Google, azaz hány oldalt lát belőle. Sok esetben ez a szám azért ala-
csony, mert a flashben és képben lévő szöveget a Google nem értelmezi. Ez a magyarázat
arra, hogy például az intro-val induló oldalakat a Google nem indexeli.
További speciális operátorok
Példa:
- keresőkérdésben: „link:<URL>”
Beírása esetén a megadott URL-re mutató weblapok listáját kapjuk.
- keresőkérdésben: a „filetype:<fájlkiterjesztés>”
Segítségével közölhetjük a keresett fájlok típusát (doc, jpg...): az általunk meghatáro-
zott fájl-formátumok jelennek meg
- keresőkérdésben: a „define”
A define operátorral egy kifejezésnek a leírását kapjuk meg. Ezt akkor érdemes hasz-
nálni, ha értelmezésre, fogalommagyarázatra van szükségünk. A szolgáltatás egyelőre
magyarul még nem elérhető, de idegen nyelvű kifejezések megértését segíti.
- keresőkérdésben: a „related”
Hasonló oldalak elérése. A related:domain név.hu utasítással azokat az oldalakat listáz-
za ki a Google, amelyek az adott domain.hu-hoz hasonlítanak. Például a
related:origo.hu kifejezésre olyan oldalak listája kerül elénk, amelyek az origo.hu-hoz
hasonlóan híreket közölnek.
- keresőkérdésben: a „weather”
Ha a speciális kulcszsó után egy várost írunk (pl. Eger), akkor megkapjuk az időjárási
adatokat
- keresőkérdésben: a „23*477”
Számológépként működik, kíírja az eredményt, majd a találati lista következik.
Google SERP
A Google kereső a kulcsszavak közül az első harminckettőt veszi figyelembe, legfel-
jebb az első ezer találat jeleníthető meg, ami laponként legfeljebb száz rekordot jelent. A
felhasználók beállíthatják az alapértelmezett nyelvet, bekapcsolhatják a biztonságot szolgá-
ló SafeSearch szűrőt (alapértelmezés szerint moderate), és beállíthatják a laponként megje-
leníthető találatok számát.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
72
A SERP egy rekordjának felépítése a Google-ben:
− cím: a keresési találatok első sora mindig a weboldal címe
− részlet: a cím alatt a weboldal ismertetője olvasható, amely egy tényleges szöveg-
részletet is tartalmazhat az oldalról. A keresési kifejezések vastagon szedve jelen-
nek meg
− URL: zöld színben a talált weboldalak internetes címe látható
− Csillag: a találati rekordot a felhasználó megjelölheti egy csillaggal, ha a rekord
végán álló csillag inkont egy kattintással aktívvá teszi, és a Google elment számára
az adott találatot. Ha bejelentkezett a felhasználó egy Google Fiókba, akkor látni
fogja a csillaggal megjelölt találatokat, amikor azonos vagy hasonló keresést vé-
gez.
A SERP manipulálására különféle lehetőségek vannak:
− Tárolt változat és Hasonló: a rekord utolsó sorában jelenik meg, de nem része an-
nak. Ha valamilyen okból a weboldal nem töltődik be, a Tárolt változat linkre kat-
tintva a weboldalnak az a változata jelenik meg, amelyet utoljára a Google inde-
xelt. A Hasonló lehetőségre kattintva az adott találathoz kapcsolódó egyéb
webhelyek tekinthetők meg.
− behúzott találati rekordok: amikor a Google ugyanazon a webhelyen több találatot
is talál, a legrelevánsabb találat kerül legfelülre a listában, és behúzva alá kerülnek
az adott webhelyről a keresésnek megfelelő egyéb oldalak. Ha ugyanazon a
webhelyen kettőnél több találat van, a további találatokat a További találatok meg-
jelenítése innen: linkre kattintva érhető el.
− Eszközök és szűrők: a találati oldal szélén található panel dinamikus módon meg-
jeleníti a keresési módokat, és kiszűri az adott keresés esetén leghasznosabbakat.
Ezeknek a linkeknek a segítségével szűrheti és személyre szabhatja a kapott talála-
tokat.
− Szponzorált linkek: amikor a Google segítségével végzünk keresést, gyakran lá-
tunk szöveges hirdetéseket a keresési eredményoldal tetején és szélén. A keresés
szempontjából releváns hirdetések jelennek meg, és értékes információkat nyújta-
nak a keresés témaköréhez kapcsolódva. Ha nincsenek releváns hirdetések, akkor
nem jelenik meg hirdetés. A hirdetések révén befolyó összeg segítségével képes a
Google ingyenes termékeket kínálni, mint a Keresés, a Gmail, a Google Térkép, a
Google Dokumentumok és még sok egyéb. Ha a felhasználó webhelyét szeretné
hirdetni a Google keresési eredményoldalán, akkor kiválasztja a Jelenítse meg hir-
detését itt feliratú linket, és tájékozódik a Google AdWords programról.
A Google kereső a világ minden országában elérhető, az ország sajtá nyelvén megjele-
nő felhasználó felülettel, így a találati lista minipulációs parancsainak megjelenítése is
oszágfüggő. A hazai felhasználók bármelyik nyelv kezdőlapját kiválasztahtják a kereső-
mező utáni, Nyelvi eszközök menüpontban (26. ábra).
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
73
26. kép A Google keresőrendszer más országbeli felületének elérése
A legújabb fejelesztések teljes körűen az angol változatban érhetők el, ezért érdemes
olykor az angol oldalt használni (27. ábra).
27. kép A Google keresőrendszer angol nyelvű felülete
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
74
A találati lista oldala vizuálisan is több nézetben képes a találati rekordokat przentálni,
ha azt a bal oldali menüből kiválasztjuk (29. kép). Az alapeset a Normál nézet (Standard
view), választható még a Varázskerék (WonderWheel), és az angol változatban a Timeline
(időszalag) nézet. Normál nézetben újabb alnézeti lehetőségeket választhatunk: a webolda-
lon lévő képek miniatűr nézetét megjelenítő Webhelyek képekkel (Sites with images)
alnézetet, a weboldalak teljes kiscinyített képével kiegészített rekordokat tartalmazó Oldal-
előnézet (Page previews) alnézetet és a Lefordított keresés (Translated search) alnézetet. A
Normál nézeten túli két fő nézetet az alábbiakban részletezzük.
2009 májusában jelent meg a Varázskerék (WonderWheel) funkció, amely konkrét ke-
resőszavak nélkül is lehetővé teszi egymást követő választások útján a navigációt. Ugyan-
ekkor megjelent még a Search Options (keresési lehetőségek) szolgáltatás is, ami a keresé-
si találatok mellé lenyíló menüt jelent, ahol a találati listát anélkül lehet finomítani, hogy
újra kellene definiálni a keresést vagy vissza kellene lépni.
28. kép A Google WonderWheel (csodakerék) szolgáltatása az online
könyvtár kulcsszó használatánál
A Timeline (időszalag) szolgáltatással a találatokat megjelenési idejük szerint rendezi,
választható egy adott időpontokat, vagy megvizsgálható, hogy mikor milyen aktivitás jel-
lemezte az adott kulcsszóval megadott témát. Az itt leírt lista nélkülözi a teljességet, de
vélhetően néhány év múlva újabb elemekkel lehetne bővíteni.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
75
29. kép A Google új Timeline (idővonal) szolgáltatása az angol változat-
ban
6.3.5 Vertikális Google keresők
Tudományos kereső
Tudományos értekezések, szakdolgozatok és tanulmányok között keres a Google
Scholar (30. kép). Az olyan innovatív kísérletek után, mint a Froogle vagy a Google
Desktop Search, újabb egyedi Google-kereső jelent meg: az ingyenesen elérhető Google
Scholar tudományos témájú, lektorált, online folyóiratok cikkeiben keres, kivéve az
Elsevier kiadó folyóiratait, ugyanis ahhoz saját kereső oldallal rendelkezik a kiadó. A
Google tudományos keresője, a Google Scholar az alábbi címen érhető el:
17. Google Scholar szolgáltatás: http://www.scholar.google.com )
A Google egyelőre úgy döntött, hogy a Scholaron lemond specialitásáról, a keresőtalá-
latnak álcázott hirdetések közléséről, azt viszont nem tartja kizártnak, hogy később a tu-
dományhoz valamilyen módon kapcsolódó reklámok megjelennek a találati oldalakon.
A keresővariáns újdonsága az „author:” előtag, amely elsősorban egyes szövegek szer-
zőinek előásását könnyíti meg, de a szerző-írás párosra is könnyebben rátalál, mint ha nem
használnánk a prefixumot. Az [author:Einstein] keresőkifejezés például kevéssel több,
mint 2000 találatot hoz, ami a Google kereső 8,5 milliós eredményéhez képest szerény, de
a Scholar precízen közli a találat fajtáját (hivatkozás; könyv), és az arra vonatkozó további
hivatkozások számát is feltünteti.
A Google Scholar a fizetős szoftverek piacára is hatással lehet: nagyszerűen alkalmaz-
ható ugyanis az akadémiai etikátlan plagizálók (csalók) lebuktatására. Könnyen megeshet,
hogy a Scholar elterjedése befolyással lesz az olyan cégek eladásaira, mint a német
Mediaphor, amely 125 dollárt kér Plagiarism-Finder nevű programjának 1.09-es verziójá-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
76
ért – a szoftver a neten fellelhető PDF és Word dokumentumokban található egyezések
alapján igyekszik elkapni a csalókat. Egyik versenytársa, az amerikai Turnitin a dobozos
megoldás helyett testre szabható plágiumvadász-szoftvert árul, testre szabott összegért, és
ügyfelei között több száz amerikai középiskola és egyetem található.
30. kép Google SCHOLAR találati oldala
Google, mint képkereső
A Google minden naponta próbál ki újabb fejlesztéseket, de nem minden fejlesztés
(update) és új kereső ötlet kerül hivatalosan nyilvánosságra. A Google képkeresője
ismertté vált új szolgáltatás és a fejlesztések is folyamatosak. A képkereső önmagában nem
nagy jelentőségű több keresőrendszer is képes volt előtte a képek szövegkörnyezet alapján
tröténő kulcsszavas keresésére. A fejlesztések viszont sokat ígérnek.
2007-ben a Google a Neven Vision nevű teamet felvásárolta, amelynek elsődleges
profilja képeken objektumokat tárgyakat felismerő alkalmazások készítése volt a mobil
alkalmazásokhoz, és egyéb platformokra. A Google képkereső alkalmazásának fejlesztése
alapján a keresési találatokat szűkíthetjük arcokat tartalmazó valamint hírekkel kapcsolatos
képtalálatokra „&imgtype=face” valamint „&imgtype=news” kapcsolókat hozzáadva a
kereséshez.
Példa:
http://images.google.com/images?q=neumann+&imgtype=face kevésbé kapunk majd
fotókat a Neumann mikrofonokról, varrógépről és egyéb eszközökről, inkább arcokat
tartalmazó képek várhatók Nemunann Jánosról és a ma élő Neumann nevű emberekől.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
77
Google, mint videokereső
A Google hétfőn (2005. június 28.) elindította legújabb szolgáltatását, a Google Vide-
ót , mely egyelőre béta állapotban érhető el a Google számos más szolgáltatásához hason-
lóan. Az adatbázisban jelenleg a Unicef, Greenpeace, CNET Networks és más tartalom-
szolgáltató partnerek április óta megjelent videoállományai kaptak helyett, ezek között
lehet keresni. [HWSW, News.com] A Google hétfőn elindította legújabb szolgáltatását, a
Google Videót [1], mely egyelőre béta állapotban érhető el a Google számos más szolgál-
tatásához hasonlóan. Az adatbázisban jelenleg a Unicef, Greenpeace, CNET Networks és
más tartalomszolgáltató partnerek április óta megjelent videoállományai kaptak helyett,
ezek között lehet keresni. Szövegben is keres A Google új szolgáltatásával nem csak a
címekben lehet keresni, hanem a videoállományok mellé feltöltött metaadatokban, például
az elhangzott szövegben is. A Google különböző szolgáltatásaiba regisztrált felhasználók
(például a Google Mail felhasználói) saját, általuk készített videókat is feltölthetnek egy
letölthető segédprogram segítségével a Google szervereire és adatbázisába. A letöltött ál-
lományok megtekintéséhez a Google egy saját lejátszóprogramot is biztosít, mely minden
Google Videón keresztül letölthető állomány lejátszására alkalmas. A feltöltött videókat
MPEG-2 vagy MPEG4 videotömörítéssel és MP3 hanggal fogadják és egyesével ellenőr-
zik, hogy megfelelnek-e a felhasználási feltételeknek. A jelenleg letölthető állományok
ingyenesen elérhetőek, később – feltehetően a PayPal ellenfelének bejelentését követően –
azonban arra is lesz lehetőség, hogy az általunk feltöltött anyagok letöltéséért díjat kérhes-
sünk a felhasználóktól. Képek és könyvek után videók. A videók közötti keresés igen fel-
kapott lett az internetes cégek körében, mivel a vállalatok ettől olyan hirdetők megjelenését
remélik, akik eddig kizárólag a tévében reklámoztak. A Google mellett az Amazon is láza-
san fejleszti saját videókeresőjét, a Yahoo pedig májusban indította el saját szolgáltatását.
A szolgáltatások egyik kulcseleme a digitális jogkezelő technológiák (DRM) fejlődése és
használata, mely megvédheti a file-ok tulajdonosainak szerzői és tulajdonosai jogait, bár az
egyelőre nem ismert, hogy a Google használ-e majd DRM megoldásokat videokereső
szolgáltatása fizetős tartalmainak bevezetésekor. A Google ugyanakkor már számos ellen-
féllel találkozhat ezen a területen, többek például az America Online Singingfish, a Yahoo!
és a Blinkx szolgáltatásaival, melyek már élő szerződéssel rendelkeznek például a Reuters-
szel. A Reuters által biztosított videoanyagokat az említett metaadatokkal is ellátják, me-
lyek a keresőmotorok számára nyújtanak segítséget. Ennek köszönhetően a keresőmotorok
a Reuters weboldalára irányítják a videókat kereső felhasználókat. Helyben tárolt tartalom
A Yahoo! és más szolgáltatások nem tárolják helyi szervereken az adott videoanyagokat, a
Google ezzel szemben tárolni is kívánja az akár értékesítésre is szánt videókat, mely igen
komplex kérdéseket vet fel a jogtulajdonosok szempontjából. A klipek tárolásához a film-
stúdiók hozzájárulásához van szükség, ezek beszerzését már megkezdte a vállalat.
6.3.6 Legyőzni a Google-t
2008-ban elindult a Cuil webkereső, ami nem kisebb célt tűzött maga elé, mint a
Google legyőzését (31. kép). A kaliforniai vállalkozás mögött egy házaspár áll: Tom
Costello, a Stanford egyetem professzora korábban az IBM alkalmazásában adattárolási
rendszerekkel kapcsolatos kutatásokat végzett, felesége, Anna Patterson 2004 óta dolgozott
a Google-nál többek között a weboldalak indexelését végző algoritmuson, valamint azon
az eljáráson, amely az oldalakhoz hirdetéseket rendel. A harmadik alapító, Russel Power
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
78
szintén a Google-tól érkezett, emellett a fejlesztőcsapat tagja Louis Monier, aki résztvett az
AltaVista és a BabelFish megalkotásában, illetve az eBay keresőjének fejlesztésében.
A Cuil kereső a mai napig elérhető az alábbi címen:
18. Cuil általános kereső: http://www.cuil.com
A Cuil megalkotói szerint a legnagyobb erősségük, hogy 120 milliárd weboldal tartal-
mában keresnek, míg a piacvezető Google adatbázisa „csupán” 40 milliárd oldalt ölel fel.
A házaspár szerint a Cuil titka, hogy egy minden eddiginél hatékonyabb adatbázist tudtak
létrehozni a weboldalak tartalmából, amelynek működése a versenytársakhoz képest ke-
vésbé hardverigényes, így gyorsabb és kevébé költséges is egyben.
Az új kereső nem csak a motorját, hanem a megjelenítési felületét tekintve is újszerű: a
találatokat nem csak egyszerűen kilistázza, mint a Google, a Yahoo vagy éppen a Micro-
soft Bing, hanem egy újsághoz hasonlóan, több hasábba rendezve mutatja meg őket. Jobb-
oldalt ehhez társul egy lenyitható menü, ahol további kapcsolódó témák találhatók össze-
gyűjtve.
31. kép A Cuil kereső felülete
A Cuil kereső nem gyűjt adatokat a felhasználókről, nem őriz meg IP-címeket és az
egyes személyekhez kötődő keresések listáját sem tárolja el. Anna Patterson szerint ennek
oka, hogy az általuk kifejlesztett algoritmus a weboldalak tartalma, nem pedig a népszerű-
ségük alapján rendezi sorrendbe a találatokat.
A Cuil kereső a Google-től mindezek ellenére számos területen elmarad. Egyes kulcs-
szavakra nem kapunk találatot, olykor a SERP irreleváns weboldalak címét tartalmazza. A
Google számos vertikális keresőjével (pl. árkereső, képkereső, hírkereső) szemben a Cuil
egy kiszámíthattalanul működő, szimpla webkereső.
6.3.7 Google, mint a jövő
Google szemantikus keresés
A Google újabb fejlesztésével bővült az internetes keresés palettája 2009-ben. Az intel-
ligens, személyre szabott kereséshez vezető út következő lépéséhez tartoznak azok az esz-
közök, amelyek 2009. májusában lettek hozzáférhetők a nyilvánosság számára.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
79
Google Analytics
A Google ma már rendelkezik az adatbányászat kezdeti lépéseihez vezető eszközzel. A
Google Analytics (GA) a Google ingyenes szolgáltatása, ami a weboldal látogatóiról készít
és prezentál részletes statisztikát. A Google Analytics nagyvállalati szintű internetes elem-
zési megoldás, amely széles körű rálátást biztosít a felhasználó webhelyének forgalmára és
a marketinghatékonyságra. A hatékony, rugalmas és könnyen használható funkciók segít-
ségével teljesen új szempontból tekinthető meg, és elemezhető a forgalmi adatokat. Fő
célkitűzése, hogy a webmesternek segítsen a reklámkampányok optimalizálásában, azáltal,
hogy megmutatja, a látogatók honnan kattintottak át, mennyi időt töltenek a weboldalon,
illetve hogy földrajzilag hol találhatók.
19. Google Analytics: http://www.google.com/analytics
A Goggle felvásárolt egy szoftvert, majd a saját logóval ellátott változat 2005. novem-
berében jelent meg, először korlátozás nélkül, majd a hatalmas érdeklődés miatt a regiszt-
rációkat kénytelenek voltak felfüggeszteni alig néhány nappal később. Kapacitásbővítés
után a Google egy várólistát hozott létre, a feliratkozottak közül sorsolják a meghívókat a
szolgáltatásra. 2006. augusztus 16. óta a szolgáltatás bárki számára hozzáférhető.
A Google gondot fordított a kezdeti teljesítményproblémák kiküszöbölésére, jelenleg a
riportok általában kevesebb mint 1 óránként frissülnek (pl. milyen böngészővel, melyik
településről történt a honlapunk látogatása). Minden felhasználó legfeljebb 5 weboldalon
használhatja a szolgáltatást, az ingyenessé tétel előtti felhasználók legfeljebb 50 oldalon.
A Google Analyticsben sokfajta nézet létezik: egy egyszerű áttekintő nézet, és számos
(több mint 80 különböző) részletes riport kérhető le, amik valamelyest testre is szabhatók.
Három fő nézet létezik: az Executive, a Marketer és a Webmaster nézet.
A szolgáltatás az angol mellett még jó néhány nyelven hozzáférhető, 2007 végétől már
magyarul is használható a program.
20. Google Analytics magyar súgója: http://www.google.com/intl/hu/analytics/
6.4 ÖSSZEFOGLALÁS
A Google, mint az interneten elérhető legösszetettebb keresőszolgáltatás alapvető szol-
gáltatásait ismeréstük meg. A Google-kereső keresőrobotjának háttértöénete után a indexe-
lő és a kereső részre is kitértünk. Külön foglalkoztunk a Google összetett keresésével, a
Speciális kereséssel. A vertikális Google keresők közül szó volt a Google Scholar tudomá-
nyos keresőről, a képkeresőről és a videokeresőről. A többi vertikális keresőt a jegyzet
korlátai miatt nem tárgyaltuk. Megemlítettünk egy keresőt, amely megpróbálkozott a
Google-al versenyre kelni, eddig ezt sikertelenül tette. A Google jövőjét taglaló részben
pár szót szóltunk a szementaikus web alaklmazásáról a Google-ban, és részletesebben a
már több éve jól működő webanalatikai eszközről, a Google Analytics-szel.
6.5 ÖNELLENŐRZŐ KÉRDÉSEK
1. Mutassa be a horzintális Google keresőt!
2. Mi véleménye a Google keresőkről? Milyen személyes tapasztalatai vannak?
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
80
7. METAKERESŐK
7.1 CÉLKITŰZÉS
A matekereső szolgáltatás alapvetű működési elvének felhasználó szempontú megisme-
rése. A magyar metekeresők működési hátterének megértése, szolgáltatásainak elsajátítása
készség szinten.
7.2 TARTALOM
Metakeresők bemutatása
Metakeresők csoportosítása
Ismert idegen nyelvű metakeresők
Az Ariadnet bemutatása
Az Ariadnet használata
Az Ariadnet keresőmotor
A PolyMeta bemutatása
A PolyMeta keresőmotor
A Miner bemutatása
A Miner keresőmotor
Egyéb magyar metakeresők
7.3 A TANANYAG KIFEJTÉSE
7.3.1 Metakeresők bemutatása
A világháló egészének indexelése megoldhatatlan probléma. Az eddigiek alapján ismert
tény, hogy az összes adat nem érhető el az interneten, de az eltérő indexelési mód miatt az
első találatok eltérhetnek az általános célú kulcsszavas keresésnél. Egyetlen általános célú
kulcsszavas kereső tudományos cikkek kereséséhez, könyvtári és más adatbázisok elérésé-
hez elégtelen. A felsorolt problémák egy részének megoldását célozza egy speciális webes
keresőmotor.
Egy kulcsszavas kereső nem minden esetben adja meg a keresett választ, emiatt egy-
szerre több keresési keresőmotort is munkára foghatunk anélkül, hogy azokat egyenként
kellene meglátogatnunk. A metakeresőket akkor is érdemes használni, ha szükség van az
egyes metakeresők plusz szolgáltatásaira, mint például a klaszterezés, pl. a Clusty nevű
metakereső a különböző keresőkből származó találatokat csoportokba is rendezi.
A metakereső informatikai értelemben egy olyan keresőmotor, amely továbbküldi a fel-
használó kérését több más keresőnek vagy adatbázisnak, és az azokból visszakapott talála-
tokat összegzi.
Metakeresőnek nevezzük azt a keresőszolgáltatást, amely több
más, nem minden esetben ismert kulcsszavas keresőszolgáltatás ta-
lálatait felhasználva készíti el a találati listát, saját adatbázist nem
használ. A többnyelvű keresések miatt megadjuk a metakereső né-
hány ismert nevét: meta search engines (angol), Meta
Suchmaschienen (német), métamoteur, métecheurcher (francia).
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
81
Előnye, hogy a felhasználónak a kulcsszót vagy keresőkérdést csak egy alkalommal
kell megadnia, mégis egyszerre több keresőt ér el. További előnye, hogy a legnagyobb
keresők számára nem elérhető speciális adatbázisokban is képes keresni.
Sok esetben hasznos az is, hogy segítségükkel körülhatárolható a keresett források köre,
ami a megbízhatóságot növeli.
Hátránya a találati lista lassú megjelenítése. Kedvelt felhasználási területe a tudomá-
nyos élet (pl. orvostudomány), ahol az információk nagy része a hagyományos keresőprog-
ramok által elérhetetlen adatbázisokban van (például publikációs adatbázisok).
Megjegyzendő, hogy a később sorra kerülő meta tag (ejtsd: teg) kifejezéshez nincs szo-
rosan kötődése, a hasonló hangzás ellenére a meta tageket nem a metakeresők miatt jöttek
létre.
32. kép A magyar Ariadnet metakereső weboldala
7.3.2 Metakeresők csoportosítása
A metakeresők virtuális adatbázist hoznak létre. Nem katalogizálják önmaguk a webet,
hanem elküldik a felhasználó kérését több különböző forráshoz, és aztán az eredményekből
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
82
egy egységes találati listát készítenek valamilyen algoritmus alapján, de nem azonosak a
metakeresők sem.
A metakeresők két nagy csoportját, csak a legnépszerűbb keresőket használó horizontá-
lis, és az adott területre (pl. képek, blog) specializált vertikális keresőket tekintjük át. Be-
szélhetünk külön magyar horizontális és vertikális metakeresőkről is, bár ezek száma cse-
kély, de jelentőségük kiemelkedő.
A metakeresők két nagy csoportja (horizontális, vertikális) mellett elméletben elkülö-
níthetünk még egy olyan speciális csoportot a metakeresőkön belül, amely felajánl ugyan
több keresőszolgáltatást, de azokból mindig csak egyet választhatunk ki. Ezt e keresőrend-
szert nevezzük gyűjtőszolgáltatásnak, amivel nem foglalkozunk a leckében.
Létezik olyan, ami csak a legnépszerűbb keresőket használja, mások kevésbé ismert
forrásokra is hivatkoznak, ezek a vertikális metakeresőknek. A találatok megjelenítésében
szintén jelentős különbség van köztük. A redundancia kezelése, a forrásonként fontossági
(relevancia) sorrend teszi jobban és kevésbé használhatóbbá azokat. A metakeresők közül
még a szűkebb körben keresők is az internet jelentős területét teszik kereshetővé azáltal,
hogy több kereső adatbázisát kombinálják. A világ metakeresőit nézve a magyar keresők a
nyelvi korlátozottság miatt csak a magyar nyelvi közegre vonatkozóan horizontálisak.
A leckében magyar metakeresők hangsúlyosabban jelennek meg, de néhány angol pél-
dával is találkozhatunk. Magyar nyelvi közegben horizontális kereső az Ariadnet. A ma-
gyar készítésű vertikális metakeresők: PolyMeta, Miner, valamint a PolyMeta-ra épülő
Informed és Orvosoknak metakeresők.
7.3.3 Idegen nyelvű metakeresők
Az angol nyelvű általános metekeresőket használják a világon a legtöbbször, de termé-
szetesen magyar közegben a magyar nyelven kereső szolgáltatásoknak kiemelt a szerepe.
Az angol nyelvű metakeresők száma rendkívül nagy, ezért az itt kiválasztottak egy erősen
leszűkített, szubjektív képet adnak.
Az első webes metakeresők egyike volt 1996-tól a Mamma, 2007-től a Mamma.com
Inc. céget a Copernic Inc. nevezték át, a névváltozás előtt a webes keresők anyja szlogen-
nel hirdette magát.
21. Mamma metakereső: http://mamma.com
A Clusty egy ismert keresőmotor, képes az eredmények klaszterezésére, és ugyanannál
az egyetemnél fejlesztették, ahol egy évtizeddel ezelőtt a Lycos keresőmotort.
22. Clusty metakereső: http://clusty.com
1994-ben, a Washington Egyetemen fejlesztették ki a MetaCrawler metakeresőt. A
MetaCrawler napjainkban a leggyakrabban használt kulcsszavas keresőkre alapozza tevé-
kenységét, mint Google, Yahoo!, Live Search (korábban MSN Search), Ask.com,
About.com, MIVA, LookSmart, és egyéb népszerű keresőmotor. A MetaCrawler ezen
kívül a felhasználóknak az alábbi szolgáltatásokat nyújtja: képkeresés, hangkeresés,
videokeresés, hírkereső, cégkereső (yellow pages and white pages). A MetaCrawler az
InfoSpace Inc. bejegyzett névjegye.
23. MetaCrawler metakereső: http://www.metacrawler.com
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
83
Az Ixquick metakereső 17 nyelven képes keresni (angol, kínai, japán, török és több más
európai nyelven) 1998-ban a New Yorkban alapította a Surfboard Holding BV holland cég,
a keresőmotort 2005-ben felújították.
24. Ixquick metakereső: http://www.ixquick.com
33. kép A 17 nyelven kereső Ixquick metakereső angol nyitóoldala
7.3.4 Az Ariadnet bemutatása
Az Ariadnet a magyar nyelvű web egyetlen horizontális metakeresőrendszere.
25. Ariadnet metakereső: http://ariadnet.hu
Az Ariadnetet a Hungary.Network Rt. fejlesztette ki 2001–2002-ben, a Miniszter Elnö-
ki Hivatal (MEH) Informatikai Kormánybiztossága által a Széchenyi terv keretében kiírt
pályázaton elnyert támogatásával. Az Ariadnet üzemeltetése és továbbfejlesztése szintén a
Hungary.Network munkatársainak feladata. Az Ariadnet metakereső szolgáltatás természe-
tesen ingyenes, továbbá a programjai is szabad-felhasználásúak, azaz ingyenes programok.
A szolgáltatás a nevét Ariadné fonaláról kapta. Az interneten, mint egy labirintusban
szükséges egy vezérfonal ahhoz, hogy oda jusson el a felhasználó, ahova a legjobban sze-
retne.
Az Ariadnet alapnyelve a magyar, és magyar nyelvű vagy magyar vonatkozású infor-
mációkat keres, beépített szótőelemző programja és szinonimaszótára a magyar nyelv sza-
bályaira épül, és olyan keresőkkel dolgozik együtt, amelyek a magyar nyelvű honlapok
közötti keresésre specializálódtak, vagy abban sikeresnek bizonyultak.
Az alkalmazott keresők egy része ugyanakkor számos idegen nyelven képes keresni, il-
letve sok olyan magyar és magyar vonatkozású honlap létezik, melyek tartalmaznak idegen
szavakat is, ezért ezek szintúgy megtalálhatók az Ariadnet segítségével.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
84
Az Ariadnet egyedülálló, felhasználóbarát szolgáltatása az a szótőelemző eljárás, amely
a ragozott szóalakokból képzi a szótöveket, ami a keresés alapja lesz. A felhasználót segíti
továbbá egy beépített szinonima-szótár, amely felajánlja a keresett kifejezéssel jelentéstani
kapcsolatban álló szavakat.
7.3.5 Az Ariadnet használata
Az egyszerű keresésnél egy vagy több keresendő szót lehet megadni a keresőmezőben.
A szavak között alapértelmezésben „és” kapcsolatot feltételez a rendszer, de használhatók
az „and” (és), „or” (vagy), „not” (kivétel) logikai operátorok is.
A kereséshez ki kell választani azokat a keresőprogramokat, amelyeket használni sze-
retnénk, minél több keresőt választunk, annál tovább tart a keresés. Az összetett keresés
abban különbözik az egyszerű kereséstől, hogy külön keresőmezőkben lehet megadni a
keresőszavakat, amivel a következőket kérhetjük: nem feltétlenül közvetlen egymás mel-
lett, de mindegyik szerepeljen a keresett oldalon, vagy a megadottak közül legalább az
egyik szó szerepeljen, vagy szó szerint szerepeljen, vagy pontosan a megadott sorrendben,
egymás mellett szerepeljenek, vagy ne szerepeljenek a találati lista eredményei között.
Mindezek a funkciók együttesen is használhatók.
A keresés pontosítására és szűkítésére a rendszer az összetett keresés funkción túl az
alábbi lehetőségeket kínálja: a „Keresőnként legfeljebb ... találatot kérünk” opcióban meg-
adhatjuk, hogy keresőnként maximálisan hány találatot kérjen a program a keresés során.
Beállíthatjuk továbbá, hogy legfeljebb milyen idős oldalak kerüljenek a találati listára:
legfeljebb 3 hónapos, legfeljebb 6 hónapos, legfeljebb 9 hónapos, avagy bármilyen korú
oldal. A „Keresett szavak helye az oldalon” funkció segítségével megadhatjuk, a keresett
kifejezés hol szerepeljen az oldalon: bárhol, a címben, a szövegben, az URL-ben. A „Csak
a ... doménen” belüli keresés során leszűkíthetjük a keresést, pl. az oszk.hu domén alatti
oldalakra. Beállítható az is, hogy hány találatot kérünk egy oldalra.
A szinonimaszótár akkor segít a keresésben, ha a keresett kifejezésnek szinonimái is
előfordulhatnak egy oldalon. Ha például bibliotékával kapcsolatos információkat keresünk,
a szinonimaszótár hasonló jelentésű szavakat, esetünkben pl. a könyvtár szót adhatja visz-
sza. A keresés során a keresett kifejezés begépelése után meg kell nyomni a „szinonima-
szótár” gombot. Az ekkor előugró panel felkínálja a választható szinonimákat, ha rákattin-
tunk, akkor az bekerül a keresőmezőbe. Egymás után több szinonimára is választható.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
85
34. kép Az Ariadnet metakeresőben a gyermek szóra felajánlott szinonimák
7.3.6 Az Ariadnet keresőmotor
Az Ariadnet az alábbi magyar keresőket használja: Altavizsla, Góliát, Hálóvilág, Heu-
réka, Hírkereső, Hudir, Index kereső, KincsKereső, Magyar Címtár, Magyar Honlap Kata-
lógus, Sharelook, Wahoo. Az Ariadnet az alábbi külföldi keresőket használja: AltaVista,
Excite, Fast Search, Google!, HotBot, Lycos, Metacrawler, Metager, Northern Light,
WebCrawler. Mindezek közül bármelyik külön kiválasztható vagy letiltható.
A keresés folyamán az Ariadnet keresőmotor sorban felkeresi a kijelölt keresőket, és
lekéri mindegyiktől ugyanazt a keresőkérdést, majd a beérkező találatokat feldolgozza és
sorba rendezi. A keresés sebessége részben függ attól, hogy hány keresőt használunk egy-
szerre, részben attól, hogy milyen gyorsan reagál a leglassabb közülük. Először célszerű
csak néhány keresővel próbálkozni.
A keresés akkor ér véget, amikor az összes kijelölt kereső válaszolt a lekérésre. Az ek-
kor kapott találati lista oldalai között a lépegetés már sokkal gyorsabb lesz, mint az első
keresés. Ennek az az oka, hogy a rendszer eltárolja a találati listát, és a további oldalak
megjelenítésekor már nem fut le újabb keresés.
Az Ariadnet metakereső egy kidolgozott algoritmus alapján a keresők által visszaadott
listák találatait relevancia szerint rendezi. Az algoritmus figyelembe veszi a több kereső
által is ajánlott ismétlődéseket, a lapok méretét, az időpontokat, továbbá a felhasználó kat-
tintásait és osztályzatait. A lapok méretvizsgálatánál a rövidebb lapon megtalált szó lesz a
relevánsabb találatot. Az időpontokat vizsgálva a frissebb oldalakon értékesebb, kevésbé
elavult információ van.
Az Ariadnet keresőmotor a relevancia megállapításához alkalmaz egy, a felhasználók
által megadott szavazati számot. A találati listán minden találat mellett szerepel egy legör-
dülő menü, 1-től 10-ig terjedő számokkal. A felhasználó szavazhat arra, hogy a megadott
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
86
keresőkérdésnek mennyire felel meg az adott link. Ha úgy találja, hogy egyáltalán nem
olyan dologról szól az oldal, mint amit keresett, akkor az 1-es, ha releváns, akkor a találat,
akkor 10-es osztályzatot ad. Az így összegyűjtött osztályzatokat arra használják, hogy az
újabb kereséseknél a találatokat a felhasználói minősítés szerint is súlyozzák. Tehát minél
többen használják a szavazás funkciót, annál jobb találatokat fognak kapni a következő
alkalommal a felhasználók.
Az Ariadnet keresőmotor szolgáltatásai regisztrált felhasználóként is igénybe vehetők,
ekkor belépésnél a felhasználói nevet és a jelszót meg kell adni. A regisztrált felhasználók
által megadott beállításokat megjegyzi a rendszer, így új belépéskor a legutóbb használt
beállítások maradnak meg, azaz nem kell újra beállítani a keresés feltételeit.
7.3.7 A PolyMeta bemutatása
A PolyMeta egy vertikális metakereső, a WebLib Kft. fejlesztése.
26. PolyMeta metakereső: http://polymeta.hu
Magyar és nemzetközi keresőket lekérdező, toldalék-felismerésre képes metakereső. A
keresési eredmények javasolt altémák szerint szűkíthetőek. Lehetőséget nyújt tetszőleges
számú, interneten keresztül elérhető keresőrendszer egyidejű keresésére. Az eredmények-
ből közös találati lista készül, amelyben az elemek fontossági sorrendbe rendezettek.
A PolyMeta segítségével lehetővé válik tetszőleges számú adatforrás egyidejű keresése,
jelenleg közel ezer kereshető forrás (tudományos adatbázisok, általános keresők,
metakeresők, híroldalak videó, kép, hírforrások, rejtett web források: könyvtári katalógu-
sok, publikációs oldalak...) érhetők el vele.
Egyetlen egyszerű keresőfelület jellemzi, amely áttekinthető eredménylistát ad, akár kü-
lönböző típusú találatok esetén is (szöveg, kép, videó), és az eredményhalmaza többféle-
képpen rendezhető. A találati listához megjeleníthető egy tartalomjegyzék, ami fejlett
nyelvi elemzőtechnológia felhasználásával készül.
A nyilvános Internet tartalom rohamos növekedése mellett, a közzétett információ egy
igen jelentős része az általános Internet keresőkkel nem elérhető. A rejtett web csak olyan
forrásokon keresztül válik kereshetővé és „láthatóvá", amelyek keresési kérésre válaszolva,
adatbázisokból, dinamikusan állítanak elő tartalmat. Egy intézményénél több költséges
forrásra (PubMed, Web Of Science, Biomed Central, EMBASE, Merck Manual...) előfi-
zethetnek a látogatóik, a munkatársaik, a kutatóik érdekében, a PolyMeta ezekhez a infor-
mációelérésekhez nyújt segítséget.
7.3.8 A PolyMeta keresőmotor
A Polymeta keresőmotorja széleskörűen testreszabható szolgáltatásokkal rendelkezik:
létező honlapba illeszkedő megjelenés, különböző eredmény sorrendezés, találat előnézet,
duplikáció kezelés és további számos opció, amivel egyszerű vagy épp összetett, kutatói
keresőfelület konfigurálható. A PolyMeta keresőmotorhoz kapcsolódó legújabb fejleszté-
seket egy fejlesztési blogban olvashatjuk (www.weblib.hu/feed/blog).
A kutatói felületi kialakításához a felhasználó építheti a keresőt, melynek fontosabb
elemei: a felhasználó maga kijelölheti a keresendő forrásokat, elgépelésellenőrzés (angol),
becsatolható keresőszó javaslat, elérhető a keresett források eredeti találati oldala is, fel-
használó által kiválasztható rendezés, előnézeti ablak a találati listán belül, duplikált talála-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
87
tok szűrése és megjelenítése. Statisztikák, jelentések generálhatók a keresésszámról és a
keresett kifejezésekről, források változásainak automatikus detektálása és további, automa-
tikus öndiagnosztika.
Bibliográfiai adatbázisoknál nem csak témakörök, hanem szerzők vagy publikálási dá-
tum alapján is szűkíthetjük a találatokat. A nyelvi elemzéshez a MorphoLogic cég csúcs-
technológiájú nyelvi eszközkészletét alkalmazzák.
Nyelvi elemzésen alapuló tartalomjegyzék („clustering”) segítségével, a keresőtémával
kapcsolatos kifejezésekkel szűrhető a találati lista. Ezen altémák mentén azonnali áttekin-
tést kapunk az eredmények tartalmáról. Egy kattintással elérhetők egy kapcsolódó foga-
lomról szóló találatok anélkül, hogy a teljes listát magunknak kellene végigböngészni. A
metaadatok alapján tartalomjegyzék építése lehetséges a Dublin Core ajánlás
(www.dublincore.org) szerint. Megfelelő adatot szolgáltató forrásoknál egyéb szempontok
alapján is építhető tartalomjegyzék. Például szerzők nevei, vagy publikációs dátum szerint.
Végülis mire jó a tartalomjegyzék?
− Elsősorban a virtuálisan láthatatlan eredmények megtalálására. A felhasználok
nagy része csak a keresők első, néha a második találati oldalát nézik át. A többi
gyakorlati szempontból láthatatlan a felhasználó számára. A tartalomjegyzék segít-
ségével viszont egyszerűen megjeleníthető minden olyan eredmény amiben az
adott szó szerepel, függetlenül attól, hogy sorrendben hányadik helyen volt.
− Másodsorban a keresésünk pontosítására, szűkítésére. A tartalomjegyzék megmu-
tathat olyan, a keresett témához kapcsolódó (asszociált) kifejezést, ami jobban leír-
ja mit is szerettünk volna igazából megtalálni (példa: „Neumann János” > „játék-
elmélet” > „Herman Goldstein” > „Atomic Energy Comission”). Esetleg csak
hallunk valamit és szeretnénk rákeresni, de nem ismerjük a pontos kifejezést, vagy
épp nem tudjuk hogyan írják. Mint például a betegségeknél vagy tudósok nevei
esetén.
− Harmadsorban a tartalomjegyzék ismeretnövelésre is kiváló. Sokszor a tartalom-
jegyzék olyan kifejezéseket tartalmaz, ami új összefüggéseket tár fel a keresett
szóval kapcsolatban. Például egy személy kapcsán a szervezet neve, ahol dolgozik
vagy a foglalkozása, illetve egy alkotás címe kapcsán az alkotók neve, vagy egy
helyszín neve (példa: „piramis” – „Egyiptom”, „Révész Sándor”).
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
88
35. kép A PolyMeta metakereső oldalán a „katalógus” kulcsszó esetén a
tartalomjegyzék megjelenése az ablak bal oldalán
Sok esetben a megtalált információk megbízhatósága kérdéses, amit a keresésben részt-
vevő források szakértők általi kiválasztásával lehet kontrollálni, ilyen például az egészség-
ügyi keresés. Nagyon sok lap tartalmaz egészségügyhöz kapcsolódó információkat, de nem
lehet tudni mi igaz a leírtakból. A Dokim tematikus kereső (dokim.hu) Magyarországon
ami a PolyMeta keresőre épülve, megbízható egészségügyi forrásokban keres csak, elke-
rülve a kétséges megbízhatóságú tartalmakat.
7.3.9 A Miner bemutatása
A Miner (miner.hu) egy magyar vertikális metakereső. A Miner kereső szolgáltatásait a
Wish Internet Consulting cég fejlesztette. A Miner metakereső a blogok bejegyzéseiben,
videomegosztó oldalak videóiban keres, illetve egyéb tartalmak keresését végzi.
A Miner metakereső blogkereső szolgáltatása a magyar nyelvű blogoszférában egye-
dülálló mennyiségű blogot ismer, és azok bejegyzéseiben keres. A Miner metakereső
videokereső szolgáltatása a hazai videomegosztó oldalak tartalmában, a Twitter-kereső
szolgáltatása a Twitter (twitter.com) magyar tartalmában keres. A Twitter egy ismeretségi
hálózat és mikroblog-szolgáltatás, mely lehetővé teszi a felhasználóknak, hogy rövid be-
jegyzéseket vagy egymásnak szánt üzeneteket írjanak SMS-ben.
A Miner metakereső fotókereső szolgáltatása a hazai fotóblogokból, illetve a blogszféra
egy adott téma köré szerveződő blogjaiban kereső aloldalakból meríti az adatokat, mint
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
89
például gasztroblog kereső, webkettő és webfejlesztés témájú blogok keresője, marketing
témájú blogok keresője.
A Miner ugyan az internetnek csak egy-egy szegletében keres, specializáltsága miatt je-
lentősen hatékonyabb, adott tartalomtípusban az általános kulcsszavas keresőknél mélyeb-
ben az adatmerítés, és a friss információk hamarabb jelennek meg a rendszerében.
Az oldalhoz társul egy saját szerkesztésű blog (blog.miner.hu) is, itt folyamatosan te-
szik közzé az oldallal kapcsolatos fejlesztésekről és egyéb témákról szóló beszámolókat,
híreket.
36. kép A Miner metakereső weboldala
7.3.10 A Miner keresőmotor
A Miner fejlesztése a webkettes fejlesztésekben megszokott „release early, release
often” metódus jegyében zajlik, azaz legtöbbször korai állapotukban teszik közzé az újabb
lehetőségeket, szolgáltatásokat. A Miner keresőmotor fedi le legteljesebben a magyar
nyelvű blogok bejegyzéseit, magyar nyelvterületről a Miner kínálja a legfrissebb és a leg-
több találatot.
A blogkeresője ráadásul nem csak blogokban, de az összes RSS/Atom formátumban
közzétett információban keres. A Miner blogkeresőbe az egyes blogok automatizált folya-
mat során kerülnek be, az utolsó lépés azonban adott esetben emberi szűrőn keresztül tör-
ténik meg. A hazai blogszolgáltatóknál regisztrált blogokat tartalmuktól függetlenül min-
den esetben automatikusan magyar nyelvűnek, és blognak minősíti.
A független és a külföldi blogszolgáltatóknál létrehozott blogok egyedi elbírálás után,
azok tartalmi és nyelvi, ember által történő ellenőrzése után kerülnek be a rendszerbe.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
90
Blognak a vélemény jellegű bejegyzéseket időpont szerint rendezve közzétett információ-
forrást nevezik.
A Miner RSS és Atom formátumú hírforrások alapján dolgozik, így technikai okokból
csak azokat a blogokat tudja felvenni rendszerbe, amelyek ennek megfelelnek. Jellemzően
a hazai blogszolgáltatóknál nyitott blog az első bejegyzés megjelenése után szinte azonnal,
automatikusan bekerül.
A blogok egy részét a keresőrobotok derítik fel, melyek hatékonysága változó, így be-
kerülésük nem minden esetben történik meg. Független blog, vagy külföldi szolgáltatónál
létrehozott blog esetén a blog írói jelezhetik a Miner üzemeltetői számára, ehhez az olda-
lon található kérdőívet kell kitölteni.
7.3.11 Egyéb magyar metakeresők
Magyarországon érdekes módon a Miner metakereső kivételével kizárólag orvosi témá-
jú vertikális metakeresőket hoztak létre. A két orvosi metakereső az Orvosoknak
(orvosoknak.hu) és az Informed (http://www.informed.hu). Az Orvosoknak oldal ingyenes,
de regisztrációhoz kötött, elsősorban praktizáló orvosoknak szól.
Az Orvosoknak a világháló válogatott magyar és nemzetközi orvosi tartalmai között
képes keresni, a szakemberek számára optimalizálták a keresőeszközöket. A keresések a
PolyMeta metakeresőn alapulnak.
Az Informed valójában egy egészségügyi portál, melynek az egyik menüjében találjuk a
metakeresőt, ami teljes weboldalként jelenik meg. Az Informed metakereső a Dokim kere-
sőmotorját használja.
7.4 ÖSSZEFOGLALÁS
Metakeresők működési elvét a magyar és külföldi metakeresők használatának és műkö-
désének elsajátításával ültettük át a gyakorlatba. Az Ariadnet, a PolyMeta és a Miner hasz-
nálatának és a keresőmotor működését részletes bemutatása kapcsán tapasztalatot szerez-
tünk a metakeresők működséséről, alkalmazásának lehetőségeiről. Ezen kívűl beszéltünk
még néhány magyar metakereső szolgáltatásról.
7.5 ÖNELLENŐRZŐ KÉRDÉSEK
1. Értelmezze a metakereső fogalmát!
2. Mutassa be a tanult metakeresőket!
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
91
8. SPECIÁLIS KERESŐK
8.1 CÉLKITŰZÉS
Kitekintés nyújtása a keresők nagy választékából. A könyvtárosi munka szempontjából
jelentős keresők bemutatás, azok jellemezése. A keresőrendszerek és a specializált keresé-
sek összehasonlítása, azok előnyei és hátrányai a könyvtáros szakma tükrében.
8.2 TARTALOM
A speciális keresők előnyei a könyvtáros számára
Tudományos keresők
Termékkeresők
Felhasználói vélemények keresése
Kép- és mozgókép keresők
Személykeresők, cégkeresők, településkeresők
Tudástárak
Humán alapú keresők
8.3 A TANANYAG KIFEJTÉSE
8.3.1 A speciális keresők előnyei a könyvtáros számára
Információkeresés elsősorban a kulcsszavas keresőkkel és katalógusokkal valósul meg,
de számos más, a két nagy keresőlehetőséget részben használó kereső létezik. A speciális
keresőket sokszor úgy definiálják, hogy segítségükkel lehet a rejtett weben (deep web)
keresni, ezek szinte mindegyike ún. vertikális kereső. A hagyományos webes keresőktől
eltérő profilú keresőrendszerek, információforrások gyűjtőhelye. A speciális keresőket
nagyon nehéz csoportosítani, mert a legtöbb csoportosítás csak nagy átfedésekkel oldható
meg.
Az ilyen adatbázisokban való keresést tárgyszójegyzékek és hagyományos osztályozási
rendszerek segítik, különösen a tudományos adatbázisok esetében. Ezek az adatbázisok
olykor jelentős értékkel bírnak, így gyakran fizetnünk kell a használatukért. Tágabb érte-
lemben ezek közé a szolgáltatások közé sorolhatjuk az online menetrendeket, telefonköny-
veket és a többi hasonló szolgáltatást is. A speciális keresőkről egy gyűjteményt találunk a
Startlap oldalán:
27. Startlap: kereso.lap.hu.
Az egyetlen honlaphoz (site) kapcsolódó keresési lehetőségek tárgyalását a tudományos
élethez kapcsolódó keresőkkel kezdjük.
8.3.2 Vertikális magyar indexelt keresők
A kulcsszó alapú szolgáltatások között is vannak adott tárgykörre specializált. Az egye-
di témakör szerint keresők, azaz vertikális keresők. Ezek a speciális keresők egy, esetleg
néhány területet fednek le, de azt igen mélyen.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
92
Példa:
A HEUREKA magyarországi, és magyar vonatkozású weboldalakat indexeli automati-
kusan.
28. A Heuréka kereső www.heureka.hu
Természetesen vannak egyéb dokumentumtípusra, térképekre, személyekre, telefon-
számokra stb. specializált keresők.
Példa:
Vertikális keresők lehetnek: a személykeresők, a kapcsolat alapú rendszerek keresői, a
térképek keresői, az online újságok keresési lehetőségei, szoftverkeresők, forráskód ke-
resők, a jogszabályok keresése, a vezetékes és a mobil telefonszámok keresése és annak
korlátai, a cégek, intézmények saját keresői, illetve a szervezeteket kereső oldalak
8.3.3 Tudományos keresők
A tudományos keresők alatt a tudományos publikációkkal, kutatókkal, és a tudományos
élettel kapcsolatos témaköröket tárgyaljuk. A Google tudományos keresőjéről már a
Google-ről szóló leckében volt szó.
Tudományos indexek
A tudományos indexben általában sok száz neves tudományos szaklap cikkeit lehet
böngészni. A cikkek adatai, sok esetben a teljes szövege, azok idézettsége is kereshető.
Ezek a weblapok dinamikusan jönnek létre, és szűnnek meg a megtekintés után, így a
keresőmotoorok számára eléhetetlenek. Az adatbázisok keresőrendszerei a webes keresők-
nél sokkal szabatosabb keresést tesznek lehetővé. A legkomolyabb adatbázisok nem in-
gyenes nyújtják szolgáltatásaikat. Tekintsünk meg ezek közül négyet!
A Scopus (www.scopus.com) egy adatbázis, mely a tudományos folyóirat cikkek kivo-
natait és a hivatkozásokat tartalmazza. Megközelítőleg 18 ezer bejegyzés található benne,
több mint 5 ezer nemzetközi kiadótól több tízezer nemzetközi folyóirat a természettudo-
mány, a technika, az orvostudomány és a társadalomtudomány területeiről.
A WebOf Knowledge egy, a tudomány egész területére kiterjedő bibliográfiai adatbá-
zis. Tartalma tudományos szempontok szerint rendszerezett. A cikkek bibliográfiai adatain
kívül a szerzői hivatkozások is megtalálhatók benne. Heti rendszerességgel frissítik. Adat-
bázisa három fő részből áll:
− Science Citation Index: Természet- és műszaki tudományok indexe. Több mint
160 tudományterület közel 8000 folyóiratát dolgozza fel részben vagy teljes egé-
szében. Hetenként kb. 20 000 új rekorddal bővül.
− Social Sciences Citation Index: A társadalomtudomány kb. 50 ágának 1700 folyó-
iratát dolgozza fel teljes egészében, de több ezer további tudományos folyóirat
kapcsolódó cikkeit is tartalmazza. Hetente közel 3000 új cikkel bővül.
− Arts & Humanities Citation Index: Bölcsészettudományi és művészeti index. 25
tudományág 1144 folyóiratát indexeli, de tartalmazza további 5700 folyóirat vo-
natkozó cikkeit is:
A SCIRUS (www.scirus.com ), mely az Elsevier Kiadó 2000 folyóiratának teljes szö-
vegéből, illetve a kiadó által épített szabadalmi, disszertációs és egyéb adatbázisaiból merí-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
93
ti a találatokat, azonban a találatok megjelenítése után a teljes szöveghez sok esetben csak
előfizetéssel férhetünk hozzá.
A Directory of Open Access Journals (www.doaj.org) egy ingyenes szolgáltatás, amely
teljes szövegű hozzáférést biztosít lektroált folyóiratokhoz. Megpróbálják az össze
studományterületet lefedni Most 5140 folyóirat szerepel a rednszerben, ebből jelenleg
2122 folyoirat kereshető a cikkek szintjéig. Az összes cikk száma 400 ezer fölött van.
Magyar Tudományos Akadémia
A Magyar Tudományos Akadémia (MTA) honlapja (www.mta.hu) a könyvtárosok
számára egy kiindulópont lehet egy tudományág, szakterület megismeréséhez, jeles képvi-
selőihez. A honlap a tudósok, az eredmények, a cikkek, hírek és pályázatok kereséshez
egyaránt segítséget nyújt, de mindezt több, egymástól megjelenésben és használatban is
eltérő módon.
A megismerést kezdjük a személykeresőknél. Az MTA tagjai és az MTA doktorai a bal
oldali menüben a megfelelő menüpont segítségével kereshetők. Az MTA tagok közötti
kereséshez a jobb oldali Keresés nevű rész is alkalmas. Itt lehetőség van továbbá a Tudós
adatbázisban keresni, ami az előző személykeresőknél sokkal bővebb, mintegy 15 ezer
kutató neve szerepel az akadémiával kapcsolatban lévő kutatók adatbázisában. A személy-
keresők használata nem egységes, de kezelésük magától értetődik. Az MTA tagok és dok-
torok keresői a megfelelő szakterület kiválasztása után a nevek teljes listáját mutatják meg.
A kutatási lehetőségek és a tudományos eredmények valójában nem jelentenek valódi
keresést, egy-egy menüpontban megtalálhatók. A tudományos eredmények a felső menü-
sor az MTA kutatóhálózata menüjében az MTA kutatóhálózatának eredményei menüjének
Az MTA kutatóhálózatának eredményei almenüjében tekinthetők meg. A pályázati lehető-
ségek, munkalehetőségek a jobb oldali Pályázatok nevű rész menüpontjainak kiválasztása
után lesz látható.
A kutatatók publikációi két adatbázisban kereshetők a bal oldali Publikációs adattárak
menüpont választása után: Köztestületi publikációs adattár, Tudományos publikáci-
ós adattár. A köztestületbe a tudományos fokozattal rendelkező kutatók, oktatók tartoznak,
melyhez MTA tagság nem szükséges. Napjainkban, 2010-ben közel tízezer hazai és ezer
határon túli tagot számlál. A Köztestületi publikációs adattár feladata a köztestületi tagok
publikációinak és azok idézettségére vonatkozó adatok tárolása. A Tudományos publikáci-
ós adattár az MTA kutatóhelyein dolgozó kutatók által közölt tudományos és ismeretter-
jesztő publikációk, valamint az ezekre érkezett idézetek bibliográfiai adatait tartja nyilván.
Videotorium
A Videotorium (videotorium.hu) a felsőoktatás és kutatás céljait szolgáló videó-meg-
osztó portál, amely helyet és különleges megjelenési formát biztosít a felsőoktatási intéz-
ményekben, kutatóintézetekben és közgyűjteményekben keletkező videó-tartalom számára.
A szolgáltatás ingyenesen hozzáférhető a NIIF tagintézmények felhasználói számára.
A Nemzeti Információs Infrastruktúra Fejlesztési Intézet (NIIF Intézet) a magyarországi
felsőoktatási és kutatói hálózat fejlesztéséért és működtetéséért felelős szervezet. Az Inté-
zet az országos NIIF Program keretében a teljes magyarországi kutatási, felsőoktatási és
közgyűjteményi közösség számára biztosít integrált országos számítógép-hálózati infra-
struktúrát, valamint erre épülő kommunikációs, információs és kooperációs szolgáltatáso-
kat, élvonalbeli alkalmazási környezetet. A tartalomban megtalálhatók a tudományos kon-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
94
ferenciák, szemináriumok, órarendi előadások, tréningek/képzések, szakmai rendezvények,
tudományos kísérletek előadásai. A kulcsszavas keresés az előadások címére, az előadó
nevére és a videóhoz társult rövid, szöveges leírásra támaszkodik, de mód van a Kategóri-
ák menüben tudományterületenként is keresni, így egyfajta tematikus tudományos video-
keresőként használható.
8.3.4 Termékkeresők
A termékkeresők közül a Google könyvkeresőjét érdemes megemlíteni, melyet a
http://books.google.com/ találunk meg, és a könyvek szövegében is képes keresni, mivel a
Google a könyveket digitalizálta. A könyvkereső történetével a Google történetéről szóló
fejezetben már megismerkedhettünk. Most néhány friss adatot tekintsük csak meg.
2010 decemberére a Google Könyvkereső felület több mint 35 nyelven érhető el a ja-
pántól a cseh és a finn nyelvekig, természetesen magyarul is. Száznál is több ország 10
ezernél is több kiadója és szerzője vesz részt a Könyvkereső partnerprogramban. A
Könyvtárprojekt 28 partnerre terjed ki, beleértve hét nemzetközi könyvtárpartnert: Oxfordi
Egyetem (Egyesült Királyság), a madridi Complutense Egyetem (Spanyolország), a kata-
lán Nemzeti Egyetem (Spanyolország), a Lausanne-i Egyetemi Könyvtár (Svájc), Ghenti
Egyetem (Belgium) és a Keio Egyetem (Japán).
Termékkeresés
Az arukereso.hu (www.arukereso.hu) egy internetes termék- és szolgáltatás-kereső, ami
lehetővé teszi, hogy a vásárlók magyarországi hagyományos és internetes áruházak kínála-
tát egy helyen böngészhessék, keresett termékek forgalmazóit megtalálják.
Ha friss találatokat szeretne egy vállalkozás webshop szolgáltatásáról, akkor ezt kérheti,
de saját keresőrobottal is rendelkezik, ami hetente látogatja meg a webáruházakat.
A Netkereső egy címszavakra épülő internetes cég és weboldal kereső adatbázis. A
Netkeresőbe a regisztráció ingyenes, a bekerülés azonban függ a feltöltöttségi kapacitástól.
www.kalauz.hu
Információs közösségi oldal, ami sok tízezer termék és szolgáltatás elérhetőségét, sok
ezer vállalkozás, üzlet, cég és intézmény adatait, híreit, ajánlatait tartalmazza. Ezekben
regisztráció nélkül, szabadon kereshetünk. A keresés lehetőségeit: szabadszavas és kulcs-
szavas keresés.
A szabadszavas keresésnél a „Mit keresel?” feliratú mezőbe gépelhetünk egy teszőleges
szót vagy összetett kifejezést. A találati lista az összes olyan cég és intézmény nevét tar-
talmazni fogja, amelynek nálunk levő weboldalán a keresett kifejezés előfordul. A „Hol
keresed?” mező kitöltése nem kötelező, de beírhatunk településnevet, irányítószámot, vagy
például azt, hogy „Budapest XIII. kerület”. Ebben az esetben az adott település, kerület
cégei, intézményei kerülnek a találati lista élére. Így kereshető meg a legközelebbi szolgál-
tató, üzlete, intézmény.
A kulcsszavas keresés esetén a legnépszerűbb kulcsszavak (találati oldalakon a kapcso-
lódó kulcsszavak) közül elég bármelyikre rákattintani, máris az adott kifejezést tartalmazó
oldalaink listája jelenik meg. A találati lista szűkítéséhez a kulcsszó előtti „+” jelet kell
kiválasztani, így újabb kulcsszó adható hozzá a keresési feltételekhez. Etávolítás a „-” jel-
lel történik.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
95
8.3.5 Felhasználói vélemények keresése
Blogkeresők
A metakeresőkről szóló leckében szóltunk a Miner keresőrendszerről, ami többek mel-
lett a blogok bejegyzéseiben is keres. A Miner metakereső a magyar nyelvű blogokat ku-
tatja.
A Miner mellett említést érdemel két katalógus szolgáltatás a Blogsearch.hu
(www.blogsearch.hu) és a Blogkatalogus.net (www.blogkatalogus.net/), a Startlap kataló-
gus blogokkal kapcsolatos oldala (http://blog.lap.hu/), illetve a magyar nyelven is elérhető
Live Journal, ami az érdeklődési körök szerinti blogokat, személyeket is képes megmutatni
(www.livejournal.com/interests.bml), de igazán angol nyelven használható.
Keresés fórumok hozzászólásaiban
A Fórumkereső (http://forumkereso.hu/) rendszer indulásakor az Index, a HWSW, a
Nők Lapja Café, a PC WORLD és a Terminal oldalak fórumainak hozzászólásaiban kere-
set, ami azóta bővült. A találati rangsorban az adott hozzászólás kiegészítő adatai is megje-
lennek, mint például dátum, szerző és kategória. A kereső Főoldalán kulcszavas kereső-
ként, míg a Célzott keresésnél katalógusként is használható.
8.3.6 Kép- és mozgókép keresők
A témakörre specializált keresők közül a kép- és mozgókép keresők kapnak kiemelt fi-
gyelmet. A keresést élesen el kell különíteni két, a keresés szempontjából egészen eltérő
feladatot jelentő részre. Az egyik esetben egy témával kapcsolatban, kulcsszó alapján ma-
gát az objektumot keressük, míg a másik esetben a képen vagy a videón keresünk feliratot,
személyt vagy tárgyat.
Objektum keresése
A Google kép- és videókeresőjével már megiserkedtünk. Nézzük meg, hogy milyen
más keresők vannak még ebben a témakörben. Kezdetben a Yahoo.com volt az elsők egyi-
ke, majd később a Bing (MSNSearch) és sok más kereső is kínálta ezen vertikális keresési
szolgáltatását. A képet a fájl neve és a weboldalon található, a kép közelében elhelyezett
kulcsszó alaján találták meg.
Manapság egyre erőteljesebb, különösen a felhasználó által feltöltött képek esetén a
cimkézés (pl. személyek), és a személyeket az adott rendszer ezután már más, a személyt
tartalmazó állólpen is felismeri, és automatikusan felajánlja cimkézésre (pl: Picasa, de ez
nem keresőrendszer).
Objektumon keresés
Ha a képen vagy a videón keresünk feliratot, személyt vagy tárgyat az utóbbi sokkal
pontosabb találatot szolgáltatna, de a keresések ezen módjának online változata jelenleg
még kezdeti stádiumban érhető el, ebből a legnépszerűbb az arcfelismerés.
Az egyik legkedveltebb web 2-es alkalmazás az internetes fotóalbum. A kiélezett harc
miatt a userek joggal várják el, hogy ingyenes szolgáltatásként, csupán regisztráció után is
szinte korlátlan mennyiségben tölthessenek fel képeket. Fizetni azért hajlandóak csak, ha
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
96
ennél valamivel többet: könnyű használhatóságot, vagy valamilyen extra szolgáltatást kap-
nak a pénzükért.
A Riya nevű internetes cég 2006-tól tette lehetővé, hogy a weboldalára feltöltött fotóal-
bumunkon kijelölhetjük, és beazonosíthatjuk a fotókon szereplő személyeket. A kezdeti
tanítás után a Riya felismete a fényképeken látható embereket és a hosszadalmas manuális
felcímkézés helyett, automatikusan címkézte (taggelte) a fotókat.
A Facebook fejlesztése nagy mértékben egyszerűsíti a fotók felcímkézését. Egy arcfel-
ismerésre alkalmas technológia intergrálásának köszönhetően a közösségi oldal ugyanis
automatikusan képes megállapítani a fotókon hol szereplnek emberi arcok, és automatiku-
san felkínálni azokat felcímkézésra a felhasználó számára.
Az arcfelismeréssel kapcsolatos érdekes oldalak:
29. http://www.myheritage.hu/hiressegek
30. http://www.pictriev.com/facedb/fs2.php
31. http://www.avinashtech.com/hu/internet/search-similar-faces-web-face/
A Google Goggles szövegfelismeréséről. A technológia impozánsnak tűnik, ám még
nehezen alkalmazható valós szituációkban. A lényeg röviden: a fotó alapján felismertetjük
a szöveget és azt automatikus lefordítjuk a kívánt nyelve, pl. mobiltelefonnal.
A Google Goggles fordítótulajdonsága valószínűleg még nehézkesebben működne pél-
dául köztéri szövegek esetében. A problémát a sokféle betűtípus, a fényviszonyok (pl. egy
éttermi asztalnál), a változó képminőség és persze a nyelvi fordítás nehézségei jelentik. A
törekvés arra, hogy a környezetünkben megjelenő idegen nyelvű szövegeket a helyszínen
azonnal le tudjuk fordítani egy mobilkészülékkel mindenesetre kedvező lépés a szolgálta-
tás valódi elterjedéséhez.
8.3.7 Személykeresők, cégkeresők, településkeresők
Az első bemutatandó magyar személykereső a Drótposta (http://dpl.drotposta.hu/). A ma-
gyar személyekről ez a kereső tartalmazza a legrészletesebben megtekinthető információt.
Megbízható személykereső, mivel időszakonként levelet küld a bejelentkezetteknek és
válasz hiányában törli őket a nyilvántartásból. Az ellenőrzés során pedig a nyilvántartott
adatmódosítást kérhet. Ezek alapján ez a személyi nyilvántartás megbízhatóbb, mint a
szokványos telefonkönyv, mivel a bejegyzett személyektől időszakonként megerősítést
kér.
A Magyar Internet Ki Kicsoda kizárólag személyes lapok listázására szolgál. Az önkén-
tes jelentkezési lapjának vagy törlési lapjának kitöltése nem feltétlenül jelenti a listázás
azonnali megkezdését vagy megszüntetését, erre várni kell olykor. Az adatbázisban szerep-
lő címek nem használhatók fel levelezési listákhoz, illetve nem használhatók fel kereske-
delmi célra
Személykeresést még végezhetünk a telefonkönyvekben, a közösségi portálokon (Iwiw)
és a munkahely honlapján, a tudományos élet képviselőit az MTA, az oktató- és kutató
intézmények honlapján.
A vállalat vagy szervezet listázására a Hungary.Network más helyein van lehetőség. Az
ACCOONA (www.accoona.eu ) egy európai irányultságú keresőgép, melyben ingyen el-
érhető több mint 25 millió európai vállalat üzleti adata. A keresőmotor fejlettségére utal,
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
97
hogy a beírt keresőkérdés szinonim kifejezéseire is rákeres. A magyar cégek adatait mutat-
ja térképpel a Cégtár (www.cegtar.hu)
Magyarország első honlapja (megyék, városok, intézmények); webhelye:
32. Magyarország első honlapja: http://www.fsz.bme.hu/hungary/homepage_h.html
Magyarországi települések, utcák kereshetők több keresővel is az alábbi webhelyeken:
33. Településkereső: www.telepuleskereso.hu
34. Utcakereső: utcakereso.hu
35. Google Maps (bármilyen földrajzi egység kereshető): maps.google.com
36. Google Maps (Magyarországra fókuszálva): www.terkep.google.hu
8.3.8 Tudástárak
A tudástárak a könyvtár tájékoztatás új, de nem minden esetben elfogadható elemei.
Hazánkban is a legelterjedtebb online szótár a Wikipédia (wikipedia.hu ), mely egy több-
nyelvű, nyílt tartalmú, az internethasználók közössége által fejlesztett, webes enciklopédia.
Nagy előnye, hogy magyar nyelven is elérhető. A tudástárakra jelentős igény van, így a
ami egyre erősödik, a hazai szakmai adaptációi is ezt támasztják alá: pl. létezik magyar
nyelvű könywiki (http://konyvtar.hu/wiki/Kezdőlap ), mely több ezer könyvtár adatait
gyűjtötte össze, illetve szakmai fogalomtár építést is folytat.
Rövidítés szótár (rövidítés.hu) a rövidítések páratlan, az inetrnetes közösség által fej-
lesztett gyűjteménye. A tudományos rövidítések mellett érdekessége, hogy segítségével az
egyedi SMS és chat nyelvi rövidítéseket így is meg lehet érteni.
A tudástárak új generációját képviseli a számításokat is végző Wolfram Alpha
(www.wolframalpha.com ). Az olyan jellegű kérdéseknél hasznos, ha például arra vagyunk
kíváncsiak „Mekkora Magyarország GDP-je?” A Google keresőt használva több oldalon
keresztül kell keresgélni, hogy megkapjuk a választ, mert elsősorban definíciókat, a kifeje-
zést tartalmazó oldalakat kapjuk meg találatként, ezzel szemben Wolfram Alpha-nál, ha
beírjuk a GDP szót, akkor adatként és szövegesen is megjeleníti az országok GDP értékét.
Nagyon jól használható az oldal, ha árfolyamdiagramokra, függvényábrázolásokra, ma-
tematikai feladatok megoldására szeretnénk használni a keresést, mert rögtön a megoldást
adja vissza találatul.
Példa:
Keresőkérdés:100 $ +25%
Eredménylista: 37. kép
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
98
37. kép A Wolfram Alpha tudástár
8.3.9 Humán alapú keresők
A legújabb kezdeményezés a humán alapú keresők megjelenése, melynél az indexelést
vagy a keresőkérdést emberek segítségével válaszolja meg a rendszer.
Az ún. kérdés-válasz rendszerek (pl. a Webclopedia vagy az AskJeeves) nem a találati
listát szolgáltatnak, hanem a feltett kérdésre próbálnak valódi választ adni.
A kérédés-válasz keresők egyik első és magyar képviselője az IGlue, melynél a kereső-
kérdésekhez eleve elkezdték az igen releváns oldalak csatlakoztatását. Ha a keresőkérdést
válaszolják meg emberek, akkor azt társadalmi keresőknek nevezik.
A trásadalmi keresők esetén a keresőkérdést elküldik egy szakértői csoportnak, vagy
baráti körnek, és a választ a felkért személyek tudása alapján kapjuk meg.
IGlue
Elindult a magyar fejlesztésű iGlue tartalomszervező és kereső eszköz ingyenesen hoz-
záférhető verziója. A szöveges tartalomban való keresés hagyományos megoldása a kere-
sett kifejezést reprezentáló karaktersorozat felismerése. A találatok megjelenítése egyedi:
releváns képek, videók, linkek a keresőszóval kapcsolatban.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
99
Példa:
Gépelje be keresőszónak: Dr. Antall József
Ezzel szemben az iGlue nem szóalakokat azonosít, hanem azok jelentését. Így a kere-
sett információt akkor is megtalálhatjuk, ha nem ugyanabban a formában szerepel. Az
iGlue keresője tehát egy ilyen alapokon megvalósított adatbázis, részletes keresési opciók-
kal.
38. kép Az iGlue szolgáltatás találati oldala
A tárolt információk között kereshetünk általánosan, melynek eredményeit kategóriák-
ba rendezve kapjuk, vagy már kiindulásként szűkíthetjük a keresés hatókörét a számunkra
érdekes kategóriára. A nagy részletességgel kidolgozott adatbázisnak köszönhetően egy-
egy kategória tulajdonsága alapján is kereshetünk, kiválasztva akár, hogy az 1950-ben
született, később Kossuth-díjjal kitüntetett személyeket, illetve hozzájuk kapcsolódó in-
formációkat szeretnénk megtalálni.
A szemantikai adatbázis jelenleg több mint 20 millió adatbejegyzést tartalmaz különbö-
ző formátumban tárolva, legyen az kép, videó, személy, intézmény, weboldal, földrajzi
hely, vagy bármilyen objektum, melyek között természetesen megjelennek a szemantikai
kapcsolatok is. Bővülni fog az adatbázis mind emberi (humán) mind mesterséges intelli-
gencia alkalmazásával, a weboldalakon található entitások és a közöttük lévő szemantikai
kapcsolatok automatikus azonosításával folyamatosan, kiterjesztve a jelenlegi hiányos
lefedettséget. A keresésnél figyelembe kel venni, hogy a keresés az adatbázisban található
entitásokra terjed ki (személyek, földrajzi helyek, intézmények, képek stb.), azaz zárt
kulcsszavas kereső.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
100
8.4 ÖSSZEFOGLALÁS
A témakörre specializált (vertikális) vagy egyetlen honlaphoz (site) kapcsolódó keresési
lehetőségek bemutatása. A témakörre specializált keresők közül a keresők kapnak kiemelt
figyelmet. A honlap saját keresési lehetőségeinek tárgyalása során bemutatjuk a Magyar
Tudományos Akadémia honlapjának keresőjét. Ezen kívül az alábbi témakörök keresőiről,
és azok korlátairól lesz szó: tudományos adatbázisok, tudástárak, szótárak, művészeti tá-
rak, rövidítésszótár, személykeresők, kapcsolat alapú rendszerek, kép- és mozgókép, tér-
kép, online szakmai újságok folyóiratok, jogszabályok, vezetékes és mobil telefonszámok,
szervezeteket kereső szolgáltatás.
8.5 ÖNELLENŐRZŐ KÉRDÉSEK
1. Mutassa be a tudományos keresőket!
2. Hasonlítsa össze a kép- és mozgókép keresőket!
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
101
9. KATALÓGUSOK
9.1 CÉLKITŰZÉS
A katalógusok használatának és a működési mechanizmusának vázlatos bemutatása, a
katalógusokban elérhető kulcsszavas keresők megismerése.
9.2 TARTALOM
Az internetkatalógus fogalma
Internetkatalógus
Hudir és Heuréka
Neumann ház és a Webcat
Horizontális katalógusok
Vertikális katalógusok
Digitális könyvtárak
9.3 A TANANYAG KIFEJTÉSE
9.3.1 Az internetkatalógus fogalma
Az internetkatalógus a keresőszolgáltatások másik jelentős szolgáltatása a keresőrend-
szerek mellett. A katalógusoknál az üzemeltetők kiválasztanak, majd felkérnek embereket,
akik kategorizálják a weboldalakat. Az eredmény egy hierarchikus struktúrájú tematikus
lista. A hierarchia szintjei a témakörök egyre mélyebb szintjeit jelentik, melyek kiválasztá-
sával kaphatjuk meg témához kapcsolódó weboldalak linkjeit, melyek vélhetően a kérdé-
sünkre is választ adnak.
A keresés lépései alapján nevezik könyvtárakon alapuló keresésnek, vagy internet-
katalógusnak. Az internetkatalógusok (katalógus, directories, browsing services) fogalma
már szerepelt a tananyag elején, de itt érdemes átismételni.
Az internetkatalógus olyan hierarchikus osztályozási rendszert
alkalmazó webes keresőszolgáltatás, amelyek adatbázisai többnyire
intellektuálisan feldolgozott HTML-dokumentumok rekordjait tar-
talmazzák, valamint kapcsolatokat más adatbázisokhoz.
Az osztályozást és a tartalmi kivonatok megfogalmazását szerkesz-
tőségben végzik.
A katalógusokban az osztályok alapján – „lapozgatva” – végezhető
böngészés, de lehetőség van arra is, hogy a keresőszó megadásával,
célzott kereséssel érjünk el a kívánt osztályig.
Az internetkatalógusok adatbázisai lényegesen kisebbek, mint az indexelőszolgál-
tatásokéi, de a keresés az intellektuális feldolgozás, a gondos osztályozás jóvoltából sokkal
kisebb zajjal jár. A megjelenített tételek jobban tájékoztatnak a dokumentum tartalmáról,
mert a tételekhez a feldolgozók vagy a beküldők (akiknek érdekében áll, hogy a katalógus-
ba bekerüljön a weblapjuk) szövegezik meg a tartalmi kivonatot. Ahhoz képest, hogy egy
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
102
indexelőszolgáltatásban mi mindent kell ismerni a pontos részletes kereséshez, az
internetkatalógusokban sokkal egyszerűbb az eljárás, noha kevesebb a találat.
Léteznek olyan katalógusok is, melyek indexelőszolgáltatásként is működnek. A kere-
sőszót megadva egyrészt megjelennek az indexelőszolgáltatás segítségével nyert találatok,
másrészt a rendszer fölkínálja a releváns osztályokat is. Ezen katalógusok némelyikének
elérhetősége:
37. Altavizsla http://www.altavizsla.hu
38. Goliat http://www.goliat.hu
39. Yahoo! http://www.yahoo.com
Ritkán tezaurusz is kiegészíti az osztályozási rendszert (pl.: AltaVizsla). A tezaurusz
lexikai egységeit az AltaVizslában összekapcsolták a katalógus osztályaival is; bármelyik
deszkriptort megadva ugyancsak lejátszódik a keresés az indexelőszolgáltatás segítségével,
ugyanakkor azoknak az osztályoknak a találatai is megjeleníthetők, melyekre a deszkriptor
mint mutatószó utal.
9.3.2 Horizontális katalógusok
A könyvtári katalógussal szemben itt más az értelme. Az online könyvtári katalógusuk
(OPAC) már többször szóba kerültek, de a keresésnek ez módja egészen mást takar. Az
internetkatalógus hatékony segítséget nyújt a hálózati dokumentumok keresésében. Az
internetkatalógus (tematikus kereső) esetén az indexelést emberek, jellemzően szakembe-
rek munkája révén készül el. Általános célú katalógusok sokak által ismert és használ kata-
lógusok, melyek erősen építkeznek az emberi intelligenciára.
Előnye, hogy a találatok minősége igen magas szintű, ennek az a következménye, hogy
lerövidülhet a keresésre szánt idő. Hátrányként említhetjük a találati lista alacsony számát,
mivel az emberek az automatikus indexelőkkel szemben hamar elérik a teljsítőképességük
korlátait. Ez az oka sok szolgáltatónál az engedménykenek: a weblap gazdái kérvényezhe-
tik a megjelnésüket a kereső megfelelő oldalain és a felhasználók maguk is jelentkezhetnek
a szakterületükhöz kapcsolódó oldalak szerkesztéséhez. Mindkettőt a szolgáltató engedé-
lyezi.
A keresés során egy hierarchikus felépítésű oldalon haladunk a keresett téma felé, így
közelíthetünk a számunkra szükséges találati listához. Természetesen van lehetőség kere-
sőkérdés feltevésére is.
A tematikus keresők közül a Startlap az egyik legnagyobb magyar nyelvű vállalkozás:
40. Startlap általános témájú kereső: http:// www.startlap.hu
A Wyw egyedi megjelenítés mellett még az oldalak PageRang számát is kiírja:
41. Wyw tematikus kereső: http://directory.wyw.hu/Internet/Katalogusok_Linkek/
Vannak viszonylag fiatal katalógusok, melyeknek pár éve építkeznek:
42. Hun-web: http://www.hun-web.hu/Internet/Linkgyujtemenyek/
43. Linkpark 2005-től: http://www.linkpark.hu/
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
103
Hudir és Heuréka
Az igényekhez alkalmazkodva a Hungary.Network két egymástól független kereső
szervert fejlesztett ki és állított üzembe: a HuDir tematikus katalógust 1995-ben, és nem
sokkal utána a Heuréka keresőt 1996-ban. A két keresőt, amelyek kizárólag a magyar vo-
natkozású oldalakon keresnek, és amelyek már a beüzemelésüket követően óriási sikereket
arattak, naponta több tízezer látogató használja Magyarországról és külföldről egyaránt.
44. HuDir horizontális katalógus: http://www.hudir.hu
9.3.3 Vertikális katalógusok
A szakterületekre specializálódott keresőszolgáltatások többsége internetkatalógus. Egy
részüket neves kutatóintézetek gondozzák, más részük kereskedelmi szolgáltatás. Mindkét
esetben jó minőségű találatokra lehet számítani. Az osztályozási rendszerek között nem-
csak az általánosan elterjedt, természetes nyelven alapuló hierarchikus osztályozási rend-
szerek fordulhatnak elő, hanem az ETO (az Egyesült Államokban pedig a Dewey-féle TO)
is.
Kultúrával foglalkozó vertikális katalógus:
45. Port.hu: http://port.hu
46. RighrHealth egészségügyi tematikus katalógus: http://www.righthealth.com/
Vannak olyan katalógusok, melyeknek még nem nagy az adatbázisa, de népszerű lehet:
47. Jó tudni: www.jotudni.hu
A vertikális katalógusok adott témakört lefedő, sokszor személyes katalógusok. A te-
matikus internet-katalógusok egyike a Válas György-féle tudományos ismeretterjesztés
kedvelőinek szánt rövid, de sajátos katalógusa.
9.3.4 Digitális könyvtárak
A könyvtári online katalógusoknak (OPAC) ugyan kevés köze van az internetes kataló-
gusokhoz, de néhány szóban azért beszéljünk róluk, viszont az azokban történő keresés
bemutatása más tanegységek feladata. Magyarország meglehetősen korán csatlakozott az
internetközösséghez. Az első könyvtári adatbázist a szegedi egyetemi könyvtárban kezdték
építeni 1975-ben. A Magyar Nemzeti Bibliográfia 1976 óta készül számítógéppel az Or-
szágos Széchényi Könyvtárban.2002 elején töltötték fel a Magyar Országos Központi Ka-
talógus (MOKKA) adatbázisát, amelybe a legnagyobb 15 könyvtár állományát integrálták.
Magyarországon a 80-as évek végén már online elérhető adatbázisok álltak a felhaszná-
lók rendelkezésére. A hálózaton a 90-es évek első felében jelentek meg az első magyar
nyelvű digitalizált művek. A Magyar Elektronikus Könyvtár 1994, a Neumann János Digi-
tális Könyvtár 1997 óta szolgálja ki a magyar nyelvű szép- és szakirodalom iránt érdeklő-
dőket. Azóta a két kizárólag virtuális könyvtár mellett sok száz könyvtár, múzeum és levél-
tár kapcsolódott be a nemzeti kulturális örökség digitalizálásába. A magyar szervereken
hozzáférhető dokumentumok tanulmányozására és elemzésére kiváló lehetőséget ad a
Neumann Könyvtár WebKat.hu adatbázisa, amely 2002. február közepén 100 000 rekordot
tartalmazott.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
104
9.3.5 Magyar Elektronikus Könyvtár (MEK)
1994 tavaszán Drótos László, Kokas Károly és Moldován István, felajánlották munká-
jukat annak érdekében, hogy megalapítsák a Magyar Elektronikus Könyvtárat (MEK),
amelynek célja elsősorban a digitális formában létrejövő szellemi termékek összegyûjtése
és ingyenes szolgáltatása. Alig öt év elmúltával a nemzeti könyvtár saját szervezeti keretei
közé integrálta a MEK-et.
9.3.6 Neumann ház és a Webcat
A Neumann-ház, bővebben a Neumann János Digitális Könyvtár és Multimédia Köz-
pont funkciója szerint online könyvtár és web-index szolgáltatás, magyar CD-ROM
diszkográfia, folyóiratok elérését biztosítja (39. kép).
A kulturális kormányzat már az 1997. évben hatályba lépett kulturális törvényben –
amelynek egyik fejezete a könyvtári ellátásról szól – előírta a Neumann János Digitális
Könyvtár és Multimédia Központ létrehozását. Az intézmény küldetése, hogy az audiovi-
zuális dokumentumok nemzeti gyűjtő- és szolgáltató helye legyen. A Neumann-ház kata-
lógusa tartalmilag jelentősen kibővült a kezedetekhez képest. Az új, nagykapacitasú szer-
ver munkába állításával egyidejűleg elérhető a magyar interneten publikalt elektronikus
dokumentumok adatait tartalmazó adatbázis is.
A katalógus WebKat.hu nevet kapott, ami egyben az URL címe is. Jelenleg mintegy 12
ezer tételt tartalmaz a szépirodalomtól a speciális szakirodalomig. Természetesen az adat-
bázis folyamatosan növekszik, de ehhez nem keresőrobotokat alkalmaznak, hanem az in-
ternetet jól ismerő könyvtáros szakreferensek közreműködesével, azaz humán kereső tech-
nológiával bővül. A katalógus az alábbi URL címen, a „keresés” feliratú ikonra kattintva
érhető el.
48. Neumann-ház oldala: http://www.neumann-haz.hu
Webkat.hu, a magyar internetes források online katalógusa. A Neumann Könyvtár
WebKat.hu adatbázisa egyedülálló vállalkozás az egész közép-kelet-európai térségben.
Egyéves előkészítő munka után 1999 szeptemberében indították útjára a magyar kulturális
örökség körébe tartozó internetes dokumentumokat feldolgozó, online elérhető katalógu-
sukat. Elsősorban azokat a magyar nyelven, magyar szolgáltatónál elérhető elektronikus
dokumentumokat dolgoznak fel, amelyekre igazak a következő megállapítások: önálló
szellemi termék, független információegység, melynek célja az információ közlése, a tudás
átadása.
A Neumann-ház részletes fő tevékenységei:
− a magyar kulturális örökség digitalizálása
− a közgyűjteményekben folyó digitalizálási tevékenység koordinálása
− a magyar internetforrások katalogizálása
− a közgyűjteményi adatbázis építése
− adatgyűjtés a magyar CD-ROM és DVD lemezekről
A Neumann-ház gyűjteményei:
− Digitális Irodalmi Akadémia
− Bibliotheca Hungarica Internetiana
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
105
− a klasszikus költők összes verse
− kortárs művei
− a magyar tudománytörténeti dokumentumok
− az Educatio néhány évfolyama
39. kép A Digitális Irodalmi Akadémia (DIA) nyitóoldala
9.4 ÖSSZEFOGLALÁS
A katalógusok megismerése mellet egyéb más, a katalógusok és a kulcsszavas keresők
egye jellemzőit viselő tartalomszolgáltató oldalát ismertük meg. A katalógusok működési
mechanizmusa mellett a katalógusokban elérhető saját belső vagy külső kulcszsvas kere-
sőket mutattuk be.
9.5 ÖNELLENŐRZŐ KÉRDÉSEK
1. Értelmezze a horizontális és a vertikális internetkatalógusokat!
2. Mutassa be az internetkatalógusok szerepét!
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
106
10. SZEMANTIKUS WEB
10.1 CÉLKITŰZÉS
A szemantikus web lehetősegeinek megismerésén keresztül a hallgató megismeri a jövő
évtizedek keresését megváltoztató lehetőségeket, a fejlődés szükségességét, elsajátítja a
kapcsolódó alapfogalmakat.
10.2 TARTALOM
Tudásmenedzsment, tudásprezentáció
A szemantikus web
A szemantikus web üzleti oldalról
Ontológia
Az RDF ontológia fogalma
Webszolgáltatások
Tématérképek és RDF
Az RDF ontológia
Az RDFS ontológia
OWL (Web Ontology Language)
10.3 A TANANYAG KIFEJTÉSE
10.3.1 Tudásmenedzsment, tudásprezentáció
Az intranetek szerepe az egyértelmű és a nem egyértelmű tudás kiaknázásában egyaránt
kiemelt. Az explicit tudás esetén az intranet technológia a szervezetek tudásbázisához egy
igencsak elterjedt interfészt ad, felhasználva a nyílt szabványokat. Az információ megfele-
lő kontextusa lényeges, vagyis ahhoz, hogy információ érthetővé váljon, magának az in-
formációnak kell a világos eseményekhez, cselekményekhez vezetnie. Ha ez így történik,
abban az esetben az információ időben jut el ahhoz, akinek valóban éppen szüksége van
arra.
Az emberek közti egyszerű kapcsolatokhoz intranetalapú eszközöket használhatunk
nem explicit tudás esetén, ami segíti a párbeszéd, a tudáscsere létrejöttét, de a szükséges
információk a webes és intranetes források esetén egymástól távol, rendezetlenül, kapcso-
lataik leírása nélkül találhatók meg (pl. Ady verseinek elemzése). A webes keresőrendsze-
rek egy olyan rendezett listát adnak vissza, amely egyáltalán nem vagy csak igen kevés
információt ad a dokumentumok szemantikus kapcsolatáról, ilyen kezdeti próbálkozás
például a Google webes keresőszolgáltatás Varázskerék alszolgáltatása.
A tudásmenedzsment egy eszköz, amellyel az eltérő szinten
strukturált vagy a teljesen strukturálatlan információ szerves
egésszé szervezhető, egy új tudásszint létrehozásával. A tudásból
kizárólag az adott döntéshez vagy egy adott tevékenység előkészíté-
séhez szükséges elemeket tárják fel a tudásmérnökök.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
107
A tudásmérnökök munkájának jelentős része abból áll, hogy böngészve, olvasasva
megpróbálják feltárni a dokumentumok viszonyát. A jelenlegi tudásmenedzsment rendsze-
reknek négy jelentős gyengéje van:
1. információkeresés: a jelenlegi kulcsszó alapú keresések számos esetben lényegtelen
információkat szolgáltatnak,
2. információkinyerés: ma még emberi böngészés és olvasás szükséges az információ-
forrásokból történő érdemi információ kinyerésére,
3. karbantartás: az alacsony szinten strukturált szövegforrások karbantartása nehéz és
időpazarló tevékenység,
4. dinamikus weboldalak: az automatikus dokumentumgenerálás engedélyezhet olyan
weboldalakat, melyeket a felhasználói profilhoz vagy egyéb fontos aspektushoz igazítva
dinamikusan újrakonfiguráltak.
A szervezetek, különösen a profiorientált cégek versenyképessége az ezredforduló után
egyre erősebben függ a belső tudásbázisának kihasználtsági szintjétől. A tudásmenedzs-
ment-eszközöknek szükségük van a weben szétszórt készleteknek az egymáshoz kapcsoló-
dó információk koherens egységeibe történő integrálására.
Azokat a tárgyköri ismereteket, amelyeket egy feladat megoldása során felhasználunk,
alapvetően két kategóriába lehet sorolni. Az elsőbe tartoznak a vizsgált világ összefüggése-
it leíró elsődleges vagy lényegi vagy érdemi ismeretek, míg a másikba a következtetés
hatékonyságát növelő ún. heurisztikus ismeretek.
Az érdemi ismeretek ábrázolása: a tudásreprezentáció
A tudásreprezentációs módszereknek eltérő ábrázolási technikájuk van az ismeretek ki-
fejezésére, lehet az egy logikai formula, lehet az egy „ha, akkor” szerkezetű szabály, de
lehet egy hálórészlet is stb. Ez a reprezentáció egyik oldala. Minden ábrázolási módhoz
szorosan hozzátartozik egy következtető eljárás, amely úgymond „életre kelti” a reprezen-
tált ismereteket. Általa olyan újabb tudáshoz jutunk, amely a feladatmegoldás kiinduló
ismereteiből következik.
A reprezentáció módszereitől azt is elvárjuk, hogy legyen lehetőség a következtetést ha-
tékonyan vezérlő heurisztikus ismeretek ábrázolására is. A szemantikus web működéséhez
viszont a számítógépeknek strukturált információ csomagokhoz és bizonyos szabályokhoz
kell hozzáférniük.
Az utóbbiakat automatizált gondolkodáshoz, következtetések levonásához lehet hasz-
nálni. A mesterséges intelligencia kutatói már a web kifejlesztése előtt tanulmányoztak
ilyen rendszereket. A tudásreprezentációnak van ugyan néhány nagyszerű példája, de nem
változtatta meg a jelenlegi rendszereket. A benne rejlő lehetőségek teljes kiaknázásához
egy önálló globális rendszerhez kellene hozzákapcsolni.
A hagyományos tudásreprezentáló rendszerek további hátránya a központosítottság, így
a növekvő méretet miatt irányíthatatlanná válhat. További hátrányuk, hogy gyakran
korlátozák azoknak a feltehető kérdéseknek a körét, melyekre a számítógép biztonsággal,
vagy egyáltalán válaszolni tud. A leírtakból következik, hogy a rendszerek összeillesztése
nehezen valósítható meg.
Példa:
családfák leszármazási rendszere (adatbázisa) tartalmazhat olyan szabályt, hogy „a
nagybácsi felesége a nagynéni”. Az adatok ilyen esetben némi programozói háttérsegít-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
108
séggel átvihetők az egyik rendszerről egy másikra, de a teljesen más formában meglévő
szabályokkal igen gyakran nem tehetjük meg mindezt.
A szemantikus web kutatói tudják, hogy a sokoldalúság elérése érdekében a paradoxo-
nokkal, és a megválaszolatlan kérdésekkel kell szembenézniük. A nyelv ugyanakkor bizto-
san felkészíhető a lehető legkifejezőbb szabályokra, ezáltal megvalósítható a szélesebb
körű következtetés-levonás.
Ez hasonló a konvencionális web korai szakaszához, amikor az ellenzők állították: a
web sohasem lesz jól szervezett könyvtárrendszer, hiszen hiányzik a központi adatbázis és
fastruktúra, ami az adatok megtalálását lehetetlenné teszi. Részben volt csak igazuk volt,
valóban vannak nem működő linkek, de a másfél évtizede még megvalósíthatatlannak tűnő
keresőmotorok már megbírkóznak a növekvő webes adatmennyiséggel, és már rengeteg
adatot képesek megmutatni, azonban sok kérdés megválaszolatlan marad.
A szemantikus web egy olyan általános webstruktúrára és a hozzá kapcsolódó
infromációkereső-szolgáltatás kialakítása irányuló törekvés, melyben az adatok és a közöt-
tük lévő szabályok is rögzíthetők, így lehetővé válhat adott szabály kinyerése bármely
létező tudásreprezentáló rendszerből, így az a saját rendszerünkből egyszerűen exportálha-
tó lesz a web struktúrájához.
10.3.2 A szemantikus web
A szemantikus web szükségességét akkor érezzük igazán, ha a jelenlegi (2010-ben léte-
ző) web főbb jellemzőit áttekintjük. A mai web egy vagy több természetes nyelven (angol,
magyar, német stb.) fejezi ki az információt szöveg elemek, multimédiás elemek és az
oldalstruktúra segítségével. Az adatok megtalálása nehéz feladat, de azok feldolgozása
egyszerű, hiszen a tényekre részinformációkból következtetünk, ehhez a weben különféle
feladatok elegyítése szükséges. A példából érezhetjük, hogy egy speciális keresőmotorral a
választ könnyen elérhetjük, de saját magunknak fáradtságos munka összegyűjteni az összes
adatot.
Példa:
egy szállásajánlat, az útvonaltérkép a szálláshoz, illetve a környék látnivalói más-más
weboldalról származnak, ezeket különböző digitális könyvtárakban találjuk.
Egy adat (információ) jelentése minden esetben az adott környezettől függ. A felhasz-
nálók elvárásai erősen megemelkedtek, azt szeretnék, ha a számítógép megértené őket.
Ennek egyik bizonyítéka, hogy a keresőrendszereknél meglehetősen ritkán használják a
lassan egy évtizede jól működő összetett keresést. Az informatikai (kereső)rendszerek a
szemantikus technológiák üzemszerű alkalmazásával egészülnek ki a következő évtized-
ben (2010–2020 között), amelyek az emberi elme jelentésátadó és -kezelő mechanizmusai-
ra emlékeztetnek, és várhatóan áttörést fognak hozni e rendszerek lekérdezhetősége, kar-
bantarthatósága és együttműködő képessége terén.
A 2000 utáni években az informatika tudományágon belül kialakult egy új kutatási terü-
let, a kognitív informatika (Cognitive Informatics, CI). A CI az ötven éve folyó mestersé-
ges intelligencia kutatások folytatása helyett az agy szerkezetének feltérképezésére teszi a
hangsúlyt. Az agy működésének és belső információhordozó mechanizmusainak mélyebb
megismerésén keresztül törekszik az informatikai rendszerek teljesítményét növelni, haté-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
109
konyságát javítani. A kereső személyek igényeinek hatékonyabb kielégítéséhez az infor-
mációk jelentésének kezelése és jelentésük szerkezete egyre fontosabbá válik. A kognitív
rendszerek számára mindezt a szemantikus (jelentésalapú) technológiák biztosítják.
A jelentésalapú (szemantikus) technológiák szoros kapcsolatban állnak a meta- és hát-
téradatok kezelésével. Fontos feladatuk az információ automatikus feldolgozásába egyre
hatékonyabban bevonni azokat az általános asszociációkat és háttérismereteket, amelyeket
a kereső személyek agyában egy adott kontextusban egy-egy információ tipikusan kivált,
valamint maguk is képesek legyenek ilyen asszociációk, ismeretek létrehozására és kezelé-
sére. A szokásos adatbázis technológiákhoz képest rugalamsabban kezelik az olvasást és az
írást: távolinak tűnő információkat automatikusan összekapcsolnak, az adat új típusa esetén
a rendszer újratervezésére nincs szükség. A jelentésalpú technológiáknak ma két kontextu-
sa létezik:
− a web szélesebb kontextusa, ami voltaképpen a szemantikus web, valamint
− a szervezetek információellátó tevékenységének szűkebb, de igen fontos kontextusa.
A leckében csak az első kontextussal foglalkozunk. Gondoljunk csak arra, milyen ha-
talmas ugrást jelentene a web fejlődésében és mindennapi életünkben, ha ezeket az adato-
kat a nagy teljesítményű, villámgyors számításokra képes gépek is megértenék, és szervez-
ni tudnák. Az egyik legnevesebb nemzetközi piackutató cég, a Gartner Group úgy véli a
szemantikus web olyan jelentős mértékű mérdföldkő lesz az internet tröténetében, mint a
World Wide Web volt közel húsz évvel ezelőtt.
A szemantikus web kialkításával tehát a szemantikus dokumentumokban képesek le-
szünk az emberi agy gondolkodásának egyes elemei alapján keresni, de még nem lesz ké-
pes önállóan az emberi beszéd vagy írás értelmezésére.
A szemantikus web (semantic web) célja a weben fellelhető in-
formációk egységbe rendezése, egy olyan hálózat létrehozása, ahol
az adatokat nemcsak az ember, hanem az automatizált eszközök is
képesek egymással megosztani és feldolgozni.
Mindezek eléréséhez elsőként a webet logikai úton is elérhetővé kell tenni, azaz a kö-
vetkeztetésekhez szabályokat szükséges használni, hogy keresőmotorok is értelmezni tud-
ják a szemantikus dokumentumokat és adatokat. Az adott logikával egyértelműen le kell
írni az objektumok bonyolult tulajdonságait, de nem annyira egyértelműen, hogy az ágen-
seknek olyan kérdéseket kelljen feltenni, amelyek ellentmondásokhoz vezetnek. Egyszerű-
síti a feladatot, hogy az általunk kifejezésre szánt információk többsége a „szék egy bútor-
fajta” logikán vonul végig, és ez a ma létező nyelveken, kis szókinccsel könnyedén
leírható.
A szemantikus web a weboldalakon található adatokhoz leíró címkéket rendel, és azo-
kat összekapcsolja, újfajta asszociációs kapcsolatokat létesítve a különböző adatok között.
Eredménye egy globálisan elérhető adatbázis kialakítása.
Példa:
1) A digitális könyvtárak hasonlóak a webes keresőkhöz. Tulajdonképpen nem mások,
mint webes katalógusok, melyekkel a következőket lehetne megvalósítani:
- internetes könyvtárak létrehozása,
- adatok kiterjesztése a multimédiás adatok területére,
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
110
- a szoftver ágensek (tehát olyan programok, melyek viszonylag autonóm módon, a fel-
használó vagy a számítógép helyett hajtanak végre feladatokat) lehetnének a könyvtá-
rosok: segíthetnek a megfelelő dokumentum, publikáció megtalálásában.
2) Webszolgáltatások szemantikája: a webszolgáltatások (WebServices) teljes mértékű
elterjedésekor a felhasználók is többet várnak el egy keresőrendzsertől:
- keressük az elegáns matematikai levezetését a Heisenberg-féle határozatlansági össze-
függésnek. De mit jelent az, hogy elegáns? Egy elméleti fizikus vagy matematikus
számára egyértelmű az, ami a gépek számára értelmezhetetlen, felfoghatatlan.
A szemantikus web definícióját a következőképpen is meghatározhatjuk: a szemantikus
web metaadat-alapú infrastruktúra weben történő következtetéshez. Milyen változásokra
van szükség a továbbfejlesztett világháló megvalósításához? Szükség van tehát a szolgálta-
tások karakterizálására, mégpedig nem csupán input és output paraméterek szintjén, hanem
azok szemantikai szintjén is. A szemantikus web ugyanakkor nem cseréli le a mai webet,
nem mellőzi a World Wide Web képességeit, hanem továbbfejleszti azokat. Az imént
lerírtakon túlmenően szükségünk van olyan forrásra, amely saját magáról ad információt.
Ezt hívjuk metaadatnak. Az ágensnek, pedig következtetéseket kell levonnia erről a
metaadatról, ami tulajdonképpenö számára adat. Ehhez metaadat-szókészletet kell defini-
álni. A metaadatot gép által értelmezhető formában kell leírni, amihez a következők szük-
ségesek:
1. egyértelmű forráselnevezés (URI – Universal Resource Identifier),
2. közös adatmodell a metaadat kifejezéséhez (RDF – Resource Description Frame-
work),
3. ontológiák: szókészlet, köztük lévő kapcsolatok, szókészleten végezhető művele-
tek, axiómák, következtetési szabályok,
4. módszer a metaadat weben történő eléréséhez.
Leegyszerűsítve a fenti összetevőkből áll a szemantikus web, ezeket az összetevőket
fejtjük ki részletesebben a következőkben.
Az olvasóban felmerülhet a kérdés, hogy a leírtak csupán elméleti fejtegetések vagy lé-
teznek már a valós, a szemantikus webre épülő technológiák? A szemantikus web internet-
re történő teljes implementációja még valóban csak a jövőben valósulhat meg, ugyanakkor
a szemantikus web építőelemeit kisebb tartományokra és prototípusokra már telepítik.
Az elmúlt tíz évben láthattuk, hogy az általános paradigma az egyedi, ún. cilinder rend-
szerektől a nyílt szabványokra tolódott át. A W3C, az IETF (International Engmeering
Task Force), az OASIS (Organization for the Advancement of Structured Information
Standards) szabvány felügyeleti szervezetek együttműködése széles körben támogatott úgy
a világcégek, mint az akadémiai intézetek részéről.
A szemantikus web fejlesztések első jelentős fázisa, az alapinfrastruktúra kialakulása
2005-re befejeződött. Az implementáció szakasz jelenti a második fázist, így a felhaszná-
lók számára szükséges szoftverek, az információs rendszerek fejlesztése, könyvtárak és
digitális tárak építése stb. folyik. A második fázis a szemantikus web és más technológiák
hatékony kölcsönhatásának időszaka is egyben, ami leginkább a szemantikus webszol-
gáltatások, szemantikus webbányászat és hitelesítés témaköröket ölelei fel.
Az XML támogatása maga után vonta az XML-alapú technológiák támogatását, így
olyan SOAP-alapú webszolgáltatásokat, melyek egymással együttműködni tudó interfé-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
111
szeket adnak az alkalmazásokhoz az interneten keresztül. Az XML (Extensible Markup
Language) egy metanyelv más XML-alapú jelölőnyelvek létrehozására. Az RDF az infor-
mációk összekapcsolásának mikéntjét nyújtja, melyről később részletesen szólunk. Miköz-
ben az XML-t, mint általános szintaktikát alkalmazzuk, addig az RDF a szemantikus web
minden egyéb ontológiaalapú nyelvének alapját képezi.
A tématérképek, így az XML Tématérképek (XML Topic Maps) egy másfajta megol-
dást szolgáltatnak az információk taxonómiáinak adatosztályozásba való átvitelére. A
W3C irányvonala szerint a tématérképek és az RDF együttműködése mindenképpen elő-
nyére válna a szemantikus webnek.
A webszolgáltatások egy olyan megoldást adnak a szoftverekhez, mely segítségével
azok egymással kommunikálni képesek. Az ontológiai nyelvek (pl. az OWL, mely W3C
ajánlás) készen állnak arra, hogy kiemelt figyelmet kapjanak, több cég alkalmazza már
ezeket arra, hogy egyesített tudásbázisaihoz szemantikákat adjon.
A webszolgáltatások esetében a következő lépés a szemantikát engedélyező webszol-
gáltatások elterjedése, ahol a különféle cégek webszolgáltatásaitól jövő információval lehet
egyesíteni, összehangolni a szolgáltatásokat. Az akadémiai kutatási programok (pl. a Stan-
ford Egyetem TAP programja: http://tap.stanford.edu/) hidat képeznek az eltérő web-
szolgáltatás-alapú adatforrások és az összefüggő (de több forrásból táplálkozó) szemanti-
kus web létrehozása között.
10.3.3 A szemantikus web üzleti oldalról
Foglalkozunk most a szemantikus web üzleti oldalával. A cégek döntéshozói tudják,
hogy a legjobb információ birtoklása üzleti előnyt jelent, ugyanakkor ez az előny kizárólag
úgy érhető el, ha ismeri az információ helyét, és annak hatékony felhasználását. Nyilván-
valóan ennek elérése minden vezető célja. A cégek vezetőinek azzal mindenképpen tisztá-
ban kell lenniük, hogy milyen üzleti haszonnal jár a szemantikus web alkalmazása, vagy
fordítva: milyen hátránnyal járhat, ha a cég nem foglalkozik ezzel a kérdéskörrel.
Az online tradicionális tudásmenedzsment-technikáknak manapság meg kell küzdeniük
az információ mennyiségének jelentős bővülésével, a kulcsszavas keresés elégtelenségé-
vel, az információ hitelességének igazolásával, valamint a természetes nyelvfeldolgozó
rendszerek hiányával.
Az informáciözönben útjelző táblaként szerepel majd a szemantikus web által kiépíten-
dő struktúra. Már elégtelen az információk állományokban és adatbázisokban tárolása, oly
módon szükséges címkézni az információinkat, hogy a programok a jelölés alapján képe-
sek legyenek azt feldolgozni, és a felhasználó tudomására hozni, hogy mely információ
megbízható. Az új információban meg kell bíznunk, de össze kell hasonlítani azt a többi
információnkkal. Ehhez egy olyan van szükségünk, amely az új technológia előnyeit képes
kiaknázni, ugyanis a cégek a birtokukban lévő információ jelentős részét sohasem használ-
ják fel.
Az információ megosztása és a kommunikáció minden cégnél fontos, ám ahogy a leg-
több cég egyre nő és egyre több információt gyűjt, ez a feladat egyre nehezebbé válik, és
inkább küzdelemmé alakul át. Amikor a cégek, szervezetek nagyobbakká válnak, a kom-
munikációs rések létrejötte kikerülhetetlen lesz. Egy kis fáradsággal egy egyesített tudás-
bázis minimálisan a projektek leírásainak nyilvántartását tartalmazza, valamint azt, hogy
az egyes cégek miképpen épülnek fel. Képzeljük el, milyen jó lenne, ha az adott cég al-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
112
kalmazottai el tudnák érni a lényeges információkat. A szemantikus web által engedélye-
zett webszolgáltatások lehetővé teszik, hogy olyan nyilvántartásokat tudjunk létrehozni,
amelyben az alkalmazottak képes elérni a munkájukhoz szükséges friss és fontos informá-
ciókat. Nézzünk minderre egy példát! Ha egy építőipari cég üzletkötőjének egy bekötőúttal
kapcsolatos tárgyaláson például azt mondja az ügyfele, hogy üvegbetont szeretnének a cég
új épületének építéséhez használni, akkor az üzletkötő a megfelelő adatok elérésével azon-
nal válaszolhat, hogy az építőipari cége mikor, milyen formában foglalkozott a kérdéssel.
Miután ezt közli, akkor már biztosan felajánlhat egy üzleti tárgyalást az üvegbetonnal kap-
csolatban egy másik időpontban.
Az amerikai, az ázsiai és az európai cégek beruházása jelentős a szemantikus web tech-
nológiáiba. Az Adobe például az RDF köré szervezi szoftverei metaadatait, és web-
ontológiai szintű képességeket használ a dokumentumok menedzseléséhez. A változtatás
értelme: „A PDF állományban lévő információ még akkor is értelmezhető más szoftverek
segítségével, ha az adott szoftver nem tudja azt, hogy egyáltalán mi is egy PDF dokumen-
tum, vagy miként lehet azt megjeleníteni."
10.3.4 Ontológia
A meteadatokat összehasonlító vagy kombináló programnak tudnia kell megállapítani,
hogy két, külön adatbázisban vagy webhelyen tárolt alkalmazott fogalom ugyanazt a dol-
got jelenti vagy csak hasonló alakú szavak. Ez azt jelenti, hogy a programot fel kell készí-
teni az adatbázisok belső jelentéseinek felkutatására.
A probléma megoldását a szemantikus web harmadik alapeleme adja, melyet informá-
ciók gyűjteményének vagy ismertebb néven ontológiáknak hívunk. Gruber 1993-as definí-
ciója alapján: Az ontológia egy formális, explicit leírása egy elosztott koncepciónak. Az
„explicit” azt jelenti, hogy a fogalmak típusai használat alatt állnak, és felhasználásuk
megszorításai egyértelműen, explicit módon definiáltak. Az „elosztott” szó azt fejezi ki,
hogy egy ontológia olyan belső tudást foglal magába, melyet nem szűkítenek le adott
egyének, viszont egy adott csoport elfogad.
Pontosítva a fenti definíciót manapság az ontológiát a következőképpen határozhatjuk
meg:
Az ontológia egy olyan dokumentumot vagy állományt jelent,
mely formálisan definiálja az adott kifejezések közti kapcsolatokat.
A webbel összefüggő legtipikusabb ontológiatípusnak egy taxonómiája vagy osztályo-
zása, valamint egy következtető szabálycsoportja van.
A taxonómia objektumok osztályait és a köztük lévő relációkat
határozza meg.
Példa:
Egy címet például definiálhatunk földrajzi helytípusként, így a városkódokat meghatá-
rozhatjuk úgy, hogy csak a földrajzi helyeket alkalmazzuk. Az osztályok, az alosztályok
és az egyedek közti relációk a web használatának alapvető eszközei.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
113
Képesek vagyunk óriási mennyiségű reláció kifejezésére azáltal, hogy osztályokhoz
rendelünk tulajdonságokat, és lehetővé tesszük az alosztályoknak, hogy örököljék ezeket a
tulajdonságokat.
Példa:
Amennyiben a városkódok egyfajta várostípusok, s ha a városoknak van weboldaluk,
akkor beszélhetünk weboldallal összefüggő városkódról (még abban az esetben is, ha
nincsenek adatbázislinkek közvetlenül a városkód és a weboldal között.)
Az ontológiák következtető szabályai további képességet nyújtanak.
Példa:
Egy adott ontológia kifejezhet például egy ilyen szabályt: „Ha a városkód összefüggés-
ben van a megye kódjával, és a cím használ városkódot, akkor a cím tartalmazza a me-
gye kódját.”
Konrétan egy program ezután könnyedén levezetheti azt, hogy az egri Eszterházy Ká-
roly Főiskolának Heves megyében kell lennie, ami pedig Magyarországon van, és ezál-
tal a címet magyar szabvány szerint kell formázni.
A program nem értelmezi ténylegesen, emberi módon ezeket az információkat, de hatá-
sosan tudja úgy manipulálni a kifejezéseket, hogy azok az emberi felhasználó számára
használhatóak és értelmezhetőek legyenek, azaz megfeleljenek a humán elvárásoknak.
Az ontológiák többféle módon terjesztik ki a web működési hatáskörét. A legkézenfek-
vőbb ezek közül a keresőrendszerek pontosságának fejlesztése, így keresőrendszer nem az
összes, a kulcsszavakat tartalmazó, de a keresett témakörhöz nem vagy lazán tartozó web-
oldalakat, hanem csak a pontos fogalomra hivatkozazott oldalakat szerepeltei a SERP-ben.
Az ontológiaalapú eszközkörnyezet három fő területet fog át:
1. Ontológiák keresése és azok (nagy mennyiségű) adatokkal történő összekapcsolása.
A skálázhatóság céljából ezt a folyamatot automatizálni kell az információkinyerő és a
természetes nyelvfeldolgozó technológiák alapján. A minőség érdekében ehhez a folya-
mathoz szükség van az emberre, aki az ontológiaszerkesztökön keresztül felépíti és kezeli
az ontológiákat.
2. Ontológiák és példányaik tárolása és karbantartása. Az RDF Schema a web informá-
cióforrásain keresztül adatbázis technológiát és egyszerű érvelési formát nyújt.
3. Szemantikailag támogatott információforrások lekérdezése és böngészése. Leírha-
tunk szemantikailag kiegészített kereső motorokat, böngészhetünk és tudásmegosztó támo-
gatást nyújthatunk, mely az adatszemantikát teheti gépi feldolgozásra alkalmassá.
Ágensek
A szemantikus web igazi előnye akkor mutatkozik meg, amikor olyan programokat ké-
szítünk, melyek különféle forrásokból gyűjtik egybe a webtartalmat, feldolgozzák az in-
formációt és kicserélik az eredményeket más programokkal.
Az ágensek jól meghatározható határokkal és interfészekkel rendelkező, egyértelműen
azonosítható problémamegoldó egységek. A szoftver ágensek hatékonysága exponenciáli-
san megnő, amint egyre több gép által olvasható webtartalom és automatikus szolgáltatás
(benne egyre több ágens) válik hozzáférhetővé. A komplex elosztott számítástechnikai
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
114
rendszereket egyre inkább ágensek hálózataként modellezik, és a tervezésükben egyre több
ágenstechnológiai módszert alkalmaznak.
10.3.5 Az RDF ontológia fogalma
A szemantikus web egyik alaptechnológiája az RDF (Resource
Description Framework), ez egy olyan adatmodell, aminek a sze-
mantikája gráfokkal írható le.
Egy RDF-alapú dokumentum olyan állításokat készíthet, melyek bizonyos dolgokról
(emberek, weboldalak stb.) tulajdonságokkal (pl. „lánya valakinek”, „szerzője valaminek”)
és adott értékekkel (egy adott személy, egy adott weboldal) rendelkeznek. Ezzel a szerke-
zettel egy olyan természetes módszer alakítható ki, mely a gépek által feldolgozott adatok
döntő hányadát képes leírni.
RDF által történő jelentéskifejezés ún. hármasok csoportjaiba kódol. Minden egyes
hármas egy elemi mondat alanyát, állítmányát és tárgyát szimbolizálhatja. Az alanyt és a
tárgyat az URI úgy azonosítja, mintha linkek lennének egy weboldalon. (Az URI-k között
az URL-ek (Uniform Resource Locator) a legáltalánosabban használt URI-típusok.) Az
állítmányokat szintén URI-ken keresztül lehet identifikálni, s ezzel lehetővé válik, hogy új
kifejezést, új állítmányt definiáljunk. Megjegyzés: az RDF-et kifejezhetjük XML tagek
alkalmazásával, ez az RDF/XML forma, de N3, N-Triples, Turtle (Terse RDF Triple
Language) stb. formában is, vagyis az XML nem kötelező, hanem egyik lehetséges kifeje-
zőeszköze az RDF-nek (a W3C eddig csak XML formátumot definiált az RDF-hez).
RDF hármasai az egymással összefüggő dolgokról szerzett információk hálózatát for-
málják meg. Mivel az RDF az URI-ket használja fel ezeknek az információknak dokumen-
tumban való azonosítására, ezért az URI-kkel lehetővé válik, hogy a kifejezés nem csupán
egy dokumentum szavait jelentse, hanem olyan egyedi információkhoz is köthető, melye-
ket a weben bárhol megtalálhatunk.
Képzeljük el, hogy személyek információihoz (pl. címeihez) tudunk hozzáférni külön-
féle adatbázisokon keresztül. Amennyiben meg akarunk keresni egy élő embert adott irá-
nyítószám alapján, meg kell tudnunk, hogy az adatbázisokban mely mezők fejezik ki a
neveket és melyek az irányítószámokat. Az RDF ki tudja ezt jelölni nekünk, felhasználva
mindezekhez az URI-ket: például: [4. mező az „DB” adatbázisban] [mezőtípus] [irányító-
szám].
10.3.6 Webszolgáltatások
A webszolgáltatások olyan internetes szoftverszolgáltatások, amelyeket URI-k segítsé-
gével azonosítunk, és melyek webprotokollok segítségével leírhatók, felkutathatók és elér-
hetők. A webszolgáltatások alaptulajdonsága, hogy XML-t alkalmaznak és XML-t nyújta-
nak. A HTML-hez hasonlóan az XML is tageket használ az adat kijelöléséhez, de az adat
megjelenítésével (pl. karakter- és bekezdéskformák) szemben az adat jelentését jelöli ki.
Ebből következik, hogy az XML nem rendelkezik előredefiniált tag készlettel.
Az elsődleges módja a webszolgáltatások szemantikus webhez való illesztésének az,
hogy elősegítjük az XML adoptálhatóságát. A webszolgáltatások felkutatása viszont elég
bonyolult, ezért a szemantikus web technológiáival kell ezt a problémát megoldani.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
115
1. táblázat A szemantikus web, a webszolgáltatások és az intelligens ágensek ösz-
szehasonlítása.
Szemantikus web Webszogáltatások Intelligens ágensek Amit
ígér:
Az érem egyik oldala:
Adatközpontú, adat által
irányított kommunikáció.
Az érem másik oldala:
Aktív eljárások által
megvalósuló, XML-alapú
kommunikáció.
Az érem:
Intelligens ágenseken
keresztül a gépek
kommunikálnak
egymással.
- Kulcsszótól a fogalomig. Az
információ kinyerésétől a
kérdés-válasz érzékelésalapú
megvalósításáig.
- Nyitott szemantikus réteg
harmadik résztvevős ágensek
által értelmezve.
- „Új” rendszerek
konfigurálása meglévő
elosztott rendszerekből.
- Feladatdelegálás (task
delegation).
- Aggregáció és az
elosztott tartatom
koherens kifejezése.
Jelenlegi
korlátok:
- A tartalom metaadattal való
manuális annotációját nehéz
nagy méretekre alkalmazni.
- A rendszer adatcserére képes,
de nem értelmezi azt.
- A kommunikáció alacsony,
szintaktikai szinten áll.
- Az embereknek kell
elvégezni a konfigurációt.
- Teljesen tiszta
definiálás szükséges.
- A felhasználó profilok –
üzleti szemszögből –
még elég szegényesek.
Ami
kihívást
jelent:
- A metaadatok automatikus
annotációja, ontológiával.
- Biztonság és hitelesítés.
- A webszolgáltatások
automatikus felkutatása és
hangolása üzleti
szolgáltatásokba.
- A szemantikus web
tartalmának kiaknázása.
A fejlett webszolgáltatást használó alkalmazásoknak az összehasonlítás, az összeállítás
és az összehangolás automatizált összekapcsolásához mindenképpen szükségük lesz a
szemantikus web technológiáira.
Másrészről a webszolgáltatások lehetővé tesznek elosztott szemantikus webalkalma-
zásokat (pl. Inference Server: adott egy ontológia és egy kérdés, amely az ontológiára is
hivatkozik, válaszold meg a kérdést).
A webszolgáltatások szemantikus webbe ágyazásának egy másik lehetősége a web-
szolgáltatások más webszolgáltatásokkal történő kapcsolatba lépésének megvalósítása.
10.3.7 Tématérképek és RDF
A tématérképek (topic maps) és az RDF leírják a webobjektumok tartalmát, a forrás
(resource) vagy téma (topic) kifejezésével. Mindkét kezdeményezés azért született, hogy
metaadatot hozzon létre webobjektumokból, és hogy ezeket az objektumokat, valamint
tartalmukat könnyen elérhetővé tegye.
A tématérképeknél a téma a webobjektum. A webobjektum rendelkezik előfordulással.
A téma tárgyát a téma egy adott előfordulása fejezi ki, mely lehet címezhető is. A címezhe-
tő tárgy a webobjektum, a nem címezhető nem webobjektum. A témák asszociációkon
(tárgyak közti összefüggéseken) keresztül kapcsolódnak egymáshoz, s egy asszociáción
belül található minden téma megadott szerepet játszik.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
116
Az RDF-et a metaadatok leírására és a webobjektumokhoz kapcsolódására tervezték, a
tématérképeket a dokumentumok összetett tartalomalapú indexelésére fejlesztették. Az
eltéréseket nem feledve megállapítható, hogy a tématérképek és az RDF egymást kiegészí-
tő paradigmák. Amennyiben az indexelés (vagy más néven a témastruktúra lefedése) kife-
jezi a tárgyak összekapcsolódását, akkor az RDF az olyan állítások csoportját fejezheti ki,
melyek az említett tárgyak értelmét próbálják képezni. A tématérképek és az RDF egymás
erősségeinek és céljainak kölcsönös és egyidejű kiegészítőiként kell, hogy létezzenek.
Megjegyzés: a W3C-n belül létrejött egy aktív munkacsoport, amely a két paradigma for-
mális kapcsolatát hivatott leírni.
10.3.8 Az RDF ontológia
„M. C. Daconta, a Java World nevű jeles amerikai magazin kolumnistája az RDF elter-
jedését a kínai bambuszfa növekedéséhez hasonlítja. A kínai bambuszfát négy évig kell
úgy művelni és kezelni, hogy bármifélejelét is látnánk a növekedésének, majd az ötödik év
első három hónapjában 30 métert nő. Nos, az RDF esetében már túl vagyunk az alapos
kezdeti művelésen, eljött az idő, hogy egyre elterjedtebb és népszerűbb legyen.” (Gottdank
Tibor, 31. oldal)
Az adatokhoz kapcsolódó olyan jelentés szolgáltatása volt az RDF kifejlesztésének a
célja. A szolgáltatás egyik kiemelt eleme, hogy mindezt a programok által értelmezhető
formátumban végezze, így egyre hatékonyabban biztosítva az adatcserét, a keresést, a kata-
logizálást, a navigálást, az osztályozást stb. Az RDF egyértelműen W3C Szemantikus web
irányvonalának tagjainak alapelemeként aposztrofálható. Az RDF egy jól-definiált sza-
bályhalmazon alapul, mely ezen adatmodell formázását, érvényesítését és használatát is
vezérelni képes.
Az RDF bemutatása két alapdokumentuma alapján történik. Az első az RDF fogalmak
és absztrakt szintaktika (RDF Concepts and Abstract Syntax), míg a második az RDF sze-
mantika (RDF Semantics). A dokumentum webes elérhetőségét az alábbiakban közüljük.
Az RDF Concepts and Abstract Syntax a http://www.w3.org/TR/2004/REC-rdf-concepts-
2004021O/ oldalon érhető el. Az RDF Semantics URL címe:
http://www.w3.org/TR/2004/REC-rdf~mt~2004021O/
Az RDF általánosan egy, az erőforrások leírására szolgáló adatmodell. Erőforrás alatt a
weben elérhető állományt értünk, amely URI-n keresztül érhető el. Ez utóbbi teszi lehetővé
a gráf formájú ábrázolást, ami az erőforrásokhoz kapcsolódó állításokat jelent az RDF-ben.
Ebben a gráfban a csomópontok és az élek testesítik meg az erőforrásokat, az erőforrások
tulajdonságait, valamint a talajdosnágok konkrét értékeit. A gráf szintaktika leírható az
alany és a tárgy csomópontjai közötti éllel, ahol az él jelenti a tulajdonságot. Az RDF
adatmodell az alany, állítmány, tárgy hármasból áll. A két csomópont a gráfban a forrás és
az érték, melyet a tulajdonság mint él kapcsol össze. Az előbbi hármast állításként leírva: a
forrás csomópont jelenti az alanyt, az állítmány a tulajdonság, míg az érték csomópont a
tárgy.
Az RDF kifejlesztésének fő célja az erőforrásokhoz kapcsolódó metaadatok ábrázolása.
Metaadat lehet az elektronikus dokuementum publikálós szervezete, a címe, a szerzője, az
utolsó módosítás időpontja, a szerzői jogi- és licenszinformációi, sőt akár a közös erőfor-
rások hozzáférhetőségi időrendje.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
117
Az erőforrás kifejezés tágabb értelmezése révén az RDF képes közvetlenül el nem érhe-
tő információ ábrázolására is, ha az a weben azonosítható formában található meg. Ilyen
információ lehet például az elektronikus kereskedelemben forgalmazott áruk specifikáció-
ja, ára és hozzáférhetősége, vagy ilyen információ lehet egy webfelhasználó információto-
vábbítási preferenciáinak a leírása.
Az RDF-et olyan esetekre tervezték, amelyekben az információkat nem (csak) emberek
számára kell megjeleníteni, hanem számítógépprogramok segítségével (is) fel kell dolgoz-
ni. Az RDF olyan egységes keretet biztosít az ilyen adatok kifejezésére, amelyben azok
információveszteség nélkül átvihetők egyik alkalmazásból a másikba. Mivel ez a keret
általános, az alkalmazások fejlesztői kihasználhatják a közös RDF szintaxiselemző és fel-
dolgozó eszközök előnyeit. A különböző alkalmazások közötti információ csere lehetősé-
ge, pedig azt jelenti, hogy nemcsak azok az alkalmazások használhatják az információt
amelyek számára azt eredetileg ábrázolták, hanem a más célokra készült, későbbi alkalma-
zások is hasznosíthatják.
10.3.9 Az RDFS ontológia
Az RDF ugyan megteremti a lehetőséget az erőforrásokról szóló kijelentések megfo-
galmazására, névvel rendelkező tulajdonságok és értékeik segítségével. Ugyanakkor előre
definiálható szókészletekre (szakkifejezéseinket) is szükség van. Az említett szókészleteket
szeretnénk majd a kijelentésekben használni. Erre azért van szükség, mert az RDF forráso-
kat olyan csoportokra szeretnénk osztani, a melyek maguk is források. Mivel források, így
az azonosításuk URI-vel történik, és RDF tulajdonsággal írhatók le.
Meg kell határozni tehát az általunk később leírni kívánt erőforrások specifikus csoport-
jainak, azaz osztályainak definícióit, valamint azokat a specifikus tulajdonságokat, ame-
lyekkel majd ezeknek az osztályoknak az egyedeit kívánjuk jellemezni.
Példák:
a) Azok az emberek, akik bibliográfiai erőforrások leírásában érdekeltek, nyilván sze-
retnének definiálni olyan osztályokat, mint „Könyv” vagy „Folyóiratcikk” és olyan tu-
lajdonságokat, mint „szerző”, „cím” és „téma”, amelyekkel később a könyveket és a fo-
lyóiratcikkeket leírhatják.
b) egyes cégek szeretnének definiálni olyan osztályokat mint „Személy” és „Cég”, va-
lamint olyan tulajdonságokat, mint „életkor”, „beosztás”, „részvény-jel” és „az alkal-
mazottak száma”.
A példában is említett alkalmazásfüggő osztályok és tulajdonságok definiálásához az
RDF nem elégséges, nem találunk benne ehhez eszközöket. Az ilyen osztályokat és tulaj-
donságokat, egy RDF szókészlet elemeiként, csak az RDF nyelv kiterjesztésének, az RDF
Szókészlet Leíró Nyelvnek (RDF Vocabulary Description Language) a segítségével defini-
álhatjuk, amelyet röviden RDF Schema-nak (a továbbiakban RDFS-nek) nevezünk.
Az RDFS a szabványos RDF források és tulajdonságok egy egy-
szerű halmaza, mellyel saját RDF szókincset hozhatunk létre. Az
RDFS-hez tartozó adatmodellel adatosztályokat tudunk létrehozni.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
118
Példa:
Nézzünk a definícióhoz egy infromatikai alapokon nyugvó analógiát. A relációs adat-
bázisséma objektumai, szabványai és előírásai jelentik azokat a metaadatokat, melyeket
a táblák, oszlopok elnevezésű metaadatok definiálásához és leírásához használnak. Ez
utóbbi metaadatokat pedig doménspecifikus adatok leírásához és kezeléséhez alkalmaz-
zák. Az RDFS tulajdonképpen ugyanazt a funkciót tölti be, mint a relációs adatbázis-
séma. A relációs adatmodell alaptulajdonsága, hogy az adat logikailag és nem fizikailag
jelenik meg. Az adat saját tartalmában van jelen és nem fizikai tárolási módjában. Az
RDFS azokat a forrásokat adja meg, melyek egy doménspecifikus séma objektumainak
és jellemzőinek leírásához szükségesek. Ez a doménspecifikus séma egy olyan szókész-
let, melyet adott terület, érdeklődési kör objektumainak, azok attribútumainak és kap-
csolatainak leírására használnak. (Gottdank, 47. oldal)
Van azonban egy lényeges különbség az objektumorientált típusrendszerek és az RDFS
elvi megközelítése között: az RDFS az osztályokat rendeli hozzá a tulajdonságokhoz és
nem a tulajdonságokat az osztályokhoz. Ennek az a következménye, hogy szabadon növel-
hető marad az egy osztályhoz tartozó tulajdonságok sora. Az RDFS teszi tulajdonképpen
lehetővé, hogy az általunk használt mondatokhoz jelentést társítsunk, mivel a program
ezen segítség nélkül nem tudná értelmezni azokat. Az RDFS a következőket formalizálja
az RDF-ben:
− tipizálás (typing): egy egyed adott osztályhoz tartozik, pl: A Skoda egy autómárka,
− alosztályozás (subclassing): valaminek egy példánya egyben egy másiknak is pél-
dánya, pl. Minden kígyó hüllő.).
10.3.10 OWL (Web Ontology Language)
Az RDFS sem képes azonban leküzdeni az összes problémát. A következtetések levo-
nása sem bizható csak a számítógépes programokra, ha ehhez nem rögzítjük a következte-
tésekhez szükséges összefüggéseket.
Példa:
Ha Egerszalók balra van Egertől a térképen, és Eger balra van Noszvajtól, akkor Eger-
szalók balra van Noszvajtól?
Számunkra magától értetődik a válasz, egyértelműen igen, de ezt a programok már nem
képesek megválaszolni a számukra leírt szabály nélkül. A programok nem képesek a kö-
vetkeztetések levonására, az állítást mint adatot csak egy másik adattal képesek összeha-
sonlítani, majd a választ ezután közlik. A kifejezéscsoport meghatározásánál is hasonló
történik, csak mi emberek az adott nyelvhez és szakmához kapcsoltan vagyunk képesek
meghatározni azokat.
Az osztályok megalkotása során azonosítót, vagyis nevet rendelünk az osztályokhoz. A
névadáson túl a tulajdonságok hatókörének szűkítésére is szükség van egy specifikus osz-
tálynál. A szemantikus web ehhez veszi igénybe az ontológiákat, így jön létre a fogalmak
és a kapcsolatok meghatározása, amelyeket tudás leírásához és kifejezéséhez használunk.
Az ontológiák tárgyalásához a taxonómia jelentése is szükséges. Az életünk elképzelhe-
tetlen taxonómiák nélkül, nem tudnánk létezni nélkülük. A taxonómia a bennünket körül-
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
119
vevő tárgyak, fogalmak, élőlények csoportba foglalásának az egyik lehetséges útja. A ta-
xonómia esetén az osztályozás hierarchikusan történik, amit a háttértárolókon tárolt állo-
mányok mappákban történő elhelyezésénél, vagy a nemzetközi könyvtári osztályozórend-
szernél, az Egyetemes Tizedes Osztályozásnál (ETO) már megismerhetett az olvasó. A
fastruktúra képes a legszemléletesebben ábrázolni ezt a hierarchiát. A fastruktúra is egy
speciális gráf, amelynek az elágazási pontjai a csomópontok, míg a csomópontokat össze-
kötő vonalak az élek.
Taxonómia: az információs entitások osztályozása hierarchikus
formában, megfelelve a valós világ azon entitásai között feltételezett
viszonynak, melyeket kifejez.
A taxonómia kedvelt ábrázolása, amikor az összes csomópontba vezető éleket össze-
gyűjtő csomopont, az ún. gyökérelem a gráf képenek a tetején, csúcsként szerepel. A hát-
tértárakon ezt a szerepet a főkönyvtár tölti be. A taxonómia minden csomópontja olyan
információs entitásnak minősül, mely a valós világ valamely entitását jelképezi. A csomó-
pontok közti linkek speciális viszonyt, a reláció alosztályozását (amikor a link szülő cso-
mópontra mutat) vagy szuperosztályozását (amikor a link gyermek csomópontra mutat)
jelentik. Objektumorientált környezetben az osztály az általános entitás (Gottdank, 76.
oldal).
Példa:
Ahogyan egyre feljebb haladunk a gyökér felé, az entitások egyre általánosabbá válnak
(pl. az Adózó általánosabb, mint a), ha pedig lefelé haladunk a gyökértől, az entitások
specializáltabbak lesznek (pl. a Könyvtáros specializáltabb, konkrétabb, mint a Sze-
mély).
Az említett osztályozási rendszereket általánosításnak, specializálásnak is nevezik. A
taxonómia szempontjából a legfontosabb tanulság a példa alapján az, hogy mindenhol,
minden alosztálynál találunk egy kitüntetett tulajdonságot, továbbá az, hogy a specializált-
ság növekszik, ahogy a taxonómián belül egyre lejjebb és lejjebb megyünk.
A taxonómiák az információs entitások osztályozására alkalmasak. Kifejezik azt a mi-
nimális mértékű szemantikát, mely az objektumok közti megkülönböztetéshez szükséges
az információs térben.
A taxonómiák módszert adnak tartalmi metaadataink strukturálásához és karakterizálá-
sához. Mivel a taxonómiák fák, ezért időnként redundáns információkat is találunk ben-
nük. Hiszen minden egyes gyermek csomóponthoz csak egyetlen szülő csomópont tarto-
zik, így néha eltérő szülőknél duplikálódhat a gyermek csomópont.
Példa:
Ha Vezető és Alkalmazott nevű alosztályaink vannak, amelyek a Személy alatt találha-
tók, akkor bármely vezető elhelyezkedhet mindkét csomópontnál, hiszen azok alkalma-
zottak és vezetők is lehetnek – vagyis duplikáció következik be.
Tehát a taxonómia strukturáltságától függ a redundancia. Az alosztályok taxonómikus
rendje jelenti az ontológiák csontvázát, ám az ontológiák ehhez hozzáteszik még az izmo-
kat és a belső szerveket – kapcsolatok és tulajdonságok formájában. A taxonómiák az alap-
szerkezetet nyújtják, az ontológiák pedig a hiányzó többi részt (Gottdank, 77. oldal).
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
120
A taxonómia megismerése után következzen az ontológia bemutatása.
Az ontológia megegyezésen alapuló fogalmi rendszer formális,
egyértelmű leírása (Thomas Gruber, 1993).
Részletesen vizsgáljuk meg a definícióban rögzített részeket:
− megegyezésen alapul: az ontológiák a taxonómiákhoz hasonlóan szemantikai sza-
bályrendszerek, melyek dolgok rendezésére használhatók,
− fogalmi rendszer: osztály-alosztály szerkezetű, melynek fő jellemzője az öröklő-
dés,
− formális leírás: axiómák és meghatározások biztosítják a megkülönböztető tulaj-
donságok öröklődését.
Egy ontológia egész pontosan a következőkből áll (Gottdank, 78. oldal):
− Osztályok (általános dolgok)
− Példányok (adott dolgok)
− Osztályok és példányok közti kapcsolatok
− Osztályok és példányok tulajdonságai (és tulajdonságértékei)
− Osztályok és példányok függvényei és eljárásai
− Osztályok és példányok megkötései és szabályai
Ontológiákat használhatnak emberek, adatbázisok és olyan alkalmazások, melyeknek
doméninformációk megosztására van szükségük. Itt a domén vagy értelmezési tartomány
egy specifikus tárgyterület vagy tudásterület, mint pl. szociológia, integrált könyvtári rend-
szerek, villanyszerelés, a Bükk-hegység geológiája stb. Az ontológiák tehát az értelmezési
tartomány alapvető fogalmainak számítógép által használható definícióit és a köztük lévő
kapcsolatokat tartalmazzák.
Szükségünk van még ontológia nyelvre is ahhoz, hogy definiálni lehessen
− még több mindent a terminológiában az adott kontextuson belül,
− még több megszorítást a tulajdonságokon,
− a tulajdonságok logikai karakterisztikáját,
− a kifejezések azonosságát több ontológián keresztül (Gottdank, 78. oldal).
E nyelvnek egyensúlyra kell jutnia az értelmes alkalmazásokhoz tartozó gazdag sze-
mantikák között, valamint a megvalósíthatósági kérdések között. A fő technológiai irány-
vonal az RDFS-ből ered, képességeinek kiterjeszthetőségére koncentrálva.
Számtalan projekt indult (40. ábra), köztük a SHOE projekt, mely egy korai kísérlet
volt arra, hogy szemantikát adjunk a HTML-hez, vagy az amerikai DARPA, amely a
DAML-ONT nyelvet produkálta, vagy egy EU projekt az OIL nyelv kifejlesztésével, és
egy negyedik, amely az utóbbi két nyelv összefésülésére tett kísérletet (DAML+OIL). Az
ontológianyelvek piramisát a láthatjuk. Ezen kívül több koordináció történt az alap RDF
fejlesztések között is. (Gottdank, 79. oldal)
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
121
34_K40.jpg
40. kép A webalapú nyelvek és az ontológianyelvek „piramisa"
Az OWL egyébként a Web Ontology Language (webes ontológianyelv) kifejezés kez-
dőbetűiből adódik, de a jelentés miatt nem az eredti sorrenben. Ha ugyanis felcseréljük a
kezdőbetűket, akkor az angol owl, azaz magyarul bagoly szót kapjuk.
A DAML+OIL-ból kifejlődött OWL a jelenlegi ontológianyelvek közül a leginkább il-
lik a szemantikus web elképzelésbe. Az OWL célja túlmutat az információ számunkra
történő bemutatásán, a fő cél az információ tartalmának programokkal történő feldolgozá-
sa. Az OWL nyelv nagyobb mértékben segíti a webtartalom automatizált értelmezését,
mint az RDF és az RDFS, mert bővített szókészletet, illetve formális szemantikát kínál.
Az OWL nyelv a W3C támogatását élvezi. A W3C Webontológia Munkacsoport 2001
novemberében jött létre, az OWL első verziója 2003 elején jelent meg, 2003 augusztusá-
ban szabványnak jelölték, és 2004 februárjára már teljes értékű szabvánnyá is vált. A té-
makörhöz két honlap is kapcsolódik:
http://www.w3.org/2001/sw/WebOnt
http://www.w3. org/2004/OWL/).
Végezetül ismerkedjünk meg az OWL konkrét létezésének alapjaival. A már megismert
RDFS-ben képesek vagyunk a létező osztályok alosztályait képezni, de tovább nem tudunk
lépni. Az OWL alkalmas ugyanis a már létező osztályok alapján új osztályokat készítsünk,
ehhez meg kell határozni a tartalmát. A tartalom meghatározása a halmazelméletből ismert
metszet, unió, komplemens képzéssel, a tulajdonság szűkítésével történhet. Az OWL-ben
ehhez saját osztályok és egy Thing (Dolog) osztályt vezettek be, így képes megkülönböz-
tetni az egyedeket az osztálytól (41. kép).
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
122
34_K41.jpg
41. kép RDFS és OWL osztálykapcsolat
Az imént említettük, hogy az osztályok felsorolása az OWL-ben egyszerűbb, mint az
RDFS-ben. Ha egy tulajdonság lehetséges értékeit rögzíteni szeretnénk az RDFS-ben, ak-
kor egy viszonylag bonyolult XML Schema leszármaztatott típust kell definiálnunk (pl.
egy autóTipus típust), és erre kell hivatkoznunk. Vagyis az RDF világából kell kilépnünk,
ami sok nehézséggel jár.
Ehhez nyújt egy, egyszerűbb megoldást az OWL az „owl: oneOf” bevezetésével. Ezzel
az osztályok felsorolhatók lesznek. A 42. ábrán egy olyan megtekinthetünk egy példát, itt a
lehetséges tartalom explicit módon (egyértelműen) listázott. A gráf alatt annak az XML-
ben történő megvalósítása is látható
42. kép Példa az OWL-ben az „owl:oneOf”szerepére és annak
megvalósítása XML-ben
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
123
A következő példa az uniót mutatja be gráf és XML formában. Ehhez az OWL-ben az
„owl:unionOf” alkalmazása szükséges (43. ábra). Hasonlóan képezhető az OWL-ben a
komplemens (owl:complementOf) és a metszet (owl:intersectionOf) is.
43. kép Példa az OWL-ben az „owl:unionOf” szerepére és annak
megvalósítása XML-ben
10.4 ÖSSZEFOGLALÁS
A szemantikus web az internet egy lehetséges jövője, mely a jelenlegi webet olyan
többlet információkkal egészíti ki, hogy a leírtakat ne csak egy személy, de a számítógép is
megérthesse. Egy egységes leíró nyelv segítségével az alkalmazások emberi beavatkozás
nélkül képesek kommunikálni, információt megosztani. Teljesen automatikusan működő
programok nyújtanak segítséget vagy szolgáltatást, így a weboldalak tematikus leírását
kihasználó keresők sokkal hatékonyabban működhetnek.
10.5 ÖNELLENŐRZŐ KÉRDÉSEK
1. Hasonlítsa össze az RDF és az RDFS ontológiákat!
2. Mi véleménye a szemantikus web elterjedéséről?
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
124
11. INTELLIGENS RENDSZEREK
11.1 CÉLKITŰZÉS
Az adatbányászat mögöti fogalmak megértése. Az adatbányászat folyamatának, céljának,
csoportosításának megtanulása. A leckében cél a tájékozódás, de nem cél még a gyakorlat
tevékenység kipróbálás sem, ahhoz sokkal komolyabb alapozó ismeretre lenne szükség.
11.2 TARTALOM
Üzleti intelligencia
Üzleti intelligencia az információellátás folyamatában
Az üzleti intelligencia és a könyvtár
Az üzleti intelligencia jövője
Adatbányászat
Az adatbányászat irányzatai
Iteratív folyamat
Webbányászat
Szövegbányászat
11.3 A TANANYAG KIFEJTÉSE
Intelligens rendszerek bemutatása. Az üzleti intelligenciából vett eszközök, mint az
adatbányászat (webbányászat) stb. vázlatos szerepének kifejtése. A jövő könyvtári tevé-
kenységeinek bemutatása az információforrás szemszögéből, mint pl. a szövegbányászat.
Az eszközöket kifejezetten az információ-szolgáltató oldala felől közelítjük meg, azok
működését, matematikai hátterét itt nem tárgyaljuk. A profitorientált szféra tőkeerős cégei-
nek menedzsmentje számára elérhető információk kinyerése a jövőben majd a könyvtár
eszközei között is szerepel.
11.3.1 Üzleti intelligencia
A fogalom pár éves múltra tekinthet vissza, ezért a megalkotásánál fontos, hogy milyen
szemszögből vizsgáljuk. Egy tanulmányban az üzleti oldalról megközelített meghatározása
szerepel (Krauth:2008):
Az üzleti intelligencia olyan technológiák és alkalmazások ösz-
szessége, amelyek adatok gyűjtésével, hozzáférhetőségével és elem-
zésével foglalkoznak egy vállalatban, hogy vezetői jobb üzleti dön-
téseket hozhassanak.
A fogalom megközelíthető az informatika oldaláról (Mozsik:2008): „Az üzleti intelli-
gencia (Business Intelligence, BI) gyűjtőfogalom, ami számos, az elemzéssel kapcsolatos
területet magában foglal, mint a vállalati adatvagyon összegyűjtését szolgáló adattárházak,
a lekérdezések és a jelentések készítésére szolgáló szoftvererek, a multidimenzionális ada-
tok nagy sebességű kezelésére szolgáló OLAP-eszközök vagy a rejtett összefüggések feltá-
rására és előrejelzésekre matematikai-statisztikai módszereket alkalmazó adatbányászati
megoldások.”
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
125
11.3.2 Üzleti intelligencia az információellátás folyamatában
A hazai vállalatok működésében az informatika hálózatra épülő struktúrája, és az in-
formatika alkalmazási rendszerei egyre fontosabb szerepet töltenek be. Több évtizede az
operatív szintű termelő-szolgáló folyamatok meghatározó elemét képezi, később egyre
jobban teret nyert a stratégiai szintű irányítási-döntési folyamatokban is. A vállalatok tipi-
kus, a vállalati információelőállítás szemszögéből adatelőállító szerepű alkalmazási rend-
szerei jól ismertek: ERP, CRM, SCM és egyéb alkalmazások. Az ERP (Enterprise
Resource Planning) az operatív vállatirányítási rednszert, a CRM (Customer (Relationship
Management) az ügyfélkapcsolati rendszert, az SCM (Supply Chain Management) a be-
szállítói lánc rendszerét jelenti. Ezek és az egyéb alkalmazások azonban az operatív folya-
matokat támogatják, azaz a cég szervezeti hierarchiájának alsó és középső szintjén dolgo-
zók napi tevékenységeihez kapcsolódnak.
A vállalati stratégiai döntések a felső vezetőkre, esetenként a középvezetők felső szint-
jére hárulnak, ezen döntések hatása befolyásolja és meghatározza a cég jövőjét, gazdasági
pozícióját, eredményeit, ezekhez a tevékenységekhez másfajta támogató rendszerek szük-
ségesek, amit összefoglaló néven üzleti intelligencia rendszereknek (BI) neveznek.
44. kép Az üzleti intelligencia szerepe a vállalati információellátásban
A vállalati információellátásban az üzleti intelligencia szerepe az információelőállító
rendszerek után jelenik meg, melynek alkalmazása napjainkban csak a profitorientált, je-
lentős tőkeerővel bíró szervezeteknél mindennapos. Az információellátás ciklusának a
rendszerezés, elemzés és hasznosítás szakasza kapcsolódik az üzleti intelligenciához. A
rendszerezés szakasza ma a vállaltoknál leginkább az operatív adatok összegyűjtését, majd
azok jól strukturált adattárakba, adattárházakba történő elhelyezését jelenti, és az adatok
konzisztenciáját egy, az adott eszközre specializált megoldással biztosítják. Kisebb vállala-
tok még adattárházat sem fejlesztenek ki. Az adattárház az általános adattártól leginkább
abban különbözik, hogy az adatok idősorait is tárolja, nem csak az aktuális értéket.
Az adatelemzés az adatok megjelenítését vagy a vállalati adatok eseti vagy feltáró jelle-
gű stratégiai szintű elemzéséig terjed, melyhez adatbányászati technikákat használnak a
cégek. A kisebb válallatoknál az adatelemzés leginkább a pénzügyi adatok jelentéskészítő
vagy táblázatkezelő alkalmazással történő összesítését jelenti. A hasznosítás szakasza a
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
126
vállalat teljesítményalapú irányításából (CPM), a döntéstámogatásból (DSS), és az üzleti
folyamatok felügyeletéből áll.
Az üzleti intelligencia az informatikai tevékenységek szemszögéből a fentiek alapján a
vállalati adatgyűjtő-, tároló-, elemző eljárások és alkalmazások együttese, ide tartoznak
többek között a vállalati információs rendszerek, döntéstámogató rendszerek, vezetői in-
formációs rendszerek, adatbányászat, adatmegjelenítés, geográfiai információs rendszerek
stb.
11.3.3 Az üzleti intelligencia és a könyvtár
Az üzleti intelligencia alkalmazása a könyvtárban, – mivel nonprofit szervezet – szinte
példa nélküli, leginkább az operatív munkát támogató integrált rendszerek egyes moduljait
alkalmazzák, de ehhez más, az intézmény tevékenységében jelentős rendszerek (pl. a kata-
lógus rendszer, a kölcsönzési rendszer stb.) nem integrálódtak, és ez a folyamat középtá-
von nem is várható. A könyvtárban ezért ilyen irányú rendszerezést és elemzést legfeljebb
néhány kutató végezhet, de nem minden esetben hasznosítja az eredményeket a könyvtár
vezetése.
Az Európai Unió ugyanakkor elvárja az összemérhetőséget, a fejlődést, így 2010-től a
Európai Tudásalapú Térség létrehozása a cél, melynek két fő pillére az Európai Kutatási
Innovációs Térség és az Európai Oktatási térség létrehozása. A fejlődés sok más terület
mellett elképzelhetetlen a felhalmozott, és a folyamatosan gyűjtött adatok hasznosítása
nélkül.
11.3.4 Az üzleti intelligencia jövője
Az üzleti intelligencia alkalmazása az eddigi elsődleges használók, a specializált szak-
értők kezéből fokozatosan kikerül, és a BI a vállalatok teljes információgazdálkodási tevé-
kenységének egésze lesz. A vállalatirányítási döntések várhatóan nem különülnek majd el
az előkészítéshez használt üzleti intelligenciától.
A BI nem marad meg a nagyvállalati keretek között, hanem a kisebb vállalkozások,
költségvetési és közigazgatási szervezetek használják majd integráló, rendszerező,
döntéselőkészítő funkcióit. Keresés oldalról a szövegbányászat egyre hangsúlyosabb sze-
repet kap, és az alkalmazott adatbányászati tevékenységeken belül megnő a szerepe, de a
két lehetőség integrációja is elképzelhető.
A mesterséges intelligencia elmozdulást mutat az emberközpontúság felé, ami nagyobb
felhasználói beavatkozás mellett együttműködést és rugalmasságot tesz lehetővé, az
együttműködés alapja az interaktivitás. Az adatokat kisebb szervezetek, így könyvtárak is
képesek lesznek saját igényeik szerint feldolgozni, a problémákra önmaguk adhatják meg a
választ, mellőzve ezzel az adott szervezetre előre konfigurált, tehát költséges rendszereket.
11.3.5 Adatbányászat
Az adatbányászat az üzleti intelligencia része, azon belül a vezetés döntéstámogató esz-
köze. Az adatbányászat (data mining) jelentősége az 1990-es években nőtt meg. Az adat-
bányászat egy folyamat, amelynek során intelligens műveleteket, műveletsort hajtunk vég-
re az adatminták kiemelése érdekében, vagyis az érdeklődésre számot tartó tudás nagy
mennyiségű adatból történő feltárása.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
127
Az adatbányászat egy olyan iteratív folyamat, amelynek célja –
intelligens műveletek, műveletsorok végrehajtása során – a kezdeti,
sokszor struktúrálatlan adathalmazból adatminták kiemelése, azaz
a menedzsment döntéseit támogató tudás nagy mennyiségű adatból
történő feltárása.
Az intelligens műveletek különféle statisztikai alapú elemző technikákat jelentenek, pl.
neurális hálózat, faktoranalízis stb. Az adatbányászat a statisztika elemeit használja ugyan,
de messze túlmutat azon, egy igen mélyreható matematikai és informatikai alapot igényel.
A folyamat végén egy új tudáshoz juthatunk, ami az eddigi adatbázis-technológián alapuló
eszközökkel felfedezhetetlen.
A folyamat bemeneti adatai tárolhatók adatbázisokban, adattárházakban vagy más in-
formációtárakban. A folyamat végén egy új tudáshoz juthatunk, ami az eddigi adatbázis-
technológián alapuló eszközökkel felfedezhetetlen.
45. kép Tipikus adatbányászati-rendszer architektúrája
Jelenleg két piacvezető adatbányász programcsomag létezik. Az IBM-SPSS cég Modeler
nevű programja és a SAS Enterprise cég Miner elnevzésű programja. A termékek jelenlegi
árfekvése nem teszi elérhetővé a kis- és középvállakozások (kkv) számára. Tudomásunk
szerint a Modeler rendszert már használják a következő hazai vállalatok: OTP Bank, TÁRKI
DATA RESEARCH, Millward Brown (piackutató), T-Mobile, Bi Consulting.
Szükséges megemlíteni a nehézségeket is. Az első probléma, hogy az adatbányász, és
az azokat kiegészítő szövegbányász-, webbányász stb. programcsomagok az üzleti szférá-
hoz szabott, kiemelten magas áron érhetők el. A másik probléma a használathoz kötődik,
ugyanis a rendszer működtetésének elsajátítása jelentékeny szellemi erőfeszítést igényel,
tehát jelenleg még nem lehet önálló menedzsment támogató informatikai eszköz. További
gond, hogy egy adatbányászban jártas szakértő alkalmazása csak hosszabb távon hozza
meg a kívánt eredményt, hiszen kiválóan kell ismerni az elemzett vállalat vizsgált folyama-
tait, belső kommunikációs rendszerét.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
128
11.3.6 Az adatbányászat irányzatai
Az adatbányászat minden olyan területen használható, ahol a tevékenység során nagy
mennyiségű adat keletkezik (pl. üzleti, államigazgatási, egészségügyi, oktatási, tudomá-
nyos stb.).
− adatbányászat a gazdaságban: hiteltörlesztési hajlandóság előrejelzése és hitelbírá-
lati irányelvek elemzése; fogyasztók célzott marketing szempontú osztályozása és
klaszterezése; pénzügyi bűncselekmények felderítése; reklámhadjáratok hatékony-
ságvizsgálata; vevőmegtartás: lojalitás-vizsgálat
− adatbányászat a távközlésben
− orvostudományi és DNS-adatok stb.
Az adatbányászathoz elengedhetetlen a hatalmas adathalmaz, akár a vállalat életciklusa
során tárolt összes adata, hiszen csak akkor bukkanhatunk értékes összefüggésekre. Az
ilyen adatok, – emberi léptékkel felfoghatatlan – halmazának adatbányászat nélküli feldol-
gozása a menedzsment számára információban szegény, költséges, időigényes, előítéletek-
re épített, félrevezethető tudást eredményezhet.
Az adatbányászat, mint multidiszciplináris tudomány az alábbi területekre támaszkodik:
− adatbázis-technológia, információ-visszakeresés,
− mesterséges intelligencia, neurális hálók,
− számítógépes tanulás,
− statisztika,
− alakfelismerés,
− tudás alapú rendszerek, tudásmegerősítés,
− nagy teljesítményű számítások,
− vizuális adatmegjelenítés.
Az adatbányászati feladatok két osztályba sorolhatók:
− leíró – az adatok általános jellemzőit tárja fel,
− előrejelző – meglévő adatokból következtet, prognosztizál.
11.3.7 Az iteratív folyamat
Az adatbázisokban végzett tudásfeltárást (KDD – Knowledge Discovery in Databases)
az adatbányászat szinonimájaként vagy annak részeként használják. Jelen munkában a
KDD szinonimája az adatbányászat. Az adatbányászat iteratív folyamatának lépései:
− adattisztítás – zajos, inkonzisztens adatok eltávolítása
− adatintegrálás – több adatforrás összekapcsolása
− adatkiválasztás – adatok kiolvasása az adatbázisból az elemzéshez
− adat-transzformáció – az adatok olyan formájának előállítása, hogy az bányászható
legyen
− adatbányászat – az adatminták kiemelése érdekében végzett eljárás
− minta kiértékelése – tudást reprezentáló, valóban érdekes minták meghatározása
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
129
− tudásmegjelenítés – a kinyert tudást tudáskifejező technikákkal tárja a felhasználó
elé
Az előállított, érdekes minta tudást reprezentál, de mikor lesz értékes a minta? Ha egy-
szerűen érthető, bizonyos megbízhatósággal érvényes új vagy kísérleti adatokon, potenciá-
lisan hasznos, újszerű. Egy minta akkor is értékes, ha olyan hipotézist igazol, amelyet a
felhasználó bizonyítani szeretne.
A folyamat bemeneti adatai tárolhatók adatbázisokban, adattárházakban vagy más in-
formációtárakban. A folyamat végén egy új tudáshoz juthatunk, ami az eddigi adatbázis-
technológián alapuló eszközökkel felfedezhetetlen.
Az előállított, érdekes adatminta, vagyis az eredmény tudást reprezentál, de az adatmin-
ta kizárólag akkor lesz érdekes, ha egyszerűen érthető, bizonyos megbízhatósággal érvé-
nyes új vagy kísérleti adatokon, potenciálisan hasznos, újszerű. Egy adatminta akkor is
érdekes, ha olyan hipotézist igazol, amelyet a felhasználó bizonyítani szeretne.
Példa:
Egy online hírportálnál rendkívül fontos a látogatók viselkedése, mert a hirdetéseket így
lehet a megfelelő áron és meggyőzően értékesíteni. Az adatbányászat (webbányászat)
során kapott, egy lehetséges értékes adatmintára példa:
a hétköznapokon 9.-11.00 közötti látogatók 60%-ka nem a portál főoldaláról indul, de
megnézi átlagosan 10 percig a baba-mama oldalakat, 2-3 percig a bulvár rovatot, 1 per-
cig az időjárást és a TV műsort. A látogatók 25%-a a sportot nézi meg, esetleg a friss
politikai híreket. A látogatók 10%-a tudományos oldalakat, azon belül is leginkább in-
formatikai híreket olvas ebben az időben, és ők gyakran megnézik az Autó-motor rova-
tot is. A látogatók 5% pedig teljesen kiszámíthatatlanul viselkedik ebben az idősávban,
de többnyire a híreket ők is megnézik.
11.3.8 Webbányászat
A látogatók szokásainak minél alaposabb megismerése állandó kihívás. Az online
kommunikációs csatornákat használó látogatók magatartását a hagyományos eszközökkel
nem, vagy nagyon nehezen lehet megismerni. Azonban ez a felhasználói réteg nagyon sok
nyomot hagy maga után, a kiszolgáló számítógépeken rögzített adatok kincset érnek, melyek
„felszínre hozhatók” a webbányászati eszközökkel. A látogatók igényeit kielégítő, individua-
lizált szolgáltatás csak abban az esetben valósítható meg, ha az online szokásaikat, magatar-
tásukat elemezzük a weboldalakon található linkeken át bejárt útvonalak alapján.
A webbányászat az adatbányászat része. A webhasználat-bányászattal tanulmányozhat-
juk a látogatók szokásait, magatartásmintáit. A webhasználat-bányászat nevezhető
webnapló bányászatnak is, hiszen ma még többnyire a webkiszolgálók által rögzített
webnapló-bejegyzéseken alapul. Jelen dolgozat vizsgálatait a webhasználat-bányászat esz-
köztárát alkalmazva végeztük el.
Az azonosíthatatlan felhasználók online tevékenységét a látogatásuk alkalmával rögzít-
jük, az adatgyűjtés az adott fogyasztóról a látogatás befejezéskor zárul le. Ez azt jelenti,
hogy a legközelebbi látogatás alkalmával ő már más fogyasztónak számít. Ha a látogatók
száma nagy, akkor a marketingmenedzsment honlappal kapcsolatos döntéseihez a vizsgá-
latok elégséges bemenetet jelentenek, hiszen minden elemzés az online látogatók teljes
populációjára alapul.
A vizsgálatokat néhány említésre méltó tény nehezíti (Han, Kamber, 2004):
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
130
− a web túlságosan bőséges tárolt adathalmaza,
− a weboldal strukturálatlansága, bonyolultsága,
− a weboldal dinamikusan változásai,
− a felhasználók azonosítási anomáliái stb.
A webbányászat feladatköre a vizsgálat tárgya szerint három területet fog át:
− webtartalom-bányászat (web content mining),
− webstruktúra-bányászat (web structure mining) és
− webhasználat-bányászat (web usage mining).
A webhasználat-bányászat használatával a látogatók szokásainak, magatartásmintáinak
tanulmányozása válik lehetővé. A webhasználat-bányászat nevezhető webnapló bányá-
szatnak is, hiszen a webkiszolgálók által rögzített webnapló-bejegyzéseken alapul. A
webnapló-bejegyzések (weblog fájl) vizsgálata során a weblapok hozzáférési mintáit lehet
feltárni, így a látogatók számára az interneten keresztül nyújtott szolgáltatások minősége
javítható, akár a webet kiszolgáló számítógépek (webszerverek) teljesítménye is növelhető.
Egy adott webnapló-bejegyzés mezői eltérőek lehetnek, de mindegyik webszerver tárolja a
következőket:
− a kérés kiindulási helyének IP címét,
− a kérés pontos idejét,
− a kért URL címet,
− és ezen kívül még néhány adatot.
A webnapló-bejegyzéseknél gyakorta a túlságosan is sok adat jelenti a nehézséget. A
rögzített adatokból, – amelyek leginkább technikai jellegűek – kell megtalálni a relevánsa-
kat. A felhasználók hozzáférési mintáinak ilyen osztott információs környezetben történő
kigyűjtését nevezik hozzáférési útvonalminta bányászatnak is.
A webbányászat eszköze egy adatbányász szoftverre épül. A két piacvezető adatbá-
nyász programcsomag rendelkezik webbányász kiegészítéssel is. A kutatásoknál használt
IBM-SPSS Modeler esetén ezt nevezik WebMining CAT modulnak.
A webbányászati technikák alkalmasak a felhasználók alaposabb megismerésére. Ter-
mészetesen az eddig elvégzett vizsgálatok, webstatisztikák, a látogatásokról, kattintásokról
szóló összesítések szükségesek, azonban az online vásárlók, látogatók igényeit individuáli-
san kielégítő szolgáltatás csak abban az esetben valósítható meg, ha felhasználók szokásait,
magatartását elemezzük, például a weboldalakon található linkeken át bejárt útvonalak
alapján. A vizsgálatok előnye, hogy a teljes populáción történik, azaz nincs vizsgált minta.
A rendszertervezés tökéletesítése során elérhető pl. az erősen korreláló objektumokhoz
történő hatékonyabb hozzáférés, de a fogyasztók individualizált, online kiszolgálása is
tökéletesedhet pl. egy hírszolgáltató website-nál.
Webbányászat: az üzleti szféra Internet-alapú szegmensében ki-
dolgozott igen erőteljes speciális adatbányászati megközelítés, az
adatbányászat alkalmazása a webhelyek forgalom-elemzésének
speciális területére.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
131
A módszer a webhelyek üzemeltetőjének a szerverén képződő, a forgalomra jellemző
naplófájlok (az ún. logfájlok) kifinomult elemzésére épül és az adott webhelyek hatékony-
ságának a fokozását tűzi célul.
A különböző típusú naplófájlok (ún. weblog-ok) elvben a felhasználók tevékenységére
vonatkozó igen gazdag információ-források. Itt a probléma a szokásosnak éppen a fordí-
tottja: itt nem kevés, hanem túlságosan is sok információ áll rendelkezésünkre. A naplófáj-
lok mérete ugyanis az üzleti szférában – a látogatók számától és elemzett időszak hosszától
függően – gyakran a több száz MB vagy a GB nagyságrendjébe esik. Ezt a nagy mennyi-
ségű – és nagymértékben pusztán technikai jellegű – információt kell célszerű módon
megszűrni, átalakítani, feldolgozni úgy, hogy a kezdeti technikai információból a felhasz-
náló viselkedését és motivációját megalapozottan jellemző információkat nyerjünk.
Az interakció professzionális vizsgálata lehetővé teszi a tananyag tényleges használati
módjainak az azonosítását, amiből megalapozottan következtetni lehet a tananyag haté-
konyságára, illetve a hatékonyság konkrét akadályaira.
A web-bányászati technikák ezért a tananyag fejlesztésének a folyamatában – mintegy
az ipari gyártásközi minőségellenőrzés analógiájára – az egzakt közbenső „mérések” lehe-
tőségét nyújtják: a fejlesztés minden „mintavételezés” után attól függő irányokat vehet,
hogy a tanulók a megelőző lépésben hogyan fogadták a tananyag számukra rendelkezésre
bocsátott verzióját. A menet közben azonosított szakmai, didaktikai, használhatósági,
szoftver-ergonómiai (leggyakrabban a navigációval vagy az információmegjelenítéssel
kapcsolatos) stb. problémákra ilyen módon gyors áttervezési, javítási javaslat adható és az
így kialakított verzió egy újabb ciklusban tesztelhető.
Ez a megközelítés annyiban radikálisan más a korábbiakhoz képest, hogy itt a tanulók
és a tananyag vonatkozásában nem egyfajta mintavételezésről van szó, hanem valamennyi
tanuló valamennyi interakcióját elemezhetjük a teljes tananyagban a billentyűleütések és
egér-kattintások szintjének megfelelő finomságú felbontásban. Az elemzés tehát nem a
célpopulációból vett többé-kevésbé reprezentatív mintákra épül, hanem a célpopulációra
nézve teljes körű.
A sikeres web-bányászati elemzés feltétele, hogy a különböző modellekkel nyert ered-
ményeket az elemző képes legyen a felhasználói szintű élményekkel, illetve tapasztalatok-
kal összekapcsolni. Ez azt jelenti, hogy csak az lehet valóban sikeres, aki mind a web-
bányászati elveket és eszközöket, mind az elemzett konkrét anyagot, mind pedig a felhasz-
nálókat eléggé mélyen ismeri.
11.3.9 Szövegbányászat
Az előzőekben kifejtett (webes) szövegen alapuló keresésnél jóval többet hivatott nyúj-
tani a szövegbányászat egyes speciális keresőkérdés esetén. Míg a szöveges keresés eseté-
ben meglévő információkra kívánunk kis időbefektetéssel rátalálni (nagy relevanciájú talá-
lati eredmények által), addig a szövegbányászat során olyan tudásra, ismeretekre is szert
kívánunk tenni, ami explicite nem volt benne a rendelkezésre álló dokumentumállomány-
ban (korpuszban), csak indirekt módon, a szöveg közé rejtve.
A teljes szövegű keresés ugyan része a szövegbányászatnak, a szövegbányászat a kere-
sésnél jóval többet jelent, hasonlóan, ahogy az adatbányászat is jóval többet jelent az egy-
szerű adatkeresésnél.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
132
A szövegbányászat (angolul text mining) a strukturálatlan vagy
kis mértékben strukturált szöveges állományokból kinyert ismere-
tek feltárásával foglalkozik.
Az új információ kinyerése olyan, különböző pl. webes dokumentumforrásokból szár-
mazó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és repre-
zentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt. A gép
számára azonban a humán segítség elengedhetetlen.
Példa:
Szeretnénk megtudni, hogy a fogyasztóknak mi a véleménye egy könyvről az interneten
megtalálható blogok, fórumok, hozzászólások szöveges anyagai alapján. Ehhez defini-
álnunk kell, hogy milyen karakterekből áll a könyv címe, szerzője, mit nevezünk jónak,
és mit nevezünk rossznak, mi lehet a jelző a leírt mondatokban.
Ezután a tudásfeltárás automatikusan történik, azaz megkapjuk, hogy hányan főnek volt
pozitív, illetve negatív véleménye, hányan bánták meg a vásárlást, hányan ajánlják má-
soknak stb. Ezt a tudást indexelt keresőkkel csak hatalma emberi munkaráfordítással
lenne elérhető, hiszen olyat is megtudhatunk, hogy akik ezt a könyvet dicsérték, azok
mit dicsértek még stb.
A szövegbányászat nagymértékben épít az adatbányászat eredményeire, ahol elsősorban
számszerű adatok feldolgozása történik intelligens gépi módszerekkel. Az adatbányászat
azon eredményeit, amelyek minták felismerésére, adatreprezentációra, előrejelzésre, sta-
tisztikai összefüggések kimutatására vonatkoznak, a szövegbányászat is nagymértékben
hasznosítja. A különbség abban mutatkozik, hogy míg adatbányászat esetében jól struktu-
rált számszerű adatokkal dolgozunk, addig a szövegbányászatban strukturálatlan szöveges
állományok képezik a kiindulási alapot.
11.4 ÖSSZEFOGLALÁS
Információkeresés magas szinten, intelligens rendszerek bemutatása. A profitorientált
szféra jelentős cégeinek menedzsmentje számára elérhető keresés a jövőben a könyvtár,
így a könyvtárosok eszközévé válik. Az eszközöket kifejezetten a tájékoztatás oldala felől
kezelítjük meg, hiszen azok működése, matematikai háttere egyetlen tárgy résztémakörénél
teljesíthetetlen. Megismertük az üzleti intelligenciából vett eszközök, mint az adatbányá-
szat (webbányászat) stb. vázlatos szerepét.
11.5 ÖNELLENŐRZŐ KÉRDÉSEK
1. Értelmezze az adatbányászatot!
2. Hasonlítsa össze a webbányászatot a szövegbányászattal!
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
133
12. ÖSSZEFOGLALÁS
12.1 A KURZUSBAN KITŰZÖTT CÉLOK ÖSSZEFOGLALÁSA
A kurzus célja, hogy megismertesse a hallgatókat az interneten fellelhető adatok kere-
sésének lehetőségeivel, a keresés alapfogalmi felépítésével, a webes keresőszolgáltatások,
azon belül a webes keresőrendszerek működési mechanizmusával.
A tananyag kiemelten kezelte az online keresés adekvát eszközének kiválasztását, rá-
mutatva arra milyen esetben, és miként érdemes igénybe venni az internetes keresést. Ki-
emelt figyelmet kapott a keresés korszerű, a könyvtáros szakemberek számára nélkülözhe-
tetlen ismeretet jelentő, tudásalapú internet tárgyalása az online keresés vonatkozásában.
A jelenlegi és a jövő technológiáit egy bizonyos határig szükséges volt bemutatni mel-
lőzve a mély informatikai ismeretek. Cél volt ezen túlmenően a technológiák várható hatá-
sainak ismertetése, hiszen a folyamatos és gyors változás miatt a diploma megszerzése
után várhatóan évről-évre változó technikai- és szolgáltatás hátérrel kell kiszolgálniuk a
könyvtár személyes- és virtuális látogatóit.
12.2 TARTALMI ÖSSZEFOGLALÁS
A jegyzet gerincét az internetes keresőrendszerek egy szűk, de széles közösség által
használt részébe próbált betekinteni. A jegyzetben megismerte a keresőrendszerek kapcso-
latát a könyvtári tájékoztatással, a mai keresők fajtáit, azok használatát, működési mecha-
nizmusait, valamint kitekintést nyújtott a következő évtizedek várható technológiai válto-
zásaira.
12.3 A TANANYAGBAN TANULTAK RÉSZLETES ÖSSZEFOGLALÁSA
12.3.1 Információ szolgáltató eszközök fejlődése a könyvtáros szakmában
A könyvtáros szakma és a szaktájékoztatás eszközének átalakulása, megváltozása az
adatbázisok alkalmazásától az online információ-szolgáltató eszközökig. A online keresés
modellje. Az internetes találatok szakmai hitelessége. A találati listák elektronikus és ha-
gyományos kezelése, archiválása. A közeljövő operatív könyvtári munka kiegészülhet a
Web2.0-val jelzett technológiához köthető szolgáltatások keresési lehetőségeivel. Üzleti
információ.
12.3.2 A keresőszolgáltatások alapismeretei
A keresőrendszerek történetének és fogalmának tárgyalása után annak csoportosítása,
tulajdonságainak leírása, gyakorlati példákkal alátámasztott hasznossága következik a
könyvtártudomány oldaláról. Az internetalapú keresőrendszerek főbb típusának részletes
bemutatása, melyben kitérünk a kulcsszavas keresők vezető szerepére és korlátaira, a tema-
tikus keresők könyvtárosokat segítő lehetőségeire, a kevés találati elemszám esetén ki-
emelten hasznos metakeresőkre, a könyvtári keresők taglalására, a toplisták szerepére a
könyvtári menedzsment szemszögéből.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
134
12.3.3 A kulcsszavas keresés technikái
A keresőrendszerek történetének és fogalmának tárgyalása után annak csoportosítása,
tulajdonságainak leírása, gyakorlati példákkal alátámasztott hasznossága következik a
könyvtártudomány oldaláról. Az internetalapú keresőrendszerek főbb típusának részletes
bemutatása, melyben kitérünk a kulcsszavas keresők vezető szerepére és korlátaira, a tema-
tikus keresők könyvtárosokat segítő lehetőségeire, a kevés találati elemszám esetén ki-
emelten hasznos metakeresőkre, a könyvtári keresők taglalására, a toplisták szerepére a
könyvtári menedzsment szemszögéből.
12.3.4 Google, mint kereső eszköz
A Google a keresőrendszerek között az utóbbi évtizedben egy külön fogalmat jelent az
utóbbi évtizedek alapján. A lecke bemutatta a megszokott, weboldalak és szöveges alapú
dokumentumok keresését biztosító keresőmotor sokszínű, állandóan fejlődő lehetőségeit
különböző aspektusból. A Google ezen kívül a speciális keresés terén is páratlan fejlődést
mutat, melyekre részletesen kitértünk. Külön boncolgattuk a Google a keresőrendszerek
használatában kivívott elsőségét.
12.3.5 Keresőrobotok
A keresőrobotok mechanizmusának megértése a hatékonyabb keresőkérdés összeállítá-
sa érdekében.A PageRank vázlatos bemutatása, szerepének megértése a webes keresésnél.
A keresőoptimalizálás attitüdjeinek elsajátítása.
12.3.6 Metakeresők
Metakeresők működési elve. A magyar és külföldi metakeresők használatának és mű-
ködésének leírása. Az Ariadnet használatának és a keresőmotor működésének részletes
bemutatása. A PolyMeta használatának és a keresőmotor működésének részletes bemutatá-
sa. A Miner használatának és a keresőmotor működésének részletes bemutatása. Egyéb
magyar metakereső szolgáltatások.
12.3.7 Speciális keresők
A témakörre specializált (vertikális) vagy egyetlen honlaphoz (site) kapcsolódó keresési
lehetőségek bemutatása. A témakörre specializált keresők közül a keresők kapnak kiemelt
figyelmet. A honlap saját keresési lehetőségeinek tárgyalása során bemutatjuk a Magyar
Tudományos Akadémia honlapjának keresőjét. Ezen kívül az alábbi témakörök keresőiről,
és azok korlátairól lesz szó: tudományos adatbázisok, tudástárak, szótárak, művészeti tá-
rak, rövidítésszótár, személykeresők, kapcsolat alapú rendszerek, kép- és mozgókép, tér-
kép, online szakmai újságok folyóiratok, jogszabályok, vezetékes és mobil telefonszámok,
szervezeteket kereső szolgáltatás.
12.3.8 Katalógusok
A katalógusok megismerése mellet egyéb más, a katalógusok és a kulcsszavas keresők
egye jellemzőit viselő tartalomszolgáltató oldalát ismertük meg. A katalógusok működési
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
135
mechanizmusa mellett a katalógusokban elérhető saját belső vagy külső kulcszsvas kere-
sőket mutattuk be.
12.3.9 Szemantikus web
A szemantikus web az internet egy lehetséges jövője, mely a jelenlegi webet olyan
többlet információkkal egészíti ki, hogy a leírtakat ne csak egy személy, de a számítógép is
megérthesse. Egy egységes leíró nyelv segítségével az alkalmazások emberi beavatkozás
nélkül képesek kommunikálni, információt megosztani. Teljesen automatikusan működő
programok nyújtanak majd segítséget vagy szolgáltatást. A weboldalak tematikus leírását
kihasználó keresők pedig sokkal hatékonyabban működhetnek.
12.3.10 Intelligens rendszerek
Információkeresés magas szinten, intelligens rendszerek bemutatása. A profitorientált
szféra jelentős cégeinek menedzsmentje számára elérhető keresés a jövőben a könyvtár,
így a könyvtárosok eszközévé válik. Az eszközöket kifejezetten a tájékoztatás oldala felől
kezelítjük meg, hiszen azok működése, matematikai háttere egyetlen tárgy résztémakörénél
teljesíthetetlen. Megismertük az üzleti intelligenciából vett eszközök, mint az adatbányá-
szat (webbányászat) stb. vázlatos szerepét.
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
136
13. KIEGÉSZÍTÉSEK
13.1 IRODALOMJEGYZÉK
13.1.1 Hivatkozások
Könyv
DÖMÖLKI BÁLINT (szerk.): Égen-földön informatika. Az információs társadalom technikai
távlatai. Tanulmánykötet. Bp., Typotex, 2008.
GEOszkóp. Médiatúladagolás? GEO. A világot felfedezni és megérteni. 2010.június p. 14.
GOTTDANK TIBOR: Szemantikus web. Bevezetés a tudásalapú internet világába. Bp.,
Computerbooks, 2005.
KISZL PÉTER: Üzleti információ, céginformáció és a könyvtárak. Bp., ELTE, 2005.
KOVÁCS JÁNOS: Interneten a középkori oklevelek. In.: Heves megyei Hírlap 2010. május
13. 5. oldal
MIKULÁS GÁBOR (SZERK.): Információból üzleti érték. Magyar Információbrókerek
Egyesülete. Bp., MIBE, 2006.
MISKI GÁBOR: Adatbányászat – közérthetően.In.: ItBusiness 2010. április 6. 10. oldal
UNGVÁRY RUDOLF – VAJDA ERIK: Könyvtári információkeresés. Bp., Typotex, 2002.
Elektronikus dokumentumok, források
A Google története. Webma, analitikus marketing. Cikk elérése:
webmarketing>keresőmarketing tudásbázis>keresők>google története [online
dokumentum] URL:
http://www.webma.hu/Keresomarketing_tudasbazis/Keresok/Google_tortenete.html
(letöltve: 2010. június 10.)
Ady Krisztián: Elindult a Google videokereső szolgáltatása. HWSW Online Informatikai
Hírmagazin. Eco@TECH rovat. 2005. június 28. [online dokumentum]
URL: http://www.hwsw.hu/hirek/29238/elindult-a-google-videokereso-
szolgaltatasa.html (letöltve: 2010. június 10.)
Alexa. The Web Information Company. (online webstatisztikai adatok)
URL: http://www.alexa.com/
Arcfelismerés a weben. Riya. Index.hu, Tech rovat. 2006. május 27. [online dokumentum]
URL: http://index.hu/tech/net/riya2931/ (letöltve: 2009. szeptember 15.)
Bodnár Ádám: A Google babérjaira tör az új kereső, a Cuil. HWSW Online Informatikai
Hírmagazin. Web rovat. 2008. július 28. [online dokumentum]
URL: http://www.hwsw.hu/hirek/36542/cuil_google_web_kereses.html (letöltve:
2009. szeptember 15.)
Boros Klára: Digitális könyvtárak szerepe. Irodalom – internet – napló. 2005. október 13.
[online dokumentum]
http://krono.inaplo.hu/index.php/inter/recenzio/273-digitalis-koenyvtarak-szerepe-
(letöltve: 2010. május 26.)
Csónaki Bogi: Katalogizálás az ókorban. Irodalom – internet – napló. 2009. január 19.
[online dokumentum]
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
137
URL: http://krono.inaplo.hu/index.php/inter/weblibrary/632-katalogizalas-az-
okorban (letöltve: 2010. május 26.)
Elindult az iGlue szemantikus kereső. Kereső Világ: minden a keresésről, keresőkről.
2009. november 12. [online dokumentum]
URL: http://kereses.blog.hu/2009/11/12/elindult_az_iglue_szemantikus_kereso
(letöltve: 2010. április 23.)
ERIC [online dokumentum]
URL: http://gep.dialog.com/instruction/workbook/2005_labwb_bluesheets.pdf
(letöltve: 2010. június 18.)
Google Goggles: lefordítani magyarra a szöveget, amit a mobil kamerája lát. Webisztán.
2010. február 19. [online dokumentum] URL:
http://webisztan.blog.hu/2010/02/19/google_goggles_avagy_leforditani_magyarra_a
_szoveget_amit_a_mobil_kameraja_lat (letöltve: 2010. június 10.)
Google képkeresés – fejlesztés alatt. SEO blog – LONGHAND. Cikkek
keresőoptimalizálásról, tanácsok webfejlesztéshez. [online dokumentum]
URL: http://longhand.hu/google-cikkek/google-kepkereses-fejlesztes-alatt.php
(letöltve: 2007. június 11.)
Google Scholar szócikk. Wikipédia. A szabad enciklopédia. [online dokumentum]
URL: http://hu.wikipedia.org/wiki/Google_Scholar (letöltve: 2010. április 10.)
Google szemantikus keresés. Webma, analitikus marketing. Cikk elérése:
webmarketing>keresőmarketing tudásbázis>keresők [online dokumentum]
URL:
http://www.webma.hu/Keresomarketing_tudasbazis/Keresok/Google_szemantikus_
kereses.html (letöltve: 2010. március 25.)
Google Unviersal Search. Webma, analitikus marketing. Cikk elérése:
webmarketing>keresőmarketing tudásbázis>keresők>google universal search
[online dokumentum] URL:
http://www.webma.hu/Keresomarketing_tudasbazis/Keresok/Google_Universal_Sea
rch.html (letöltve: 2010. június 10.)
Google webcímtár. [online dokumentum]
URL: http://www.google.com/Top/World/Magyar/Tudomány/ (letöltve: 2010.
április 10.)
Google: valós idejű keresés magyarul is. HVG.hu IT/Tudomány rovat. 2010. március 19.
[online dokumentum]
URL: http://hvg.hu/Tudomany/20100319_google_valos_ideju_kereses (letöltve:
2010. június 10.)
Google: valós idejű keresés magyarul is. HVG.hu, IT tudomány rovat. 2010. március 19.
[online dokumentum]
URL: http://hvg.hu/Tudomany/20100319_google_valos_ideju_kereses (letöltve:
2010. április 10.)
Jároli József: Metakeresők. [online dokumentum]
http://webni.innen.hu/SzabadszavasKeres_c5_91k
Katalógusok. Országos Széchényi Könyvtár [online dokumentum] URL:
http://www.oszk.hu/hun/konyvtar/szervfel/kulongy/zenemutar/zenemutar_katal_hu.
htm (letöltve: 2010. június 7.)
Magyar Elektronikus Könyvtár (MEK). URL: www.mek.hu
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
138
Netbusiness Europe: Online marketing szótár [online dokumentum]
URL: http://www.netbusinesseurope.com/online-marketing-szotar
Online adatbázisok. [online dokumentum]
URL: http://www.baf.hu/guglesz/data/html/dbase.html (letöltve: 2010. május 15.)
Startlap termék. Sanoma Media. Cikk elérése: Termékek/Új média/Startlap. [online
dokumentum]
URL: http://www.sanomamedia.hu/termekek/startlap_hu/4978/?fid=391 (letöltve:
2010. június 12.)
Startlap.hu. [online dokumentum] URL: keresogepek.lap.hu
STING: Elérhető a Google új keresőindexe, a Caffeine. PC Fórum – On-line Informatikai
Magazin. [online dokumentum].
URL:
http://pcforum.hu/hirek/12057/Elerheto+a+Google+uj+keresoindexe+a+Caffeine.ht
ml (letöltve: 2010. június 9.)
Sting: Már képes az arcokat is felismerni a Facebook. PC Fórum – On-line Informatikai
Magazin. 2010. július 5. [online dokumentum]
URL:
http://pcforum.hu/hirek/12108/Mar+kepes+az+arcokat+is+felismerni+a+Facebook.h
tml (letöltve: 2010. május 11.)
Szakadát István: Keresőrendszerek a weben. [online dokumentum]
URL: http://mokk.bme.hu/archive/keres_pki_2003/pdf (letöltve: 2010. március 10.)
Szemantikus e-dosszié: metainformációk kinyerését és ontológiai alapú kezelését lehetővé
tevő, elektronikusan hiteles dossziékat kezelő rendszer fejlesztése. [online
dokumentum]
URL: http://www.scriptum.hu/static/edosszie.html (letöltve: 2010. május 15.)
The Free Dictionary by Farlex. [online dokumentum]
URL: http://encyclopedia.thefreedictionary.com
Tószegi Zsuzsanna: A hazai digitális könyvtárak szerepe a kulturális örökség
digitalizálásában és hozzáférhetővé tételében. Tudományos és műszaki tájékoztatás.
Könyvtár- és információtudományi szakfolyóirat. 49. évfolyam (2002) 4. szám
[online dokumentum]
URL: http://tmt.omikk.bme.hu/show_news.html?id=611&issue_id=40 (letöltve:
2010. június 15.)
Új tudományos kereső a Google-től. Index.hu, Tech rovat. 2004. november 23. [online
dokumentum]
URL: http://index.hu/tech/net/scholar1123/ (letöltve: 2010. június 1.)
Ungváry Rudolf – Vajda Erik: Az információkeresés szavai. Tudományos és Műszaki
Tájékoztatás. Könyvtár és információtudományi szakfolyóirat. 50. évfolyam (2003)
12. szám [online dokumentum]
URL: http://tmt.omikk.bme.hu/show_news.html?id=3451&issue_id=446 (letöltve:
2010. június 14.)
Ungváry Rudolf-Vajda Erik: Könyvtári információkeresés. Typotex, 2002. Kempelen
Farkas Digitális Tankönyvtár. Könyvek/Könyvtártudomány/Könyvtári
információkeresés [online dokumentum]
URL: http://www.tankonyvtar.hu/konyvtartudomany/konyvtari-080905-13 (letöltve:
2010. május 5.)
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
139
Zubreczki Dávid: A Google mint tudományos kereső. Tudományos és műszaki
tájékoztatás. Könyvtár- és információtudományi szakfolyóirat. 51. évfolyam (2004)
7. szám [online dokumentum]
URL: http://tmt.omikk.bme.hu/show_news.html?id=3663&issue_id=452 (letöltve:
2010. április 10.)
13.1.2 Külső URL hivatkozások
1. Altavista: http://altavista.com ............................................................................... 22
2. Startlap: startlap.hu ............................................................................................... 25
3. Google: google.hu ................................................................................................. 25
4. Yahoo!: yahoo.com ............................................................................................... 25
5. Altavizsla: altavizsla.hu (jelenleg működése bizonytalan) ................................... 25
6. Ungváry Rudolf-Vajda Erik: Könyvtári információkeresés:
http://www.tankonyvtar.hu/konyvtartudomany/konyvtari-080905-13 ................. 25
7. Startlapon: keresogepek.lap.hu ............................................................................. 25
8. Startlapon: kereso.lap.hu....................................................................................... 25
9. Kereső Világ blogon: kereses.blog.hu .................................................................. 25
10. Miner vertikális kereső: http://miner.hu ............................................................... 26
11. A MiniRank Magyarországi listája: http://www.minirank.com/tld/hu/0 .............. 29
12. Az Alexa listája a világ honlapjait tekintve: http://www.alexa.com/topsites ....... 30
13. A Heuréka kereső www.heureka.hu ..................................................................... 39
14. www.rovidites.hu: http://rövidítés.hu/ .................................................................. 48
15. A Morphologic cég szótár és webfordító szolgáltatása: http://webfordítás.hu ..... 55
16. A SZTAKI webszótára: http://dict. sztaki.hu. ...................................................... 55
17. Ariadnet metakereső: http://ariadnet.hu ................................................................ 78
18. PolyMeta metakereső: http://polymeta.hu ............................................................ 80
19. Startlap: kereso.lap.hu........................................................................................... 86
20. http://www.myheritage.hu/hiressegek .................................................................. 90
21. http://www.pictriev.com/facedb/fs2.php .............................................................. 90
22. http://www.avinashtech.com/hu/internet/search-similar-faces-web-face/ ............ 90
23. Magyarország első honlapja:
http://www.fsz.bme.hu/hungary/homepage_h.html .............................................. 91
24. Településkereső: www.telepuleskereso.hu ........................................................... 91
25. Utcakereső: utcakereso.hu .................................................................................... 91
26. Google Maps (bármilyen földrajzi egység kereshető): maps.google.com ............ 92
27. Google Maps (Magyarországra fókuszálva): www.terkep.google.hu .................. 92
28. Jó tudni: www.jotudni.hu...................................................................................... 97
29. Linkpark 2005-től: http://www.linkpark.hu/......................................................... 97
30. Port.hu: http://port.hu ............................................................................................ 97
31. HUDIR (www.hudir.hu) általános témájú kereső ................................................. 98
32. STARTLAP (www.lap.hu) általános témájú kereső ............................................. 98
33. RIGHRHEALTH (www.righthealth.com/ ) egészségügyi tematikus kereső. ...... 98
34. GOLIAT (www.goliat.hu) .................................................................................... 98
35. YAHOO (www.yahoo.com) ................................................................................. 98
INTERNETES KERESŐRENDSZEREK MŰKÖDÉSE
140
36. Neumann-ház oldala: http://www.neumann-haz.hu ............................................. 99
37. (http://directory.wyw.hu/Internet/Katalogusok_Linkek/) ..................................... 99
38. http://www.hun-web.hu/Internet/Linkgyujtemenyek/ .......................................... 99