Upload
palik-maria
View
638
Download
0
Embed Size (px)
Citation preview
05/13/10 BME OMIKK - Szakmázó teázó 1
Új keresési lehetőségek a Nemzeti Kutatásnyilvántartási
Rendszerben
Tichy-Rács Ádámosztályvezető
05/13/10 BME OMIKK - Szakmázó teázó 2
Tartalom• Keresőkérdések építése, tárolása,
használata, generálása• Találati halmazok• Keresési módszerek
– Boole-algebrai keresés– relevancia, és hasonlóság szerinti rendezés
• Az NKR tezauruszának jellemzői• Az NKR működésének gyakorlati
bemutatása
05/13/10 BME OMIKK - Szakmázó teázó 3
Keresőkérdés összeállítása
• Szabadon megadott szöveggel vagy listaelemek beillesztésével
• Kétszintű Boole-algebrai kifejezések• Lehetőség a keresőkérdés tárolására és
újrafelhasználására– Következmény: többszintű Boole-algebrai
kifejezés is építhető– Nanotechnológia – nyolcvan elemből álló
összetett kifejezés
05/13/10 BME OMIKK - Szakmázó teázó 4
Találati halmazok
• Alapbeállítás: a keresési feltételeknek megfelelő projektek halmaza
• Új megoldás: a keresési feltételeknek megfelelő projektekben közreműködő szervezetek/szervezeti egységek, illetve kutatók halmaza– A BME projektjeiben közreműködő szervezetek a
BME szervezeti egységei és azok konzorciumi partnerei
• A találati halmaz elemeire kattintva új lekérdezést hozunk létre, és hajtunk végre automatikusan
05/13/10 BME OMIKK - Szakmázó teázó 5
Keresési eljárások• Boole-algebrai keresés szabad tárgyszavas
rendszerben– Azokat a projekteket keressük, amelyek adott
tárgyszavakkal összeállított logikai kifejezéssel leírhatók
• Boole-algebrai keresés tezaurusz segítségével– Azokat a projekteket keressük, melyek adott
fogalmakkal vagy azok alá rendelt tárgyszavakkal összeállított logikai kifejezéssel írhatók le
• A találati halmaz elemei a kereséstől független, a keresési szempontokhoz képest mellékes tulajdonság szerint rendezhetők– Betűrend, projekt kezdése, befejezése, támogatási
összeg stb.
05/13/10 BME OMIKK - Szakmázó teázó 6
Tezaurusz több fölérendelttel• Osztályozórendszerekben minden elemnek egy
és csak egy fölérendeltje lehet– Ellenkező esetben nem lehetne lineárisan elrendezni
a katalóguscédulákat! Utalókat kell használni tartományok összekapcsolására
– Egy témakört esetleg több irányból is kereshetnek – számítógép „járja be a fát tetszőleges kiindulási pontból
Tudománytörténet
Történelem
Fizikatörténet
Humán tudományok
Fizika
Élettelen természettudományok
05/13/10 BME OMIKK - Szakmázó teázó 7
Relevancia alapú keresés
• A projekteket aszerint rangsoroljuk, hogy az A projekteket közvetlenül leíró tárgyszavakból és azok fölérendelt fogalmaiból előállított {A} halmaz mennyire hasonlít a Q keresőkifejezésben szereplő tárgyszavakból és azok fölérendeltjeiből előállított {Q} halmazra
r(A,Q)=n({A}∩{Q})/[n({A})* n({Q})]^(1/2) • Tulajdonsága
0≤ r(A,Q)≤ 1
05/13/10 BME OMIKK - Szakmázó teázó 17
A projektek „Q” relevanciája szerint rendezve
24,81%„A”
25,82%„B”
33,33% [n({Q}/n({O}]^0,5„O”
40,00%„C”
RelevanciaProjekt
05/13/10 BME OMIKK - Szakmázó teázó 18
Projektek hasonlóság szerinti rangsorolása
• A Q keresőkérdést a „D” projektet pontosan leíró kifejezésből is generálhatjuk
r(A,Q(D))=s(A;D)
• Tulajdonságai:0≤s(A,D)≤ 1s(A,D)= s(D,A)s(A,A)=s(D,D)=1
• Továbbá,ha s(A,D)=0, akkor „A” ortogonális „D”-re
05/13/10 BME OMIKK - Szakmázó teázó 19
„A” és „B” hasonlósága
n({A} ∩{B})=5 s(A,B)=5/(13*12)^(1/2)=40,03%
05/13/10 BME OMIKK - Szakmázó teázó 20
„A” és „C” hasonlósága
n({A} ∩{C})=5 s(A,C)=2/(13*5)^(1/2)=24,81%
05/13/10 BME OMIKK - Szakmázó teázó 21
„B” és „C” hasonlósága
n({B} ∩{C})=1 s(A,B)=1/(12*5)^(1/2)=12,91%
05/13/10 BME OMIKK - Szakmázó teázó 24
A relevancia alapú keresés előnyei
• A találati halmazt lényegi szempont szerint rendezi
• Magától – a tezaurusz logikája szerint - hajtja végre a fogalmi általánosítást
• Ha egy projekt mindenhez hasonlít, akkor semmihez sem hasonlít igazán – nagy a nevező!– Nem „keresés-optimalizálhatók” a projektek
• Nagyon általános kérdés csak a nagyon általános projektekre nézve igazán releváns
• Nagyon speciális kérdés nem túl releváns a nagyon általános projektre
05/13/10 BME OMIKK - Szakmázó teázó 25
Kombinált keresés
• Csak azokat a projekteket rendezi relevancia szerint, amik a Boole-algebrai keresés szerint is a találati halmazban lettek volna
• „B” nem eleme a találati halmaznak!
24,81%„B”
40,00%„C”
05/13/10 BME OMIKK - Szakmázó teázó 26
Az NKR tezaurusza
• A tezaurusz– Jelenleg 17000 elemű, folyamatosan fejlődik– 6 legfelső szintű elemet tartalmaz
• Mélysége egyenetlen– 5-10 szintű
• Egy fogalomnak akárhány alárendeltje lehet
• Egy fogalomnak több fölérendeltje is lehet!