29
05/13/10 BME OMIKK - Szakmázó teázó 1 Új keresési lehetőségek a Nemzeti Kutatásnyilvántartási Rendszerben Tichy-Rács Ádám osztályvezető

Uj_keresesi_eljaras_az_NKR-ben

Embed Size (px)

Citation preview

05/13/10 BME OMIKK - Szakmázó teázó 1

Új keresési lehetőségek a Nemzeti Kutatásnyilvántartási

Rendszerben

Tichy-Rács Ádámosztályvezető

05/13/10 BME OMIKK - Szakmázó teázó 2

Tartalom• Keresőkérdések építése, tárolása,

használata, generálása• Találati halmazok• Keresési módszerek

– Boole-algebrai keresés– relevancia, és hasonlóság szerinti rendezés

• Az NKR tezauruszának jellemzői• Az NKR működésének gyakorlati

bemutatása

05/13/10 BME OMIKK - Szakmázó teázó 3

Keresőkérdés összeállítása

• Szabadon megadott szöveggel vagy listaelemek beillesztésével

• Kétszintű Boole-algebrai kifejezések• Lehetőség a keresőkérdés tárolására és

újrafelhasználására– Következmény: többszintű Boole-algebrai

kifejezés is építhető– Nanotechnológia – nyolcvan elemből álló

összetett kifejezés

05/13/10 BME OMIKK - Szakmázó teázó 4

Találati halmazok

• Alapbeállítás: a keresési feltételeknek megfelelő projektek halmaza

• Új megoldás: a keresési feltételeknek megfelelő projektekben közreműködő szervezetek/szervezeti egységek, illetve kutatók halmaza– A BME projektjeiben közreműködő szervezetek a

BME szervezeti egységei és azok konzorciumi partnerei

• A találati halmaz elemeire kattintva új lekérdezést hozunk létre, és hajtunk végre automatikusan

05/13/10 BME OMIKK - Szakmázó teázó 5

Keresési eljárások• Boole-algebrai keresés szabad tárgyszavas

rendszerben– Azokat a projekteket keressük, amelyek adott

tárgyszavakkal összeállított logikai kifejezéssel leírhatók

• Boole-algebrai keresés tezaurusz segítségével– Azokat a projekteket keressük, melyek adott

fogalmakkal vagy azok alá rendelt tárgyszavakkal összeállított logikai kifejezéssel írhatók le

• A találati halmaz elemei a kereséstől független, a keresési szempontokhoz képest mellékes tulajdonság szerint rendezhetők– Betűrend, projekt kezdése, befejezése, támogatási

összeg stb.

05/13/10 BME OMIKK - Szakmázó teázó 6

Tezaurusz több fölérendelttel• Osztályozórendszerekben minden elemnek egy

és csak egy fölérendeltje lehet– Ellenkező esetben nem lehetne lineárisan elrendezni

a katalóguscédulákat! Utalókat kell használni tartományok összekapcsolására

– Egy témakört esetleg több irányból is kereshetnek – számítógép „járja be a fát tetszőleges kiindulási pontból

Tudománytörténet

Történelem

Fizikatörténet

Humán tudományok

Fizika

Élettelen természettudományok

05/13/10 BME OMIKK - Szakmázó teázó 7

Relevancia alapú keresés

• A projekteket aszerint rangsoroljuk, hogy az A projekteket közvetlenül leíró tárgyszavakból és azok fölérendelt fogalmaiból előállított {A} halmaz mennyire hasonlít a Q keresőkifejezésben szereplő tárgyszavakból és azok fölérendeltjeiből előállított {Q} halmazra

r(A,Q)=n({A}∩{Q})/[n({A})* n({Q})]^(1/2) • Tulajdonsága

0≤ r(A,Q)≤ 1

05/13/10 BME OMIKK - Szakmázó teázó 8

Bináris tezaurusza módszer illusztrálására

05/13/10 BME OMIKK - Szakmázó teázó 9

„A” projekt

n({A})=13

05/13/10 BME OMIKK - Szakmázó teázó 10

„B” projekt

n({B})=12

05/13/10 BME OMIKK - Szakmázó teázó 11

„C” projekt

n({C})=5

05/13/10 BME OMIKK - Szakmázó teázó 12

„Q” kérdés

n({Q})=5

05/13/10 BME OMIKK - Szakmázó teázó 13

„Q” és „A”

n({Q} ∩{A})=2 r(A,B)=2/(5*13)^(1/2)=24,81%

05/13/10 BME OMIKK - Szakmázó teázó 14

„Q” és „B”

n({Q} ∩{B})=2 r(Q,B)=2/(5*12)^(1/2)=25,82%

05/13/10 BME OMIKK - Szakmázó teázó 15

„Q” és „C”

n({Q} ∩{C})=2 r(A,B)=2/(5*5)^(1/2)=40,00%

05/13/10 BME OMIKK - Szakmázó teázó 16

„Keresésre optimalizált” „O” projekt

n({B})=5

05/13/10 BME OMIKK - Szakmázó teázó 17

A projektek „Q” relevanciája szerint rendezve

24,81%„A”

25,82%„B”

33,33% [n({Q}/n({O}]^0,5„O”

40,00%„C”

RelevanciaProjekt

05/13/10 BME OMIKK - Szakmázó teázó 18

Projektek hasonlóság szerinti rangsorolása

• A Q keresőkérdést a „D” projektet pontosan leíró kifejezésből is generálhatjuk

r(A,Q(D))=s(A;D)

• Tulajdonságai:0≤s(A,D)≤ 1s(A,D)= s(D,A)s(A,A)=s(D,D)=1

• Továbbá,ha s(A,D)=0, akkor „A” ortogonális „D”-re

05/13/10 BME OMIKK - Szakmázó teázó 19

„A” és „B” hasonlósága

n({A} ∩{B})=5 s(A,B)=5/(13*12)^(1/2)=40,03%

05/13/10 BME OMIKK - Szakmázó teázó 20

„A” és „C” hasonlósága

n({A} ∩{C})=5 s(A,C)=2/(13*5)^(1/2)=24,81%

05/13/10 BME OMIKK - Szakmázó teázó 21

„B” és „C” hasonlósága

n({B} ∩{C})=1 s(A,B)=1/(12*5)^(1/2)=12,91%

05/13/10 BME OMIKK - Szakmázó teázó 22

Projektek hasonlósága az NKR-ben I.

05/13/10 BME OMIKK - Szakmázó teázó 23

Projektek hasonlósága az NKR-ben II.

05/13/10 BME OMIKK - Szakmázó teázó 24

A relevancia alapú keresés előnyei

• A találati halmazt lényegi szempont szerint rendezi

• Magától – a tezaurusz logikája szerint - hajtja végre a fogalmi általánosítást

• Ha egy projekt mindenhez hasonlít, akkor semmihez sem hasonlít igazán – nagy a nevező!– Nem „keresés-optimalizálhatók” a projektek

• Nagyon általános kérdés csak a nagyon általános projektekre nézve igazán releváns

• Nagyon speciális kérdés nem túl releváns a nagyon általános projektre

05/13/10 BME OMIKK - Szakmázó teázó 25

Kombinált keresés

• Csak azokat a projekteket rendezi relevancia szerint, amik a Boole-algebrai keresés szerint is a találati halmazban lettek volna

• „B” nem eleme a találati halmaznak!

24,81%„B”

40,00%„C”

05/13/10 BME OMIKK - Szakmázó teázó 26

Az NKR tezaurusza

• A tezaurusz– Jelenleg 17000 elemű, folyamatosan fejlődik– 6 legfelső szintű elemet tartalmaz

• Mélysége egyenetlen– 5-10 szintű

• Egy fogalomnak akárhány alárendeltje lehet

• Egy fogalomnak több fölérendeltje is lehet!

05/13/10 BME OMIKK - Szakmázó teázó 27

Tezaurusz több fölérendelttel

05/13/10 BME OMIKK - Szakmázó teázó 28

„B” projekt

n({B})=12

05/13/10 BME OMIKK - Szakmázó teázó 29

• MS Internet Explorer• Mozilla Firefox• Opera• Google Chrome• Apple Safari

Nézzük meg a módszer alkalmazását a gyakorlatban,

a Nemzeti Kutatásnyilvántartási Rendszerben!