28
Tekstovne podatkovne zbirke Zvrsti, opisovanje vsebine, iskalni modeli.

Tekstovne podatkovne zbirke

  • Upload
    alijah

  • View
    66

  • Download
    0

Embed Size (px)

DESCRIPTION

Tekstovne podatkovne zbirke. Zvrsti, opisovanje vsebine, iskalni modeli. Tekstovne zbirke - uvod. Velik del informacij v znanosti (tudi v medicini) je tekstovne narave. tiskane publikacije, e-publikacije, diagnoze, poročila o posegih, razlage nebesedilnih informacij... - PowerPoint PPT Presentation

Citation preview

Page 1: Tekstovne podatkovne zbirke

Tekstovne podatkovne zbirke

Zvrsti,opisovanje vsebine,

iskalni modeli.

Page 2: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 2

Tekstovne zbirke - uvod

Velik del informacij v znanosti (tudi v medicini) je tekstovne narave. tiskane publikacije, e-publikacije, diagnoze, poročila o posegih, razlage nebesedilnih informacij...

Tudi za take informacije veljajo vse posledice informacijske eksplozije, zato postanejo obvladljive šele z uporabo informacijskih orodij.

Page 3: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 4

Zvrsti tekstovnih zbirk

Bibliografske zbirke. Zbirke polnih “besedil”:

nestrukturirana besedila, hipertekstni in multimedijski dokumenti.

Kratki tekstovni podatki so vključeni tudi v tabele relacijskih zbirk, ki so vsebina enega naslednjih predavanj.

Page 4: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 5

Bibliografske zbirke

Najstarejša in, v znanstvenem informiranju, še vedno najpomembnejša oblika tekstovne podatkovne zbirke.

Bibliografski zapis vsebuje osnovne podatke o dokumentu.

Načini uporabe: informacijska potreba vsebinske narave – t.i. retrospektivne

poizvedbe, iskanje po imenih avtorjev ali inštitucij – bibliografije, vrednotenje raziskovalnega dela...

Page 5: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 6

Bibliografske zbirke

Uporaba bibliografske zbirke je samo korak pri zadovoljitvi informacijske potrebe.

Povezava s knjižnico: v bibliografski zbirki izvemo za obstoj dokumenta,

ki ustreza informacijski potrebi, dokument dobimo v knjižnici, lahko z

medknjižnično izposojo. Vedno pogosteje bibliografski zapis vsebuje

spletni kazalec na polni dokument.

Page 6: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 7

Bibliografske zbirke, primer

...

Page 7: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 8

Bibliografske zbirke

Bibliografska zbirka ni knjižnični katalog: bistvo knjižničnega kataloga so t.i. lokacijski

podatki - pozicija in zaloga enot gradiva v knjižnici,

knjižnični katalogi vsebujejo podatke o knjigah, zbornikih, revijah, zelo redko podatke o člankih.

Page 8: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 9

Iskanje po tekstovni zbirki je najpogosteje iskanje po vsebini dokumentov.

Vsebino dokumenta je treba opisati v njegovem zapisu v zbirki.

Elementi opisa vsebine - ključne besede ali deskriptorji.

Postopek imenujemo indeksiranje. Iskalec uporablja elemente opisa vsebine za

izražanje svoje informacijske potrebe.

Bibliografske zbirke: opisovanje vsebine dokumentov

Page 9: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 10

Bibliografske zbirke: opisovanje vsebine dokumentov

Iskanje in indeksiranje - zrcalna postopka. Med indeksiranjem dokumenta indekser

poskuša uganiti ključne besede ali deskriptorje, ki bi jih iskalec uporabil, če bi hotel poiskati dani dokument.

Indekser in iskalec pri klasičnem indeksiranju in iskanju uporabljata tezaver.

Page 10: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 11

Tezaver

Tezaver je seznam deskriptorjev in navodil za njihovo uporabo.

Deskriptorji v tezavru so povezani s semantičnimi relacijami, najpogosteje so to hierarhične relacije.

Deskriptorji tvorijo umeten informacijski jezik: za vsak pojem obstaja en sam deskriptor

(kontrola sinonimov), vsak deskriptor opisuje en sam pojem (kontrola

homonimov).

Page 11: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 12

Zbirke polnih dokumentov

Bibliografski zapis je nadomestek pravega nosilca informacij.

Bibliografski zapis le opozarja na dokument. Informacijski potrebi lahko zadosti le polni

dokument. V sodobnih tekstovnih zbirkah

bibliografske nadomestke zamenjujejo polni dokumenti, ali pa

bibliografski zapis postane kazalec, ki omogoča dostop do polnega dokumenta.

Page 12: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 13

Naslov poljubnega strokovnega~lanka

Avtor X, Avtor Y

Beseda in beseda in spet beseda, beseda za besedo. Sledi beseda, pa beseda k besedi obbesedi. Besede, besede, besede. Vmes kak{naneznana beseda. Sploh ni videti konca besed.Oh, besede!

Beseda in beseda in spet beseda, beseda za besedo. Sledi beseda, pa beseda k besedi obbesedi. Besede, besede, besede. Vmes kak{naneznana beseda. Sploh ni videti konca besed.Oh, besede!

Literatura:

1. Avtor X. Naslov citiranega ~lanka. revije 1993; 1(2):3-4

2. Avtor Z. Naslov drugega citiranega ~lanka. revije 1991; 5(6):7-8

Naslov

Naslov

kaj neki je {enapisal Avtor X?

kaj `e pomeni tabeseda...

poglejmo vslovar

jgdsfjhsdg hsgdfjshdgf khgd

jshgdfj jdhsgfjh dfhjgjshgdfj jdh gfjh dfhjgjshgdfj jdhsgfjh dfhjgjshgdfj jdhsgfjh dfhjgjsh dfj jdhsgfjh dfhjgjsh dfj jdh sgfjh dfhjg

jshgdfj jdhsgfjh dfhjgjshgdfj jd gfjh dfhjgjshgdfj jdhsgfjh dfhjg

jgdsfjhsdg hsgdfjshdgf khgd

jshgdfj jdhsgfjh dfhjgjshgdfj jdh gfjh dfhjgjshgdfj jdhsgfjh dfhjgjshgdfj jdhsgfjh dfhjgjsh dfj jdhsgfjh dfhjgjsh dfj jdh sgfjh dfhjg

jshgdfj jdhsgfjh dfhjgjshgdfj jd gfjh dfhjgjshgdfj jdhsgfjh dfhjg

Slika 1: Obi~ajen sekven~en dokument je lahko tudi hipertekst.

Zbi

rke

poln

ih d

okum

ento

v

Strokovni dokument ima hipertekstne lastnosti!

Page 13: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 14

pi{~an~jesrce

vreten~arskosrce

sincicij

Sjostrand et al., 1958separacijacelic

jedro

citoplazma

interkalarnidiski

proteoliti~niencimi

ritmi~no bitje

Harary, 1962

miogeno bitje

transmembranskipotenciali

ravnote`je ionov

poglavji 8 in 12

mirovnipotencial

akcijskipotencial

Slika 2: Giese AC. Cell Phisiology. Pribl. 30% mo`nih hipertekstnih geselv dveh odstavkih na strani 611.

Zbi

rke

poln

ih d

okum

ento

v

Giese AC. Cell Phisiology. Približno 30% možnih hipertekstnih geselv dveh odstavkih enega stolpca na strani 611.

Strokovni dokument ima multimedijske lastnosti!

Page 14: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 15

Hipertekst, multimediji

Strokovni dokument ni linearno branje. Nevidna struktura strokovnega dokumenta

je semantična mreža. Tudi dokumenti v zbirki so na nek način

povezani s semantično mrežo. Strokovni dokument ni samo besedilo. Naravna načina zapisa strokovnih

dokumentov sta hipertekst in multimediji.

Page 15: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 16

Avtomatsko indeksiranje

Običajno, “intelektualno” indeksiranje je drago in zamudno,

Potrebujemo redko pasmo človeka z vsaj površnim znanjem stroke, iz katere so

dokumenti, dobrim poznavanjem informacijskih orodij in

postopkov. Avtomatsko indeksiranje: opisovanje vsebine

z avtomatskimi postopki, brez človeške intervencije.

Page 16: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 17

Avtomatsko indeksiranje

Vsebino dokumenta predstavlja sam dokument.

Avtomatski postopki iz njega izberejo ključne besede.

Najuspešnejše so t.i. statistične metode avtomatskega indeksiranja.

Del metod je jezikovno-odvisnih.

Page 17: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 18

Avtomatsko indeksiranje

Običajni postopki avtomatskega indeksiranja: blokiranje: izpuščanje besed brez vsebine

(vezniki, predlogi, prislovi, zaimki…), krnjenje: poenotenje različnih oblik neke

besede na skupni krn, vrednotenje besednih krnov: računanje

količine informacije (povedne moči) v njih.

Page 18: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 19

Avtomatsko indeksiranje

Krnjenje – uspešen in neuspešen primer:

besedne oblike: zdravilo, zdravila, zdravilomkrn: zdravil

vendar

besedne oblike: jetra, jeter, jetrom, jetrnikrn: jet (prekratek)

jetr (ne vključuje vseh oblik)

Page 19: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 20

Avtomatsko indeksiranje

Vrednotenje količine informacije v krnih: krn z večjo povedno močjo zastopa

pomembnejšo vsebino dokumenta, pomembne so frekvence krnov v dokumentu

in zbirki dokumentov, načeloma ima veliko povedno moč v nekem

dokumentu krn, ki je v tem dokumentu pogost in se pojavlja v majhnem številu dokumentov v

zbirki.

Page 20: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 25

Iskalni modeli

Boolov iskalni model: prevladuje pri bibliografskih zbirkah, pri iskanju razdeli zbirko na enostavni

množici relevantnih (poiskanih) zapisov in nerelevantnih (nepoiskanih) zapisov.

Ne-Boolovi iskalni modeli: relevantnost je zvezna lastnost - dokumenti

so lahko bolj ali manj relevantni.

Page 21: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 26

Iska

nje

– B

oolo

v m

odel

Page 22: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 27

Boolov iskalni model

operatorji IN, ALI, NE (AND, OR, NOT), iskalna zahteva

diabetes IN insulinpoišče vse zapise, ki vsebujejo oba deskriptorja;

iskalna zahtevadiabetes tip 1 ALI diabetes tip 2poišče vse zapise, ki vsebujejo prvega, drugega ali oba deskriptorja.

Page 23: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 28

Boolov iskalni model

Boolov iskalni model: iskalna zahteva

diabetes NE insulinpoišče vse zapise, ki vsebujejo deskriptor diabetes, ne pa deskriptorja insulin.

Page 24: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 29

Boolov iskalni model

Kritike Boolovega iskalnega modela:

z iskalno zahtevod1 IN d2 IN d3 IN d4bo poiskan le zapis, ki vsebuje vse štiri deskriptorje. Verjetno bi bil zanimiv tudi zapis, ki vsebuje le dva ali tri od njih.

Page 25: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 30

Boolov iskalni model

Kritike Boolovega iskalnega modela:

z iskalno zahtevod1 ALI d2 ALI d3 ALI d4bo poiskan vsak zapis, ki vsebuje vsaj enega od deskriptorjev. Vsi poiskani zapisi bodo enakovredni, čeprav je verjetno zapis z vsemi štirimi deskriptorji bolj relevanten od tistega z enim.

Page 26: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 31

Ne-Boolovi iskalni modeli

Primerni za zbirke polnih, avtomatsko indeksiranih dokumentov.

Računajo relevantnost kot podobnost med iskalno zahtevo in dokumentom.

Podobnost dokumenta izvira iz števila besed (krnov) skupnih iskalni zahtevi in dokumentu.

Pri računanju podobnosti se upoštevajo tudi povedne moči skupnih besed (krnov).

Page 27: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 32

Ne-Boolovi iskalni modeli

Če je relevantnost zvezna lastnost, potem je mogoče:

iskalcu ponuditi seznam rezultatov iskanja rangiran po relevantnosti,

iskalec pregleduje rangirane dokumente dokler še najde zanimive.

Tako delujejo spletni iskalniki, npr. Google.

Page 28: Tekstovne podatkovne zbirke

Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke 33

Iskalna zahteva: Slike prsnega koša v anatomskih atlasih na Svetovnem spletu

D1: Oddelek za anatomijo prsnega koša je dobil novo predavalnico…

D2: Učna zbirka slik anatomije prsnega koša zdaj tudi na Spletu…

skupni krni povedne moči relevantnost

D1 anatom 2prsn 2koš 3 skupaj: 7

D2 anatom 5prsn 8koš 10splet 3slik 3 skupaj: 29

ne-Boolovi iskalni modeli: primer rangiranja