27
1 Biblioteci digitale Biblioteci digitale pe structuri GRID pe structuri GRID Prezentator: Gheorghe Sebestyen Prezentator: Gheorghe Sebestyen

Digital Libraries on GRID_Timisoara_ro

Embed Size (px)

DESCRIPTION

Presentation on Digital libraries and GRID sorting for books.

Citation preview

Page 1: Digital Libraries on GRID_Timisoara_ro

1

Biblioteci digitale pe Biblioteci digitale pe

structuri GRIDstructuri GRID Prezentator: Gheorghe SebestyenPrezentator: Gheorghe Sebestyen

Page 2: Digital Libraries on GRID_Timisoara_ro

2

ContinutContinut Biblioteci clasice vs. biblioteci digitaleBiblioteci clasice vs. biblioteci digitale Cercetari recente in domeniul bibliotecilor digitale Cercetari recente in domeniul bibliotecilor digitale

(Digital Libraries - DLs)(Digital Libraries - DLs) Obiective si cerinte de proiectare pentru bibliotecile Obiective si cerinte de proiectare pentru bibliotecile

digitaledigitale Biblotecile digitale raportate la Sistemele de management Biblotecile digitale raportate la Sistemele de management

a continutului digital a continutului digital Biblioteci digitale bazate pe ontologie – biblioteci Biblioteci digitale bazate pe ontologie – biblioteci

semanticesemantice ““Grid-ificarea” bibliotecilor digitaleGrid-ificarea” bibliotecilor digitale Modelul unei Biblioteci digitale bazata pe o infrastructura Modelul unei Biblioteci digitale bazata pe o infrastructura

GRIDGRID Rezultate experimentale – Rezultate experimentale –

Cautare pe baza de cheiCautare pe baza de chei Tehnici de cautare si clasificare semanticaTehnici de cautare si clasificare semantica

Concluzii Concluzii

Page 3: Digital Libraries on GRID_Timisoara_ro

3

Biblioteci clasice si Biblioteci clasice si digitaledigitale

Biblioteca clasicaBiblioteca clasica o arhiva de cunostinte/informatii pe suport de o arhiva de cunostinte/informatii pe suport de

hartiehartie Masura a gradului de civilizatie a unei societatiMasura a gradului de civilizatie a unei societati

Biblioteca digitalaBiblioteca digitala Nu numaiNu numai o versiune digitizata a unei biblioteci o versiune digitizata a unei biblioteci Un set nou de Un set nou de functionalitati si serviciifunctionalitati si servicii (controlul accesului, (controlul accesului,

alocarea si managementul resurselor, servicii complexe de alocarea si managementul resurselor, servicii complexe de cautare si regasire)cautare si regasire)

Un mediu pentru Un mediu pentru schimb de informatii si cooperareschimb de informatii si cooperare Contine o mare varietate de date in Contine o mare varietate de date in diverse formatediverse formate (text, (text,

audio, video, documente compuse, obiecte digitale si colectii)audio, video, documente compuse, obiecte digitale si colectii) Bibliotecile digitale sunt Bibliotecile digitale sunt sisteme informatice complexesisteme informatice complexe care care

acopera toate aspectele legate de crearea, stocarea, acopera toate aspectele legate de crearea, stocarea, procesarea, distributia si accesul la la date procesarea, distributia si accesul la la date

Page 4: Digital Libraries on GRID_Timisoara_ro

4

Tehnologii IT si de comunicatie implicate in Tehnologii IT si de comunicatie implicate in implementarea bibliotecilor digitaleimplementarea bibliotecilor digitale

http://mapageweb.umontreal.ca/turner/meta/english/metamap.html

Page 5: Digital Libraries on GRID_Timisoara_ro

5

Obiective pentru o biblioteca Obiective pentru o biblioteca digitala modernadigitala moderna

Viziunea proiectului DELOS – Viziunea proiectului DELOS – ““sa permita oricarei persoane accesul la orice sa permita oricarei persoane accesul la orice

informatie (cunostinte) oriunde si oricand, intr-un informatie (cunostinte) oriunde si oricand, intr-un mod prietenos, eficient efectiv si multi-modal prin mod prietenos, eficient efectiv si multi-modal prin eliminarea barierelor de distanta, limba, si cultura si eliminarea barierelor de distanta, limba, si cultura si prin utilizarea de dispozitive interconectate pe prin utilizarea de dispozitive interconectate pe Internet” Internet”

Biblioteca digitala = o Biblioteca digitala = o arhiva de cunostintearhiva de cunostinte si o si o infrastructura pentru schimbul de informatiiinfrastructura pentru schimbul de informatii care permite generarea, stocarea si accesul usor la care permite generarea, stocarea si accesul usor la date independent de distributia resurselor fizice, a date independent de distributia resurselor fizice, a bazelor de date si a persoanelor.bazelor de date si a persoanelor.

Implementarea unei biblioteci digitale necesita Implementarea unei biblioteci digitale necesita infrastructura si servicii de calcul si de infrastructura si servicii de calcul si de comunicatie de inalta performanta comunicatie de inalta performanta

Page 6: Digital Libraries on GRID_Timisoara_ro

6

Cercetari in domeniul Bibliotecilor Cercetari in domeniul Bibliotecilor digitaledigitale

Delos Network of Excellence – Delos Network of Excellence – Obiectivul: definirea si implementarea de biblioteci digitale pe Obiectivul: definirea si implementarea de biblioteci digitale pe

tehnologii noi de calcul si de comunicatietehnologii noi de calcul si de comunicatie Realizari: definirea Realizari: definirea cerintelor functionale si arhitecturalecerintelor functionale si arhitecturale

pentru o biblioteca digitala pentru o biblioteca digitala Proiectul BRICKS Proiectul BRICKS

Obiectiv: proiectarea unui spatiu orientat pe utilizator si pe Obiectiv: proiectarea unui spatiu orientat pe utilizator si pe servicii pentru servicii pentru utilizarea in comun a cunostintelor si a utilizarea in comun a cunostintelor si a resurselorresurselor intr-un context multi-cultural intr-un context multi-cultural

Realizari: Realizari: Definirea unei arhitecturi de biblioteca pentru o comunitate forte Definirea unei arhitecturi de biblioteca pentru o comunitate forte

mare si eterogena de utilizatori, mare si eterogena de utilizatori, functii automate de adnotare si indexare a continutuluifunctii automate de adnotare si indexare a continutului

Proiectul OpenDlibProiectul OpenDlib Obiectiv: dezvoltarea unui instrument software (toolkit) Obiectiv: dezvoltarea unui instrument software (toolkit)

pentru gererarea de biblioteci digitale dedicate pentru gererarea de biblioteci digitale dedicate Realizari: instrumente pentru Realizari: instrumente pentru culegerea de continut digital culegerea de continut digital

(content harvesting)(content harvesting) din resurse existente din resurse existente Fedora, DSpace – software de tip “open source” pentru Fedora, DSpace – software de tip “open source” pentru

biblioteci digitale biblioteci digitale

Page 7: Digital Libraries on GRID_Timisoara_ro

7

Cercetari in domeniul Bibliotecilor Cercetari in domeniul Bibliotecilor digitaledigitale Proiectul Diligent (parte a proiectului EGEE)Proiectul Diligent (parte a proiectului EGEE)

Obiectiv: utilizarea infrastructurilor Grid pentru Obiectiv: utilizarea infrastructurilor Grid pentru implementarea bibliotecilor digitaleimplementarea bibliotecilor digitale

Realizari: o noua viziune privind conceptul de biblioteca Realizari: o noua viziune privind conceptul de biblioteca digitala: digitala:

Biblioteca digitala = un sistem dinamic de de stocare si Biblioteca digitala = un sistem dinamic de de stocare si management a continutului digital destinat unui scop bine definit management a continutului digital destinat unui scop bine definit (ex: proiect, curs, colectie de arta, etc.)(ex: proiect, curs, colectie de arta, etc.)

Definirea de servicii generice de biblioteca mapate pe servicii Definirea de servicii generice de biblioteca mapate pe servicii GridGrid

Experiment de catalogare automata a tuturor imaginilor Experiment de catalogare automata a tuturor imaginilor existente pe un portal de imaginiexistente pe un portal de imagini

Proiectul Sinred – Proiectul Sinred – un proiect national in cadrul Programului un proiect national in cadrul Programului de excelentade excelenta Obiectiv: dezvoltarea unui cadru/model national pentru Obiectiv: dezvoltarea unui cadru/model national pentru

biblioteci digitale destinate domeniilor stiintifice si tehnice biblioteci digitale destinate domeniilor stiintifice si tehnice Realizari: Realizari:

evaluarea cerintelor, evaluarea produselor software existente evaluarea cerintelor, evaluarea produselor software existente dezvoltarea unei infrastructuri Grid, dezvoltarea unei infrastructuri Grid, definirea unui model generic de biblioteca digitala, definirea unui model generic de biblioteca digitala, implementare si experimente de cautare si regasire in biblioteci implementare si experimente de cautare si regasire in biblioteci

digitale pe Griddigitale pe Grid

Page 8: Digital Libraries on GRID_Timisoara_ro

8

Cerinte pentru un sistem de Cerinte pentru un sistem de biblioteca digitalabiblioteca digitala

Cerinte arhitecturaleCerinte arhitecturale:: Natura distribuita a resurselor de stocare, procesare si de acces Natura distribuita a resurselor de stocare, procesare si de acces Scalabilitate, interoperabilitate si flexibilitate Scalabilitate, interoperabilitate si flexibilitate

Cerinte functionaleCerinte functionale: : Functii de bazaFunctii de baza: stocare, indexare si adnotare, cautare, : stocare, indexare si adnotare, cautare,

regasire de continut, managementul utilizatorilor si a resurselorregasire de continut, managementul utilizatorilor si a resurselor Organizarea continutului trebuie sa reflecte conexiunile Organizarea continutului trebuie sa reflecte conexiunile

semantice existente semantice existente Facilitati de procesareFacilitati de procesare

Servicii de procesare a datelor – specializate pentru diferite Servicii de procesare a datelor – specializate pentru diferite domeniidomenii

Identificarea modelelor (pattern-urilor) de cautare si regasirea Identificarea modelelor (pattern-urilor) de cautare si regasirea informatiilor pe baza acestora (de la chei de cautare la cautare informatiilor pe baza acestora (de la chei de cautare la cautare semantica)semantica)

Cerinte de calitate a serviciilor (QoS)Cerinte de calitate a serviciilor (QoS) Siguranta datelor si a accesuluiSiguranta datelor si a accesului Timp rezonabil de regasire a informatiilor relevanteTimp rezonabil de regasire a informatiilor relevante

Manamenentul utilizatorilor si controlul accesuluiManamenentul utilizatorilor si controlul accesului Promovarea ideii de Organizatie virtualaPromovarea ideii de Organizatie virtuala

Page 9: Digital Libraries on GRID_Timisoara_ro

9

Biblioteci digitale si/sau Biblioteci digitale si/sau Sisteme de gestiune a continutului Sisteme de gestiune a continutului

digitaldigital Sistem de management al continutului:Sistem de management al continutului: Sistem informatic destinat pentru stocarea, indexarea si Sistem informatic destinat pentru stocarea, indexarea si

clasificarea, vizualizarea si transmiterea datelor relevante clasificarea, vizualizarea si transmiterea datelor relevante pentru un anumit domeniu sau sfera de activitatepentru un anumit domeniu sau sfera de activitate

Gestionarea de formate foarte variate (continut web, Gestionarea de formate foarte variate (continut web, multimedia, documente tehnice, rapoarte economice, etc.)multimedia, documente tehnice, rapoarte economice, etc.)

Exemple: Exemple: eGovernment and eAdministration,eGovernment and eAdministration, Furnizare de continut Multi-media (muzica, film) Furnizare de continut Multi-media (muzica, film) Date de administrare a companiilorDate de administrare a companiilor Continut stiintific si tehnic: standarde, conferinte, cursuri Continut stiintific si tehnic: standarde, conferinte, cursuri

(eLearning) (eLearning) Biblioteci digitale:Biblioteci digitale:

Arhiva de continut digitalArhiva de continut digital Un tip de Sistem de management a continutuluiUn tip de Sistem de management a continutului Asigura un acces mai larg si deserveste obiective mai Asigura un acces mai larg si deserveste obiective mai

generale (ex: cel de informare)generale (ex: cel de informare) Cele doua concepte sunt dificil de delimitatCele doua concepte sunt dificil de delimitat

In viitor, mai multe biblioteci digitale cu un scop bine In viitor, mai multe biblioteci digitale cu un scop bine definitdefinit

Page 10: Digital Libraries on GRID_Timisoara_ro

10

Schema de principiu a unui SMCD

TextAudio

VideoText

Generare conţinut digital

Managementul esenţei

Extragere automata de caracteristici

Managementul metadatelor

Catalogare

Acces şi vizualizare

Sistem informatic

de catalogare

Page 11: Digital Libraries on GRID_Timisoara_ro

11

Abordarea pe baza de ontologii Abordarea pe baza de ontologii a Bibliotecilor digitalea Bibliotecilor digitale

Ontologie: concepte si relatii intre ele la un nivel Ontologie: concepte si relatii intre ele la un nivel mai abstractmai abstract

Ontologie pentru domeniul stiintific si tehnicOntologie pentru domeniul stiintific si tehnic Concepte de baza:Concepte de baza:

Obiecte digitale: Obiecte digitale: Asociere de continut, metadate si proceduri de prelucrare Asociere de continut, metadate si proceduri de prelucrare

si de acces a procedurilorsi de acces a procedurilor Colectii digitale:Colectii digitale:

Asocierea pe baza unui anumit criteriu a mai multor Asocierea pe baza unui anumit criteriu a mai multor obiecte digitaleobiecte digitale

Evenimente: Evenimente: continut asociat unei anumite manifestari (de scurta continut asociat unei anumite manifestari (de scurta

durata)durata) Exemple: Conferinte, workshop-uri, seminariiExemple: Conferinte, workshop-uri, seminarii

Procese: Procese: continut asociat unei activitati de duratacontinut asociat unei activitati de durata Exemple: Proiecte, CursuriExemple: Proiecte, Cursuri

Organizatii virtualeOrganizatii virtuale RoluriRoluri UtilizatoriUtilizatori

Page 12: Digital Libraries on GRID_Timisoara_ro

12

Taxomonia documentelor digitaleTaxomonia documentelor digitale in stiinta si in stiinta si tehnicatehnica

Page 13: Digital Libraries on GRID_Timisoara_ro

13

Alte taxonomiiAlte taxonomii

Page 14: Digital Libraries on GRID_Timisoara_ro

14

apartine laprezentat

la

consta din

este un

este o

precizat in

organizat de

membru a

participa ca

dezvoltat deOrganizat

ie virtuala

Proiect

UtilizatorRol

ColectieEvenime

nt

Obiect digital

Metadate Date

Concepte si relatii Concepte si relatii

Page 15: Digital Libraries on GRID_Timisoara_ro

15

Modelul de Biblioteca Modelul de Biblioteca digitaladigitala

Interfete utilizator

OAI-PMH Data Provider

Managementul metadatelor

Managementul continutului

Management utilizatori

Functii de cautare

Managementul securitatii

Nivel de prezentare

Nivelul de administrare si acces

Procesare cereri

Ontologie Metadate (BD)

Arhiva dig. (Repository)

Nivelul de stocare

Nivelul de prezentare Nivelul de prezentare - componente care - componente care comunica cu lumea in comunica cu lumea in afara sistemuluiafara sistemului

Nivelul de Nivelul de administrare si acces – administrare si acces – manipuleaza manipuleaza continutul, utilizatorii continutul, utilizatorii si organizatiile vitualesi organizatiile vituale

Nivelul de stocare – Nivelul de stocare – stocarea metadatelor stocarea metadatelor si a continutuluisi a continutului

Page 16: Digital Libraries on GRID_Timisoara_ro

16

Servicii de biblioteca digitala Servicii de biblioteca digitala pe GRIDpe GRID

De ce Biblioteci digitale pe GRID?De ce Biblioteci digitale pe GRID? Un volul imens de documente digitaleUn volul imens de documente digitale Acces concurent si motoare multiple de cautare Acces concurent si motoare multiple de cautare

(vezi Google)(vezi Google) Furnizare de continut multimedia on-line Furnizare de continut multimedia on-line

(Multimedia streaming)(Multimedia streaming) Indexare, catalogare si adnotare automataIndexare, catalogare si adnotare automata Procesari complexe de date (ex: recunoasterea si Procesari complexe de date (ex: recunoasterea si

catalogarea automata a continutului multi-media) catalogarea automata a continutului multi-media) necesita timp de executie prohibitiv de marenecesita timp de executie prohibitiv de mare

Managementul utilizatorilor si alocarea Managementul utilizatorilor si alocarea resurselor prin Organizatii virtualeresurselor prin Organizatii virtuale

Facilitati de distribuire a sarcinilor oferite de Facilitati de distribuire a sarcinilor oferite de serviciile Gridserviciile Grid

Page 17: Digital Libraries on GRID_Timisoara_ro

17

““Grid-ificarea” modelului Grid-ificarea” modelului de biblioteca digitala de biblioteca digitala

Distribuirea continutului si replicareDistribuirea continutului si replicare Controlul accesului la date prin:Controlul accesului la date prin:

Organizatii virtuale, Organizatii virtuale, Certificarea si autentificarea utilizatorilorCertificarea si autentificarea utilizatorilor Atribuirea de roluriAtribuirea de roluri

Executia paralela a procedurilor de cautare si Executia paralela a procedurilor de cautare si clasificareclasificare Aceeasi procedura de cautare aplicata in paralel pe Aceeasi procedura de cautare aplicata in paralel pe

mai multe documente, pe mai multe noduri Grid mai multe documente, pe mai multe noduri Grid Distribuirea fazelor de executie ale unei proceduri Distribuirea fazelor de executie ale unei proceduri

de cautare (parsare, calculul vectorilor de de cautare (parsare, calculul vectorilor de caracteristici, identificare si selectie, caracteristici, identificare si selectie, clasificare) ????clasificare) ????

Page 18: Digital Libraries on GRID_Timisoara_ro

18

Modelul de Biblioteca Modelul de Biblioteca digitala pe o infrastructura digitala pe o infrastructura

GridGrid

Resurse de calcul, de stocare si de comunicatie

Biblioteca digitala

Servicii Grid

Managementul

colectiilor

Managementul si

catalogarea metadatelor

Managementul obiectelor digitale

Managementul

utilizatorilor

Vizualizarea

datelor

Managementul

organizatiilor virtuale

Managementul

resurselor

Distributia Task-urilor

Procesare

Distributia si

replicarea datelor

Procesarea

datelor

Page 19: Digital Libraries on GRID_Timisoara_ro

19

ExperimenteExperimente Implementarea unei biblioteci digitale pe platforma Implementarea unei biblioteci digitale pe platforma

Alchemi Grid (Microsoft)Alchemi Grid (Microsoft) Distributia sarcinilor la nivel de fire de executie (thread-uri)Distributia sarcinilor la nivel de fire de executie (thread-uri) Programare Grid explicitaProgramare Grid explicita Experimente de furnizare in paralel de continut multimedia Experimente de furnizare in paralel de continut multimedia

(multimedia content streaming)(multimedia content streaming) Implementarea unei biblioteci digitale pe platforma Implementarea unei biblioteci digitale pe platforma

Condor Grid (Open source)Condor Grid (Open source) Distributia sarcinilor la nivel de task-uriDistributia sarcinilor la nivel de task-uri Distributia sarcinilor si a datelor este transparenta pentru Distributia sarcinilor si a datelor este transparenta pentru

aplicatia de biblioteca (distributia se face prin script-uri) aplicatia de biblioteca (distributia se face prin script-uri) Experimente de cautare de documente pe baza de cuvinte Experimente de cautare de documente pe baza de cuvinte

cheie (cautare in continut si nu in catalogul de metadate)cheie (cautare in continut si nu in catalogul de metadate) Timpul de executie scade cu numarul de noduri executoare Timpul de executie scade cu numarul de noduri executoare

utilizateutilizate Pentru mai mult de 5 executoare timpul de planificare si Pentru mai mult de 5 executoare timpul de planificare si

comunicatie devine comparabil cu cel de procesarecomunicatie devine comparabil cu cel de procesare Cautare statistica si semanticaCautare statistica si semantica

Page 20: Digital Libraries on GRID_Timisoara_ro

20

ExperimenteExperimente

Execution time v. s. number of executor nodes

0

1000

2000

3000

4000

5000

6000

7000

8000

1 2 3 4 5

Nodes

Tim

e (

s)

Search execution time

Scheduling andcommunication time(case 1)

Scheduling andcommunication time(case 2)

Total time (case1)

Total time (case2)

Page 21: Digital Libraries on GRID_Timisoara_ro

21

Cautare statistica si Cautare statistica si semanticasemantica

Ideea: Ideea: regasirea sau catalogarea unor documente pe regasirea sau catalogarea unor documente pe

baza unor documente date ca exemplubaza unor documente date ca exemplu Regasire prin similaritateRegasire prin similaritate

Algoritmi:Algoritmi: Algoritm de cautare de tip “Naive Bayesian”Algoritm de cautare de tip “Naive Bayesian” Algoritm Topic-Based Vector Space Model

(TVSM) Beneficiile implementarii acestor Beneficiile implementarii acestor

algoritmi folosind sisteme Grid:algoritmi folosind sisteme Grid: Performante mai bune la timpul de procesarePerformante mai bune la timpul de procesare Distributia documentelorDistributia documentelor

Page 22: Digital Libraries on GRID_Timisoara_ro

22

Algoritmul Naive Bayes – Algoritmul Naive Bayes – 1 1

Scop:Scop: Clasificarea datelor neetichetate cu ajutorul Clasificarea datelor neetichetate cu ajutorul

unor estimari folosind date de antrenare unor estimari folosind date de antrenare etichetateetichetate

Conform cu teorema Bayes se poate obtine Conform cu teorema Bayes se poate obtine probabilitatea posterioara cunoscandprobabilitatea posterioara cunoscand probabilitatea anterioara probabilitatea anterioara

probabilitatea ca un document sa apartina la un probabilitatea ca un document sa apartina la un subiectsubiect

Probabilitatile pentru noile date de antrenare Probabilitatile pentru noile date de antrenare ale unui clasificator (evidence) ale unui clasificator (evidence)

P(D|T)/(P(D| T ) unde: D– document, T – topic P(D|T)/(P(D| T ) unde: D– document, T – topic

Page 23: Digital Libraries on GRID_Timisoara_ro

23

Algoritmul Naive Bayes – Algoritmul Naive Bayes – 22

Estimarea acestor probabilitati se face prin Estimarea acestor probabilitati se face prin masurarea frecventei de aparitie a masurarea frecventei de aparitie a cuvintelor intr-un set de documente de cuvintelor intr-un set de documente de antrenare.antrenare.

wwkk este cuvantul este cuvantul k k din cele din cele nn cuvinte ale documententului D cuvinte ale documententului D

Documentele neetichetate se folosesc Documentele neetichetate se folosesc pentru a imbunatati setul de documente de pentru a imbunatati setul de documente de antrenareantrenare

Cuvintele din document sunt independente Cuvintele din document sunt independente de contextde context

)|(

)|(*......*

)|(

)|(*

)|(

)|(

)|(

)|(

)|(

)|(

2

2

1

1

.........2,1

.........2,1

TwP

TwP

TwP

TwP

TwP

TwP

TwwwP

TwwwP

TDP

TDP

n

n

n

n

Page 24: Digital Libraries on GRID_Timisoara_ro

24

Topic-Based Vector Space Topic-Based Vector Space ModelModel (TVSM) - 1(TVSM) - 1

ScopScop Clasificarea documentelor folosind o Clasificarea documentelor folosind o

abordare bazat pe spatii vectorialeabordare bazat pe spatii vectoriale Pasi de procesare:Pasi de procesare:

Eliminarea cuvintelor nerelevante (Stopwords) – Eliminarea cuvintelor nerelevante (Stopwords) – acesti termeni nu influenteaza sensul documentuluiacesti termeni nu influenteaza sensul documentului

Exemple: si, in, ca, pana, cand,…Exemple: si, in, ca, pana, cand,… Stemming –Stemming – reducerea formei cuvintelor la reducerea formei cuvintelor la

radacinaradacina Exemplu: “software” -> “soft”Exemplu: “software” -> “soft”

Substitutia tezaurului de cuvinteSubstitutia tezaurului de cuvinte – inlocuirea – inlocuirea sinonimelor cu un cuvant cheiesinonimelor cu un cuvant cheie

Page 25: Digital Libraries on GRID_Timisoara_ro

25

Topic-Based Vector Space Topic-Based Vector Space ModelModel (TVSM) - 2(TVSM) - 2

Descriere algoritm:Descriere algoritm: Utilizatorul defineste un profil prin asocieaza unor Utilizatorul defineste un profil prin asocieaza unor

documentele la clase predefinitedocumentele la clase predefinite Restul documentelor se clasifica in concordanta cu Restul documentelor se clasifica in concordanta cu

documentele similaredocumentele similare Documentele noi clasificate imbunatatesc profilulDocumentele noi clasificate imbunatatesc profilul

Se presupune ca termenii (cuvintele) sunt Se presupune ca termenii (cuvintele) sunt elementele atomice ale unui documentelementele atomice ale unui document

Similaritatea dintre doi termeni:Similaritatea dintre doi termeni:

Sim(i,j) = cos ωSim(i,j) = cos ωi,ji,j єє [0,1]. [0,1]. ωωi,j i,j – unghiul dintre vectorii termenilor – unghiul dintre vectorii termenilor i i si si jj

Cuvintele care apartin unui subiect anume au Cuvintele care apartin unui subiect anume au lungimea de vector aproape de 1lungimea de vector aproape de 1

Page 26: Digital Libraries on GRID_Timisoara_ro

26

Topic-Based Vector Space Topic-Based Vector Space ModelModel (TVSM) - 2(TVSM) - 2

Axele Axele reprezinta subiecte reprezinta subiecte

elementareelementare pot avea doar valori pot avea doar valori

pozitivepozitive Fiecarui document Fiecarui document k k i i

se asocieaza un vector se asocieaza un vector ddk k

Asemanarea bazata pe Asemanarea bazata pe subiect sim(subiect sim(kk,,ll) dintre ) dintre doua documente doua documente kk si si ll este data de produsul este data de produsul scalar dintre vectorii scalar dintre vectorii documentelor respectivedocumentelor respective

Page 27: Digital Libraries on GRID_Timisoara_ro

27

ConcluziiConcluzii Bibliotecile digitale sunt sisteme informatice Bibliotecile digitale sunt sisteme informatice

complexe de management a continutului care extind complexe de management a continutului care extind functionalitatile bibliotecilor clasice:functionalitatile bibliotecilor clasice: Mediu pentru schimb de informatii si cooperareMediu pentru schimb de informatii si cooperare Organizarea semantica a unor informatii diverse ca format Organizarea semantica a unor informatii diverse ca format Acces controlat la date distribuiteAcces controlat la date distribuite

Infrastructurile Grid pot sa ofere un suport de Infrastructurile Grid pot sa ofere un suport de implementare fezabil pentru bibliotecile digitaleimplementare fezabil pentru bibliotecile digitale Pentru distribuirea automata a datelor si a sarcinilor de Pentru distribuirea automata a datelor si a sarcinilor de

procesareprocesare Pentru transfer eficient de date si sincronizarePentru transfer eficient de date si sincronizare Pentru managementul utilizatorilor si controlul accesuluiPentru managementul utilizatorilor si controlul accesului

Probleme: Probleme: Multe platforme GRID adopta un stil de procesare de tip Multe platforme GRID adopta un stil de procesare de tip

“prelucrare pe loturi (batch)” in care lipseste “prelucrare pe loturi (batch)” in care lipseste interactivitateainteractivitatea

Programatorul aplicatiei de biblioteca este implicat in mica Programatorul aplicatiei de biblioteca este implicat in mica masura in procesul de grid-ificare (executie pe Grid). masura in procesul de grid-ificare (executie pe Grid).